Consistency analysis and improvement of matabolic databases for the integration of metabolic models

Modern systems biology uses analysis and modeling of large metabolic networks. These models can be assembled by integrating data from sources SBML files and online databases. Sometimes this integration can be challenging, as information can be hidden in human-readable texts or annotational layers not directly accessible with the help of common methods. Here, it is shown how algebraic analysis can be used to unravel structural information hidden in the kinetic laws of SBML models. Additionally, this work will demonstrate the Organization Theory approach and its application for inconsistency detection on the Biomodels Database. The usefulness of combining algebraic analysis and OT is shown by comparing the gathered results with data originating from other methods, like FBA. It is shown how scientific methods can be prone to an incorrect interpretation of the data given as well as their representation format. Complementing the analysis of data given in SBML model files, we also present a tool designed to help identifying microbial communities suited to perform biodegradation tasks. The preliminaries needed to perform such a task are discussed together with problems that hinder automatic solution of metabolic research questions. Problems usually occuring in the work with databases are specified and investigated in dato; using the KEGG databse as the main source. Strategies to circumvent the found problems by rule-based network descriptions are sketched out. A detailed description of the idea of rule-based databases for metabolic and biological data will be given. Subsequently, possible applications are listed, giving examples for reasonably simple models. A new formalism will be presented which might suit the task better than more general formalisms like BGNL, which is indeed a very powerful, yet rather tedious methodology. Finally, we will give an account of the advantages and challenges of networks modeled with the rule-based description introduced in this work.

Moderne Systembiologie nutzt Analyse und Modellierung von metabolischen Netzwerken im großen Maßstab. Solche Modelle sind durch das Verweben von Daten aus verschiedenen Quellen wie SBML-Dateien oder Internet-Datenbanken erreichbar. Die Zusammenführung dieser Daten stellt uns vor Schwierigkeiten, da oft Informationen in für das menschliche Auge gedachten Texten versteckt sind. Teilweise sind Daten auch in Notations-Ebenen versteckt, die sich herkömmlichen Verfahren nicht direkt erschließen. In dieser Schrift wird unter anderem aufgezeigt, wie algebraische Analysen genutzt werden können um strukturelle Informationen freizulegen, die in den Massenwirkungsgesetzen von SBML-Dateien annotiert sind. Des weiteren wird der Organisationstheorie-Ansatz und dessen Anwendung für die Detektion von Unschlüssigkeiten in der Biomodels-Datenbank demonstriert. Ein Vergleich der Ergebnisse dieser Kombination von algebraischer Analyse und Organisationstheorie mit anderen Methoden wie der Fluss-Balance-Analyse (FBA) soll dann die Nützlichkeit dieses Verfahrens belegen. Es wird gezeigt, wie fehleranfällig wissenschaftliche Methoden sind, wenn die zu Grunde liegenden Daten fehlerbehaftet sind. Die Analyse der Biomodels-Datenbank, wird ergänzt durch ein Programm, das entworfen wurde um bestimmte Bakteriengemeinschaften zu ergründen: Diese Bakteriengemeinschaften sollen genutzt werden um auf biologischem Wege Altlasten zu vermindern. Des weiteren wird auf die Schwierigkeiten eingegangen, die unweigerlich auftreten, wenn versucht wird eine automatisierte Lösung für dieses Problem zu finden. Um tiefer in die Welt dieser Probleme einzutauchen wird in einem weiteren Kapitel die KEGG-Datenbank nach Inkonsistenzen durchleuchtet. In der Diskussion der gefundenen Fehler spielt der Umstieg auf regelbasierte Beschreibungen chemischer Reaktionen eine wesentliche Rolle. Es wird ein Formalismus für regelbasierte Moleküle und Reaktionen vorgestellt und mögliche Anwendungen postuliert.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.