On the application of Bayesian statistics to protein structure calculation from nuclear magnetic resonance data

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/57852
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-578529
Dokumentart: Dissertation
Erscheinungsdatum: 2014-11-14
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Kohlbacher, Oliver (Prof. Dr.)
Tag der mündl. Prüfung: 2014-10-14
DDC-Klassifikation: 004 - Informatik
Schlagworte: Dissertation , Statistik , Bioinformatik , Maschinelles Lernen , Bayes-Entscheidungstheorie
Freie Schlagwörter: NMR
Bayessche Statistik
Strukturbioinformatik
Structural bioinformatics
Bayesian statistics
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Im Rahmen dieser Arbeit stellen wir neue Ansätze, basierend auf der Bayes’schen Statistik, zur Interpretation von experimentellen Daten in der NMR-Spektroskopie vor. Dabei bauen wir auf den Ergebnissen von Rieping et al. (2005) auf, die das Prinzip der inferentiellen Strukturbestimmung (ISD) eingeführt haben. Ihr probabilistischer Ansatz beruht auf der Faktorisierung der A-posteriori-Verteilung in die A-priori-Verteilung, welche die Proteinähnlichkeit einer möglichen Struktur bewertet, und die Likelihood-Funktion, welche die Übereinstimmung mit den experimentellen Daten beschreibt. Ziel dieser Arbeit ist es, die Qualität, aber auch die Vergleichbarkeit der Strukturberechnung in der NMR- Spektroskopie zu verbessern. Zuerst beschäftigen wir uns mit der Integration neuer experimenteller Datentypen in die Strukturrechnung. Dazu schlagen wir ein Hidden-Markov-Modell vor, das beruhend auf der chemischen Verschiebung die Dihedralwinkel und Sekundärstruktur vorhersagt. Eine Alternative zur Integration zusätzlicher experimenteller Information ist die Verbesserung der A-priori-Verteilung. In ISD beruht die A-priori-Verteilung auf einer Po- tentialfunktion, welche die frei Energie approximiert. Dennoch gibt es freie Parameter in Potentialfunktionen, wie die Temperatur oder doe Kraftkonstante, die festgelegt werden müssen. Wir benutzen Bayes’sche Hypothesentests, um die freien Parameter objektiv und beruhend auf den experimentellen Daten zu bestimmen. Die Anwendung der Bayes’schen Hypothesentests ermöglicht es uns, verschiedene Potentialfunktionen zu kombinieren, um aus verrauschten und unvollständigen Daten noch exakte Strukturen zu bestimmen. Weiterhin zeigen unsere Studien, dass für statistische Potentiale keine allgemeingültige Kraftkonstante existiert und diese anhand der experimentellen Daten bestimmt werden sollte. Im dritten Teil dieser Arbeit führen wir eine Methode ein, um neue Kraftfelder aus Strukturdatenbanken zu erlernen und damit die A-priori-Verteilung noch weiter zu verbessern. Dieses nichtlineare Problem ist auch als inverses Problems der statistischen Mechanik bekannt, das wir durch eine Generalisierung des Konzepts der "Configurational Temperature" lösen. Wir benutzen unsere Methode, um die Potentialfunktionen von vereinfachten Moleküldynamik Kraftfeldern zu rekonstruieren.

Abstract:

In the present work, we use concepts of Bayesian statistics to infer the three-dimensional structures of proteins from experimental data. We thus build upon the method of inferential structure determination (ISD) as introduced by Rieping et al. (2005). In line with their probabilistic approach, we factor the probability of a three-dimensional protein structure given the experimental data, into a prior distribution that captures the protein-likeness of a structure and the likelihood that describes how likely the experimental data were generated from a given three-dimensional structure. In this Bayesian framework, we attempt to develop structure calculation from NMR experiments into a highly accurate, objective and parameter-free process. We start by focusing on integrating new types of data, as ISD currently does not entail a mechanism to incorporate chemical shifts in the calculation process. To alleviate this shortcoming, we propose a hidden Markov Model that captures the relationship between protein structures and chemical shifts. Based on our probabilistic model, we are able to predict the secondary structure and dihedral angles of a protein from chemical shifts. Another means to high quality structures involves improving the potential functions that form the core of ISD’s prior distributions. Although potential functions are designed to approximate physical forces, there are still parameters, such as force constants and temperatures, that are set on an ad hoc basis and can bias the structure calculation. As an alternative, we propose an algorithm based on Bayesian model comparison to determine these parameters from the data. Further, we demonstrate that optimal data-dependent parameters lead to improved accuracy and quality of the final structure, especially with sparse and noisy data. These findings dismiss the notion of a single universal parameter and advocate the estimation of free parameters based on experimental data instead. Third, we focus on the estimation of new potential functions to include even more prior information in the structure calculation process. Currently, only a few methods allow the estimation of potential functions from a database of known structures. Our method provides a sound mathematical solution of this problem, which is also known as the inverse problem of statistical mechanics.We demonstrate the effectiveness of our approach on the examples of simple fluids and a coarse-grained protein model.

Das Dokument erscheint in: