Loading…
Thumbnail Image

Novel Machine Learning Methods for Computational Chemistry

Hansen, Katja

Die Untersuchung komplexer pharmakokinetischen Eigenschaften, wie Absorption, Disposition, Metabolismus oder Toxizität, ist bei Arzneistoffen mit einem enormen experimentellen Aufwand und erheblichen Kosten verbunden. Computergestützte Vorhersageverfahren, wie maschinelle Lernverfahren, können diese Eigenschaften vorhersagen und stellen somit eine effiziente Alternative zum experimentellen Ansatz dar. Allerdings werden diese Verfahren aufgrund ihrer oft unklaren und wechselhaften Genauigkeit nur zögerlich eingesetzt. Ziel dieser Arbeit ist es, die Akzeptanz und die Anwendungsmöglichkeiten von maschinellen Lernverfahren in der chemischen Forschung zu erweitern. Im ersten Teil der Arbeit steht die Verbesserung von kernbasierten maschinellen Lenverfahren in Bezug auf die Anwendungen in der Wirkstoffforschung im Vordergrund. Im ersten Kapitel wird ein neuer Algorithmus, StructRank, für das virtuelle Screening entwickelt. Dieser Algorithmus ist ideal an die Anforderungen des virtuellen Screenings angepasst, da er eine Rangordnung von Molekülen vorhersagt und Moleküle mit einer hohen Bindungsaffinität besonders stark berücksichtigt. Das zweite Kapitel beschäftigt sich mit dem Vergleich und der Kombination von Lernverfahren zu einem leistungsstärkeren Ensemble. Anhand von Daten zur Inhibition des hERG Rezeptors werden die Grenzen und Möglichkeiten verschiedener Verfahren untersucht. Eine lokale Bias-Korrektur kristallisiert sich hierbei als ein schnelles und effizientes Verfahren zur Einbindung neuer Messergebnisse ohne erneute Anpassung des Modells heraus. Im Rahmen dieser Studie wird auch ein neues Kreuz-Validierungs-Schema untersucht, welches das Extrapolationsvermögen von Prädiktionsmodellen stärker berücksichtigt. Das Extrapolationsvermögen ist in der chemischen Forschung von besonderer Bedeutung, da die neu zu untersuchenden Verbindungen sich oftmals deutlich von allen zuvor untersuchten Molekülen unterscheiden. Im zweiten Teil der Arbeit werden neue Ansätze zur Bewertung und Interpretation computergestützter Vorhersagen untersucht. Zunächst wird ein Verfahren zur Berechnung des Einflusses einzelner Trainingsdatenpunkte auf eine Vorhersage hergeleitet. Anschließend werden die einflussreichsten Verbindungen als Erklärungshilfen zusammen mit der Vorhersage visualisiert und dieser Erklärungsansatz in einer empirischen Studie evaluiert. Lokale Gradienten repräsentieren einen zweiten neuen Ansatz zur Interpretation von Vorhersagen. Sie messen den lokalen Einfluss einzelner chemischer Eigenschaften auf die Vorhersage. Mit diesem Verfahren werden sowohl globale als auch lokale Tendenzen auf einem Datensatz zur Ames Mutagenität erfasst und Besonderheiten von Verbindungsklassen, wie z.B. Steroiden identifiziert. Eine Studie zur Berechnung von Reaktionsraten mit Hilfe von lokalen Gradienten im Rahmen der Theorie des Übergangszustandes verdeutlicht abschießend die Relevanz der erarbeiteten Verfahren außerhalb der Wirkstoffforschung. Insgesamt beinhaltet diese Arbeit neue Ideen und Methoden zur Beurteilung und Verbesserung von maschinellen Lernverfahren, um die Anwendungsmöglichkeiten dieser Verfahren in der chemischen Forschung nachhaltig zu erweitern.
The experimental assessment of absorption, distribution, metabolism, excretion, toxicity and related physiochemical properties of small molecules is counted among the most time- and cost-intensive tasks in chemical research. Computational approaches, such as machine learning methods, represent an economic alternative to predict these properties, however, the limited accuracy and irregular error rate of these predictions restrict their use within the research process. This thesis introduces and evaluates new ideas to enhance the acceptance and usage of kernel-based machine learning models in chemical research. The first part of the thesis investigates different approaches to improve the quality of machine learning predictions in drug discovery. By taking the precise chemical application into account we derive a new virtual screening algorithm, StructRank, which enables to focus on the correct ranking of compounds with high binding affinities. Then, the limits of single and ensemble learning methods are analyzed in the context of hERG inhibition. Since the drug discovery process often requires the assessment of new chemical series different to previously examined structures, we introduce and evaluate a clustered cross-validation scheme that stresses the extrapolation capacity of models. We present a local bias correction to incorporate new measurements efficiently and without the need for model retraining. The second part of the thesis is concerned with two different approaches to assess the reliability and interpretability of kernel-based prediction models. The first approach builds on the visual interpretation of predictions based on the most relevant training compounds. A compact method to calculate the impact of training compounds on single predictions is derived and the resulting visualizations are evaluated in a questionnaire study. The second approach addresses interpretability in terms of chemical features. Here, local gradients are employed to measure the local influence of specific chemical features on a predicted property. The capacity of this approach to identify local as well as global trends in Ames mutagenicity data, and, to reveal unique characteristics of compound classes such as steroids is depicted. Finally, we show that the potential of the developed methods extends beyond drug discovery by using local gradients to enhance the assessment of reaction rates in transition state theory. While computational chemistry remains a challenging field of application for machine learning, the present work introduces methods to improve and assess the quality of machine learning predictions in order to increase the usage of these methods in chemical research.