Assessment of modeling strategies for drug response prediction in cell lines and xenografts

Kurilov, Roman

German Title: Evaluation von Modellierungsstrategien für die Vohersage des Wirkstoffansprechens in Zelllinien und Xenotransplantaten.

Preview

PDF, English - main document
Download (7MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00026166
URN: urn:nbn:de:bsz:16-heidok-261663
URL: http://www.ub.uni-heidelberg.de/archiv/26166

Abstract

Despite significant progress in cancer research, effective cancer treatment is still a challenge. Cancer treatment approaches are shifting from standard cytotoxic chemotherapy regimens towards a precision oncology paradigm, where a choice of treatment is personalized, i.e. based on a tumor’s molecular features. In order to match tumor molecular features with therapeutics we need to identify biomarkers of response and build predictive models. Recent growth of large-scale pharmacogenomics resources which combine drug sensitivity and multi-omics information on a large number of samples provides necessary data for biomarker identification and drug response modelling. However, although many efforts of using this information for drug response prediction have been made, our ability to accurately predict drug response using genetic data remains limited.

In this work we used pharmacogenomics data from the largest publicly available studies in order to systematically assess various aspects of the drug response model-building process with the ultimate goal of improving prediction accuracy. We applied several machine learning methods (regularized regression, support vector machines, random forest) for predicting response to a number of drugs. We found that while accuracy of response prediction varies across drugs (in most of the cases R2 values vary between 0.1 and 0.3), different machine learning algorithms applied for the the same drug have similar prediction performance. Experiments with a range of different training sets for the same drug showed that predictive power of a model depends on the type of molecular data, the selected drug response metric, and the size of the training set. It depends less on number of features selected for modelling and on class imbalance in training set. We also implemented and tested two methods for improving consistency for pharmacogenomics data coming from different datasets.

We tested our ability to correctly predict response in xenografts and patients using models trained on cell lines. Only in a fraction of the tested cases we managed to get reasonably accurate predictions, particularly in case of response to erlotinib in the NSCLC xenograft cohort, and in cases of responses to erlotinib and docetaxel in the NSCLC and BRCA patient cohorts respectively.

This work also includes two applied pharmacogenomics analyses. The first is an analysis of a drug-sensitivity screen performed on a panel of Burkitt cell lines. This combines unsupervised data exploration with supervised modelling. The second is an analysis of drug-sensitivity data for the DKFZ-608 compound and the generation of the corresponding response prediction model.

In summary, we applied machine learning techniques to available high-throughput pharmacogenomics data to study the determinants of accurate drug response prediction. Our results can help to draft guidelines for building accurate models for personalized drug response prediction and therefore contribute to advancing of precision oncology.

Translation of abstract (German)

Trotz erheblicher Fortschritte in der Krebsforschung bleibt die effektive Behandlung von Krebs eine Herausforderung. Die Behandlungsansätze verschieben sich von der üblichen zytotoxischen Chemotherapie hin zu einem präzisionsonkologischen Modell, in dem die Behandlungswahl personalisiert ist und auf den molekularen Eigenschaften des Tumors basiert. Um passende Therapeutika für die molekularen Krebseigenschaften zu finden, müssen Biomarker für das Therapieansprechen identifiziert und prädiktive Modelle erstellt werden. Das jüngste Wachstum an umfassenden pharmacogenomischen Ressourcen, die Wirkstoffsensitivität und multi-omics Informationen einer großen Anzahl an Proben vereinen, liefern die nötigen Daten für Biomarker-Identifizierung und Erstellung von Modellen zum Wirkstoffansprechen. Trotz vieler Bemühungen diese Informationen zur Vorhersage von Therapieansprechen zu nutzen, bleiben die Möglichkeiten, Wirkstoffansprechen präzise aus genetischen Daten vorherzusagen, begrenzt.

In der vorliegenden Arbeit wurden pharmacogenomische Daten der größten öffentlich verfügbaren Studien genutzt, um systematisch verschiedene Aspekte der Erstellungsprozesse von Wirkstoff-Ansprech-Modellen einzuschätzen, mit dem ultimativen Ziel die Vorhersagegenauigkeit zu verbessern. Mehrere maschinelle Lernverfahren (regularisierte Regression, Support Vector Machinen, Random Forest) wurden auf eine Vielzahl von Wirkstoffen angewandt, um das Ansprechen vorherzusagen. Dabei wurde herausgefunden, dass die Genauigkeit der Ansprechvorhersage von Wirkstoff zu Wirkstoff variiert (in dem meisten Fällen liegen die R2-Werte zwischen 0.1 und 0.3). Die verschiedenen Algorithmen für maschinelles Lernen weisen aber ähnliche Prognosefähigkeiten auf, wenn sie auf den gleichen Wirkstoff angewandt werden. Experimente mit einer Reihe verschiedener Trainingsdatensätze für den gleichen Wirkstoff haben gezeigt, dass die Vorhersagekraft eines Modells von der Art der molekularen Daten, der gewählten Metrik für Wirkstoffansprechen und der Größe des Trainingsdatensatzes abhängt. Es hängt dagegen weniger von der Anzahl der Merkmale, die für die Modellierung gewählt wurden, oder dem Ungleichgewicht der Klassen im Trainingsdatensatz ab. Außerdem wurden zwei Methoden implementiert und getestet, die die Konsistenz von Pharmacogenomicsdaten aus verschiedenen Datensätzen verbessert.

Desweiteren wurde evaluiert, ob das Ansprechen in Xenotransplantaten und Patienten mit Hilfe von Modellen, die auf Zelllinien trainiert wurden, vorhergesagt werden kann. Hinreichend genaue Prognosen konnten nur in einem Bruchteil der getesteten Fälle erreicht werden, vor allem in Bezug auf Erlotinib in der NSCLC Xenotransplantat Kohorte beziehungsweise Erlotinib und Docetaxel in den NSCLC und BRCA Patientenkohorten.

Diese Arbeit beinhaltet auch zwei angewandte pharmakogenomische Analysen. Die erste ist eine Analyse eines Wirkstoffempfindlichkeitscreenings, welches auf einer Reihe von Burkitt Zelllinien basiert. Dabei wurde unüberwachte Datenerkundung mit überwachter Modell-Erstellung kombiniert. Die zweite ist eine Analyse der Wirkstoffempfindlichkeitsdaten für den DKFZ-608 Wirkstoff und die Erstellung des zugehörigen Modells zur Ansprechensvorhersage.

Zusammengefasst wurden maschinelle Lernverfahren auf verfügbare Hochdurchsatz-Pharmacogenomicsdaten angewandt, um die Einflussfaktoren auf präzise Vorhersagen über Wirkstoffansprechen zu untersuchen. Die Ergebnisse können das Konzipieren von Richtlinien zur Erstellung genauer Modelle für das personalisierte Vorhersagen von Wirkstoffansprechen unterstützen und somit einen Beitrag für den Fortschritt der Präzisionsonkologie leisten.

Document type:	Dissertation
Supervisor:	Brors, Prof. Dr. Benedikt
Date of thesis defense:	15 February 2019
Date Deposited:	20 Mar 2019 08:18
Date:	2019
Faculties / Institutes:	The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification:	570 Life sciences