A Superimposition Method for Small Ligand Molecules: Implementation and Application

Homeyer, Alexander von

A Superimposition Method for Small Ligand Molecules: Implementation and Application

Files

458_AlexanderVonHomeyerDissertation.pdf (4.57 MB)

Language

en

Document Type

Doctoral Thesis

Issue Date

2007-06-29

Issue Year

2007

Authors

Homeyer, Alexander von

Abstract

The aim of the present work was to extend an already available method for the superimposition of three-dimensional models of molecules by implementing new features. The flexible alignment of molecules assists in the detection of similarities between compounds. The determination of similarities between molecules plays an important role in drug design. The three-dimensional maximum common substructure (3D-MCSS) of compounds is an adequate similarity measurement. The 3D-MCSS represent the spatial arrangement of the largest structural fragment that they have in common. The program GAMMA (Genetic Algorithm for Multiple Molecule Alignment) superimposes pairs or sets of molecules based on the combination of a genetic algorithm with a numerical optimization method called directed tweak. Genetic algorithms are stochastic optimization methods that are based on the principles of genetics and natural selection. They imitate mechanisms used by nature to adapt to a changing environment. The atoms to be matched can be discriminated by means of different chemical properties. Further, it is possible to select atoms in advance, which are supposed to be part of the 3D-MCSS. The restricted tournament selection prevents loss of genetic diversity during the optimization process and makes use of the Pareto fitness. As the search for the 3D-MCSS is a multidimensional problem that has to optimize three contradictory criteria, the size of the MCSS, the geometric fit and a stereochemical descriptor the Pareto optimization was introduced. This optimization technique does not only deliver one probably perfect 3D-MCSS per GA experiment but for each possible size of the common substructure an optimal geometric fit is produced that cannot be further minimized. The hybrid genetic algorithm was extended by implementing new features. An approach was developed that automatically extracts one optimal solution from a set of Pareto optimal solutions provided by the Pareto fitness used in the restricted tournament selection. The optimal feasible value is the one that is closest to a perceived ideal. A so-called Euclidean compromise solution was proposed that selects the best point in such a way that it minimizes the Euclidean distance to the ideal point. The calculation of physicochemical properties is required for the alignment process as the chemical features are used as matching criteria. A method for the automatic calculation of cutoff values for chemical features was developed that define ranges in which atoms are allowed to match with each other. To speed up the search process and to enable alignments of several thousand compounds the parallelization of the serial genetic algorithm using an island model allowing for the exchange of genetic information between different parallel processes was realized. Finally, ring flexibility was introduced by generating ring conformations by combining the current procedure with a library version of the 3D structure generator CORINA. Especially the introduction of the Euclidean compromise solution for the Pareto fitness and the automatic calculation of tolerance intervals for physicochemical properties increased the usability of the algorithm for larger datasets as the user of the program is not forced to interfere. Finally, the parallelization of the hybrid genetic algorithm facilitated the application of the presented method to virtual screening of compound libraries. The different methodologies have been applied in several studies. The applicability of the hybrid genetic algorithm was tested by means of four examples of usage with medium-sized and larger peptidic drug-like molecules. Superimpositions were performed where a user-defined molecule was used as a rigid template, to which the conformations of the other compounds adapt. First, superimposition studies were performed using ligands of membrane associated receptors for which no structural information is available. Here, the method demonstrated that it can identify substructural elements that are of relevance for receptor binding. In a second study, the calculated alignments of the hybrid GA were compared with experimental superimpositions and the predicted conformation of the test molecules with the bioactive conformations found in protein-ligand complexes. The method was tested on six ligand datasets that bind to various target molecules and for which crystallographic data on the binding mode is available: inhibitors of the herpes simplex type 1 thymidine kinase, streptavidin ligands, dihydrofolate reductase ligands, thrombin inhibitors, estrogen receptor α antagonists and penicillopepsin ligands. The molecules show differences in size and flexibility. It was possible to show that the application of the hybrid GA can produce reasonable molecule superimpositions. In the third study, different matching criteria applied to transition state inhibitors of the arginase II were compared. Here, it was possible to show that in the absence of knowledge on the target macromolecule a superimposition based on physicochemical properties is the appropriate solution while in the case that there is a certain level of knowledge on the binding interactions like hydrogen-bonding it is advisable to force the corresponding atoms taking part in these interactions to match. In the next study, the capability of GAMMA was demonstrated to extract active molecules similar to a query molecule from a compound library of flexible, drug-like molecules. The parallel version of the hybrid genetic algorithm was applied to perform two virtual screening (VS) experiments. The MDDR (MDL Drug Data Report) was selected as an example for a typical drug database. Celecoxib was used to screen for cyclooxygenase-2 (COX-2) inhibitors and diazepam to search for benzodiazepines. GAMMA was able to enrich the upper part of a ranked database list with active molecules in both experiments. It was possible to show that a much greater percentage of actives was enriched in the upper part of an ordered database than can be achieved with a random selection. In a last study, the combination of the flexible fitting of torsion angles of acyclic parts with the ability of to generate multiple ring conformations was applied. It was shown that the method is suitable for molecules that have a ring system of equal size and differ in the axial and equatorial positions of their substituents but also restrictions of the method could be shown when applied to molecules that contain rings of different size and large acyclic parts.

Abstract

Das Ziel der vorliegenden Arbeit war es, eine bereits vorhandene Methode für die Überlagerung von dreidimensionalen Molekülmodellen durch Implementierung neuer Funktionen zu erweitern. Die flexible Überlagerung von Molekülen ist eine wichtige Methode, um Ähnlichkeiten zwischen chemischen Verbindungen aufzufinden. Bei der Entwicklung neuer Wirkstoffe spielt die Ermittlung von Ähnlichkeiten zwischen Molekülen eine wichtige Rolle. Ein geeignetes Ähnlichkeitmaß ist die größte gemeinsame dreidimensionale Substruktur (3D-MCSS) von Verbindungen. Die 3D-MCSS stellt die räumliche Anordnung des größten gemeinsamen Strukturfragments dieser Verbindungen dar. Das Programm GAMMA (Genetic Algorithm for Multiple Molecule Alignment) überlagert Paare oder Gruppen von Molekülen. Der zugrunde liegende Algorithmus kombiniert einen genetischen Algorithmus mit einer numerischen Optimierungmethode. Genetische Algorithmen sind stochastische Optimierungmethoden, die auf den Grundregeln der Genetik und der natürlichen Selektion basieren. Sie ahmen die natürlichen Mechanismen, sich einer ändernden Umwelt anzupassen, nach. Die zu überlagernden Atome können aufgrund ihrer unterschiedlichen physikochemischen Eigenschaften voneinander unterschieden werden. Weiterhin ist es möglich Matchpaare zu erzwingen, also Atome auszuwählen, die Bestandteil der 3D-MCSS sein sollen, oder auf die die Substruktur begrenzt werden soll. Die Selektion des eingeschränkten Wettkampfs (engl.: Restricted Tournament Selection) (RTS) verhindert einen Verlust an genetischer Vielfalt und verwendet die so genannte Pareto Fitness während des Optimierungsprozesses. Da die Suche nach der 3D-MCSS ein mehrdimensionales Problem ist, das drei gegenläufige Kriterien optimiert, die Größe der MCSS, die geometrische Anpassung und einen Stereochemideskriptor, wurde das Konzept der Pareto Optimierung eingeführt. Diese Optimierungstechnik liefert nicht nur eine beste 3D-MCSS pro GA Experiment, sondern für jede möglicher Substrukturgröße wird ein Satz optimaler geometrischer Anpassungen ausgegeben, der nicht weiter optimiert werden kann. Der hybride genetische Algorithmus wurde erweitert, indem neue Methoden realisiert wurden. Es wurde eine Methode implementiert, die automatisch eine optimale Lösung aus einem Satz Pareto-optimaler Lösungen extrahiert, die durch die Selektion des eingeschränkten Wettkampfs ermittelt wurden. Dabei ist die beste Lösung diejenige, die einem zuvor definierten Idealpunkt am ehesten entspricht. Es wurde die so genannte Euklidische Kompromisslösung entwickelt, die den besten Punkt dermaßen wählt, dass der Euklidische Abstand zum idealen Punkt minimal ist. Die Berechnung physikochemischer Eigenschaften ist für den Überlagerungsprozess notwendig, da diese chemischen Merkmale als Überlagerungskriterien dienen. Es wurde eine Methode entwickelt, die automatisch Grenzwerte für die Werte physikochemischer Parameter berechnet. Die Grenzwerte definieren einen Wertebereich innerhalb dem die physikochemischen Werte der Atome liegen, die miteinander gematcht werden können. Um den Optimierungsprozess zu beschleunigen und die Überlagerung mehrerer Tausender Verbindungen zu ermöglichen wurde der serielle genetische Algorithmus parallelisiert. Dabei wurde das so genannte Inselmodel verwendet, das einen Austausch genetischer Information zwischen parallelen Prozessen erlaubt. Schließlich wurde die Flexibilität von Ringsystemen ermöglicht, indem der Algorithmus mit einer Bibliotheksversion des 3D Strukturgenerators CORINA kombiniert wurde. Insbesondere die Einführung der Euklidischen Kompromisslösung für Lösungen, die mit der Paretofitness ermittelt wurden, und die automatische Berechnung von Toleranzintervallen für die physikochemischen Eigenschaften, haben die Anwendbarkeit des Algorithmus für große Datensätze ermöglicht. Schließlich erleichterte die Parallelisierung des hybriden genetischen Algorithmus die Anwendung für virtuelles Screening von Substanzdatenbanken. Die neu entwickelten Methoden wurden in mehreren Studien zur Anwendung gebracht. Für die Datensätze der vier Studien wurden Moleküle mittlerer Größe und auch größere peptidische Wirkstoffe ausgewählt. Für die dabei durchgeführten Überlagerungen wurde jeweils ein benutzerdefiniertes Molekül als Templat verwendet, auf das die anderen Verbindungen mittels konformeller Anpassung gelegt wurden. Zuerst wurden Überlagerungsstudien durchgeführt, wobei Liganden von membranassoziierten Rezeptoren zum Einsatz kamen. Für diese Rezeptorproteine stand keinerlei 3D Strukturinformation zur Verfügung. Der Algorithmus war in der Lage Substrukturen zu identifizieren, die für die Rezeptorbindung relevant sind. In einer zweiten Studie wurden die durch den Optimierungsprozess ermittelten Molekülüberlagerungen mit den Überlagerungen der rezeptorgebundenen Liganden verglichen. Außerdem wurde ein Vergleich der durch die berechnete Überlagerung ermittelten Konformation mit der bioaktiven Konformation durchgeführt. Dieses Verfahren wurde an sechs verschiedenen Datensätzen geprüft. Dabei kamen Inhibitoren der Herpes Simplex Typ-1 Thymidin Kinase, Liganden des Streptavidins, Inhibitoren der Dihydrofolatreduktase, Inhibitoren des Thrombins, Antagonisten des Erstrogenrezeptors α und Liganden des Penicillopepsins zur Anwendung. Alle Moleküle unterschieden sich dabei hinsichtlich Größe und Flexibilität. Es konnte gezeigt werden, dass die Anwendung des Hybridalgorithmus sinnvolle Molekülüberlagerungen berechnet. In einer dritten Studie wurden unterschiedliche Überlagerungskriterien an den Übergangszustandsinhibitoren der Arginase II getestet. Dabei konnte gezeigt werden, dass im Falle fehlender Strukturinformationen des makromolekularen Rezeptormoleküls eine Überlagerung aufgrund physikochemischer Eigenschaften die vorzuziehende Herangehensweise ist. Im Fall, dass Wissen über die Struktur und Anforderungen des spezifischen Rezeptors vorliegt, wie zum Beispiel welche Atome für die Ausbildung von Wasserstoffbrückenbindungen nötig sind, ist es vorteilhaft ein Match der entsprechenden Atome zu erzwingen. In der nächsten Studie wurde die Fähigkeit von GAMMA aufgezeigt aus einer Datenbank flexibler Wirkstoffmoleküle Verbindungen selektiv herauszufiltern die dem bioaktiven Anfragemolekül ähnlich sind. Dabei kam die parallele Version des hybriden genetischen Algorithmus zur Anwendung. Es wurden zwei virtuelle Screeningexperimente durchgeführt. Als Datenbank wurde die MDDR (MDL Drug Data Report) verwendet, die eine typische Wirkstoffdatenbank repräsentiert. Die Verbindung Celecoxib wurde ausgewählt, um Hemmstoffe der Cyclooxygenase-2 (COX-2) herauszufiltern und Diazepam, um nach Benzodiazepinen zu suchen. GAMMA war dabei in der Lage, aktive Verbindungen im oberen Abschnitt einer sortierten Datenbank anzureichern. Es wurde gezeigt, dass ein höherer Prozentsatz aktiver Verbindungen, die dem jeweiligen Anfragemolekül entsprechen, im oberen Abschnitt der sortierten Datenbank vorzufinden war. In einer letzten Studie wurde die Kombination der flexiblen Überlagerung mittels Änderung von Torsionswinkeln mit der Generierung multipler Ringkonformationen zur Anwendung gebracht. Dabei konnte gezeigt werden, dass diese Methode für Moleküle geeignet ist, die ein Ringsystem gleicher Größe besitzen und sich in den axialen und äquatorialen Positionen ihrer Substituenten unterscheiden, Es konnten aber auch Einschränkungen der Anwendbarkeit bei Molekülen mit unterschiedlicher Ringgröße und großen azyklischen Strukturelementen aufgezeigt werden.