Chemical Information Space

In einer engen Zusammenarbeit entwickelten Chemoinformatikern der Fraunhofer-Institute SCAI (Sankt Augustin) und IME (Außenstelle ScreeningPort in Hamburg) eine Reihe von Werkzeugen, um den Chemical Information Space mit den Erkenntnissen aus der COVID19-Literatur zu verbinden. In der Literatur zu COVID19 werden Verbindungen in der Regel durch ihre Aktivitäten in spezifischen Assays identifiziert und beschrieben. Diese Assays können biochemischer Natur sein (bindend und/oder funktionell), wenn ein einzelnes Protein untersucht wird. Alternativ dazu können sie zelluläre Eigenschaften (wie Lebensfähigkeit, Toxizität oder einfach morphologische Parameter) untersuchen, wodurch wir ein differenzierteres, aber komplexeres Bild davon erhalten, wie ein Molekül (ein Wirkstoffkandidat oder ein bereits zugelassenes Medikament) auf eine lebende Zelle oder ein Gewebe, das von einem Virus angegriffen wird, wirkt.

Der Bereich der Chemie, der an dieser Wechselwirkung beteiligt ist, hat seine eigenen Akteure (Moleküle) mit eigenen Bezeichnungen/Namen und Merkmalen (d.h. Strukturdaten, strukturelle Klassenanmerkungen, chemisch-physikalische Eigenschaften). Relevante Informationen hierzu finden sich in unterschiedlichen Zusammenhängen. Gemeinsam bilden diese chemischen Informationsquellen den für die COVID19-Forschung relevanten Chemical Space. Große chemische Datenquellen wie EBI-ChEMBL, Pubchem, PDB, BRENDA oder Patentsammlungen sowie Interaktions- und Pfaddatenbanken können mit dem hoch kuratierten COVID19-Netzwerk kausaler Beziehungen verknüpft werden.

Jede Interaktion, die im COVID19-Netzwerk zu finden ist, wird mit Informationen aus verschiedenen Quellen des Chemical Space ergänzt. Zweck dieser Annotationsarbeit ist es, mindestens zwei von mehreren Fragen zu beantworten, denn zwei davon sind die Knoten und Kanten (Objektklassen) des COVID19-Netzwerks:

Können wir eine chemische Entität (CE) identifizieren, die die Wechselwirkungen, die wir untersuchen, beeinflussen könnte?
Wenn ja: Haben wir Zugang dazu? Ist die CE kommerziell? Ist sie patentiert? Ist sie stabil? Ist sie löslich? etc.
Wenn nein: Können wir eine neue chemische Entität (NCE) durch die chemische und biologische Information benachbarter Knoten entwickeln, die eine indirekte Beeinflussung vermuten lassen?

Wie man sieht, beziehen sich diese Fragen auf das Vorhandensein von Information über den Chemical Space innerhalb der Protein/Gen-Knotenpunkte des Netzwerks. Durch die Anreicherung von Knoten mit verwandten CEs, die aus externen DBs extrahiert werden, können mehr Verbindungen aufgebaut und untersucht werden.

Durch BiK>Mi (Biomedical Knowledge Miner) können wir komplexe Pfadmuster innerhalb komplexer Wissensgraphen mit kausalen und korrelativen Beziehungen identifizieren. Diese Beziehungen wurden aus der Primärliteratur extrahiert und umfassen eine Vielzahl von Wechselwirkungen zwischen chemischen und biologischen Entitäten mit Referenzverknüpfungen zu vielen weiteren Datenquellen.

Eine der ersten weltweiten Reaktionen auf die COVID19-Pandemie war die Suche nach einer Reihe von Kandidatenmolekülen mit nachgewiesen sicherem Wirkungsprofil, die sich als aktiv gegen das SARS-CoV-2-Virus erweisen könnten und vielleicht sogar schon für andere Behandlungen zugelassen sind. Bei derartigen Suchen helfen Repurposing Chemical Libraries, die bekannte Medikamente – entweder bereits generische oder neu zugelassene Markenmedikamente – oder alle Verbindungen, die mindestens die klinische Prüfung der Phase I positiv bestanden haben, sammeln, so dass sie für das Screening verwendet werden können.

Die älteste unter ihnen die von der FDA anerkannte Sammlung (ca. 2000 Verbindungen), die viele kommerzielle Anbieter anbiegen, zusammen mit anderen wie ENZO, LOPAC.

Im Jahr 2018 kaufte IME-ScreeningPort die zu diesem Zeitpunkt umfassendste verfügbare Sammlung, die vom BROAD-Institut in Boston entwickelt wurde und mehr als 6.000 Verbindungen aus zugelassenen, in der Phase I-III befindlichen und zurückgezogenen Wirkstoffen aus der ganzen Welt enthält, und die fast jede strukturelle Klasse und jeden bekannten Wirkmechanismus umfasst. Vor kurzem hat das Scripps Institute in S. Diego zusammen mit der Gates Foundation eine noch größere Sammlung (etwa 12.000 Verbindungen) unter dem Namen ReFRAME zusammengestellt, die in diesen Tagen sicherlich als Quelle für Wirkstoffkandidaten verwendet wird. Während die Sammlung des Broad Institute sowohl im Hinblick auf strukturelle Informationen als auch auf die chemische QC-Analytik öffentlich zugänglich ist, ist ReFRAME noch nicht frei zugänglich und weniger transparent, scheint aber ca. 50% Überschneidungen mit der Sammlung des Broad Institute aufzuweisen.

Natürlich sind diese Sammlungen dynamisch; kontinuierlich werden neue Verbindungen hinzugefügt und andere entfernt (z.B. solche, die durch selektivere, besser geeignete Moleküle ersetzt werden können). Wir werden auch diese Ressourcen weiter verfolgen.

Durch cheminformatische Werkzeuge, die im Rahmen der Zusammenarbeit von Fraunhofer SCAI und IME-ScreeningPort entwickelt wurden, sind wir nun in der Lage, Annotationen aus beiden Sammlungen anzubieten, da sie mehrere Indizes für Querverweise und primäre Zielinformationen bieten. Die Nutzung von Strukturinformationen (wie z.B. Smiles und/oder InChi-Notation) bot uns die Möglichkeit, eine stetig wachsende Chemie-Ressource zu entwickeln, die die vom Repurposing-Assembler bereitgestellten Annotationen um Labels und Links aus strukturellen Datenbanken (z.B. PDB, UniProt KB), aus biochemischen und systembiologisch orientierten Repositorien (e. z. B. BRENDA, KEGG, PathwayCommons, Reactome), aus Informationen über Genome und genomische Variation (z. B. Ensembl, ClinVar, HGNC), aus Interaktionsdatenbanken (z. B. BioGrid, IntAct, mirTarBase), aus Sammlungen von Genen und Varianten, die mit menschlichen Krankheiten assoziiert sind (z. B. DisGeNet), und aus arzneimittelbezogenen Datenbanken (z. B. DrugBank, Sider) ergänzt.

Die Verwendung von Repurposing-Sammlungen ermöglicht es uns, Hypothesen hinsichtlich eines möglichen Wirkmechanismus oder virushemmender Eigenschaften, die von den Nutzern des COVID19-Netzwerks aufgestellt wurde, zu validieren.