Hintergrund

Indikationsspezifische Wissensräume

Ein neues Paradigma in der translationalen, rechnergestützten Biomedizin

Fraunhofer verfügt über langjährige Erfahrung in der Organisation und Kuration (Qualitätsbewertung und Qualitätsverbesserung wissenschaftlicher Daten und Erkenntnisse) in ganzen Indikationsgebieten. Im Projekt AETIONOMY , einem Kooperationsprojekt, das von der Innovative Medicine Initiative (IMI) gefördert wurde, haben wir alle Daten und alles Wissen über die Alzheimer- und Parkinson-Krankheit geordnet. Das hat einige Jahre gedauert, und es war eine Menge Arbeit. Die daraus resultierende »Wissensbasis« ermöglichte es uns jedoch, in noch nie dagewesener Weise computergestützte biologische Experimente und KI-Ansätze zu entwickeln.

Die Aufrechterhaltung und Aktualisierung einer solchen Wissensbasis ist eine weitere Herausforderung, vor der wir stehen. Bei der regelmäßigen Aktualisierung unserer Wissensbasis arbeiten wir mit namhaften Institutionen im Bereich der wissenschaftlichen Informationsbereitstellung zusammen, namentlich mit dem »Informationszentrum Lebenswissenschaften (ZBMED)« in Deutschland und mit dem Europäischen Bioinformatik-Institut (EBI).

Schlüsselelemente von »Wissensbasen« sind:

Formalisierte Semantik für das Indikationsgebiet. Formalisierte Semantik bedeutet: Wir analysieren die Namen, die andere Wissenschaftler relevanten Dingen zuweisen, wie »Gene« oder »Medikamente«, die gegen SARS-CoV-2 wirken können. Wir organisieren »Namensräume« für Dinge, die im Zusammenhang mit SARS-CoV-2 von Bedeutung sind. Wir bringen Ordnung in die Welt des Wissens über Coronaviren.
- Fraunhofer-seitig haben wir dazu die Frage der »formalisierten Semantik« für das Coronavirus SARS-CoV-2 und die von ihm verursachte Pandemie (COVID-19) durch die Erstellung der »COVID-19-Terminologie« angegangen.
- Diese Terminologie wird veröffentlicht und der wissenschaftlichen Gemeinschaft zur Verfügung gestellt, sobald wir ihre Leistungsfähigkeit bei der Dokumentensuche und Informationsextraktion getestet haben.
Wissensbasierte Modelle des Virus und seiner Interaktion mit dem Wirt. Wissensbasierte Modellierung bedeutet: Wir erfassen und formalisieren systematisch das Wissen über das Virus und seine Pathophysiologie und stellen es in einem Graphenmodell dar. Dies bildet einen so genannten »Wissensgraphen«, den wir für viele Dinge verwenden können, darunter auch für Anwendungen der künstlichen Intelligenz.
- Fraunhofer-seitig haben wir das weltweit größte Ursache-Wirkungs-Modell erstellt, das das Wissen über SARS-CoV-2 repräsentiert. Unter dem Einsatz aller Kräfte haben wir kurzfristig die weltweit umfassendste Krankheitskarte zu COVID-19 extrahiert und kuratiert.
- Frühere Arbeiten unserer Gruppe sind ganz unerwartet in den Blickpunkt gerückt: Wir haben uns schon früher mit der Häm-Biologie beschäftigt (vgl. Humayun, F., Domingo-Fernandez, D., George, A. A. P., Hopp, M. T., Syllwasschy, B. F., Detzel, M. S., Hofmann-Apitius, M. & Imhof, D. (2020). A computational approach for mapping heme biology in the context of hemolytic disorders. Frontiers in Bioengineering and Biotechnology, 8. ) und ein hoch kuratiertes Modell des Häm-Stoffwechsels unter normalen und krankhaften Bedingungen erstellt. Jetzt wird diese Arbeit für COVID-19 hochrelevant, da das Virus den Hämstoffwechsel stört und dies einige der schweren klinischen Phänotypen erklären könnte.
Die Wissensbasis umfasst Arzneimittel- und Wirkstoffräume für COVID-19 und relevante Wirkungswege. Durch die systematische Sammlung chemischer Informationen, die mit COVID-19-Targets (und Wirtsproteinen, die vom Virus genutzt werden) verknüpft wurden, erweitern wir das wissensbasierte Modell von SARS-CoV-2 um spezifische chemische Informationen. Dies ist von größter Bedeutung für alle Versuche, neue Medikamente zu identifizieren, die das Virus bekämpfen.
- Wir haben eine Methode entwickelt, um Wissensgraphen, die biologische und klinische Aspekte darstellen, in chemische Datenbanken zu integrieren. Genauer gesagt: Wir können unsere COVID-19-Wissensgrafik mit relevanten Einträgen in ChEBI, einer der besten Referenzdatenbanken über bioaktive Verbindungen, verknüpfen.
- Wir haben Text-Mining-Ansätze entwickelt, um Publikationen zu identifizieren, die »Drug-Target-Informationen« im Zusammenhang mit SARS-CoV-2 enthalten. Wir extrahieren die chemischen Informationen; wenn Target-Informationen verfügbar sind, extrahieren wir auch diese Informationen. Die chemischen Informationen und ihre Beziehungen zu biologischen Targets (in der Regel Proteine) werden dann in unseren Wissensgraphen integriert.
- Der COVID-19-Wissensgraph, der alle pathophysiologischen Prozesse des SARS-CoV-2-Virus darstellt, in Verbindung mit den chemischen Informationen über bioaktive Verbindungen, die sich an Virus- und Wirtsproteine binden, bildet das COVID-19 PHARMACOME.
Das COVID-19 PHARMACOME
- Das COVID-19 Pharmakom integriert Modelle der Virusbiologie und Modelle von Virus-Wirt-Interaktionen. Durch die Kombination mit chemischen Informationen über Medikamente und medikamentenähnliche Moleküle, die an relevante Virus- und Wirtsproteine binden, können wir die bekannte Pharmakologie um SARS-CoV-2 darstellen.
  - Das COVID-19 PHARMACOME wird durch zusätzliche Informationen über chemische Deskriptoren, die Merkmale von chemischen Verbindungen und Arzneimitteln »kodieren«, und die »Ähnlichkeit« chemischer Verbindungen ergänzt. Kurz gesagt, wir erstellen mit dieser zusätzlichen Erläuterung des COVID-19 PHARMACOME eine Art »chemische Nachbarschaft«.
  - Fraunhofer hat bereits moderne KI-basierte Algorithmen entwickelt, die ein ganzes PHARMACOME mit experimentellen Daten verknüpfen. Dies wird es uns in Zukunft ermöglichen, anhand der Ergebnisse von Experimenten, die z.B. in Zellkulturen durchgeführt werden, Wirkstoffkandidaten für eine Zweitnutzung zu ermitteln.

Schritt halten mit der Vielzahl neuer wissenschaftlicher Erkenntnisse

Ein Wissenschaftler benötigt durchschnittlich etwa eine Stunde, um eine neue wissenschaftliche Publikation zu lesen. Es kann deutlich länger dauern, wenn er die der Veröffentlichung zugrunde liegenden Daten wirklich verstehen will. Das kann je nach Datenmenge einen ganzen Tag dauern. Wenn er beginnt, den experimentellen Arbeitsablauf kritisch zu bewerten oder sogar in Erwägung ziehen, einige der in-silico-Methoden zu reproduzieren, die in der Veröffentlichung verwendet werden, kann er leicht mehrere Tage Arbeit in nur eine Publikation investieren.

Dies führt dazu, dass ein Forscher, der zwei neue Publikationen pro Arbeitstag liest, in einem Jahr etwa 500 Papiere lesen kann.

Gegenwärtig produziert die biomedizinische Gemeinschaft einen Output von mehr als 3000 Publikationen pro Tag. Selbst wenn sich ein Coronavirus-Forscher nur auf die relevantesten Publikationen in seinem Kerngebiet konzentriert, ist es schwierig, mit dem Veröffentlichungstempo Schritt zu halten.

Wenn wir uns mit anderen Fachgebieten befassen wollen (z.B. möchte jemand mit einem Hintergrund in biologischen Signalwegen verstehen, welche Verbindungen potenzielle Kandidaten für die Hemmung der Virusreplikation sind), müssen wir schnell Informationen finden und extrahieren, die für die jeweilige konkrete Fragestellung relevant sind.

Automatisierte Systeme, die »wissenschaftliche Publikationen für uns lesen«, spielen daher eine entscheidende Rolle in der Wissenschaft. Jetzt, da wir mit einem immensen Informationsfluss im Bereich COVID-19 konfrontiert sind, brauchen wir diese automatisierten Systeme mehr denn je.

Hier hilft die Fraunhofer-Technologie. Und zwar direkt.