Forschung und Entwicklung Die richtige Suchstrategie in der Pharmaforschung: Die richtigen Daten zur richtigen Zeit

Ein Gastbeitrag von Jeff Evernham, VP Produktstrategie bei Sinequa

Wie viel Zeit in der pharmazeutischen Entwicklung mit dem Suchen nach Daten aus klinischen Prüfungen, Laborberichten und vielem mehr vergeudet wird, will eigentlich keiner so genau wissen. Dabei ließe sich mit der richtigen Suchstrategie viel Zeit sparen und das Time-to-Market beschleunigen, meint unser Autor Jeff Everham.

Der Autor Jeff Evernham ist VP Produktstrategie bei Sinequa.
Der Autor Jeff Evernham ist VP Produktstrategie bei Sinequa.
(Bild: Sinequa)

2,2 Milliarden Dollar kostet laut Deloitte heute der durchschnittliche Forschungs- und Entwicklungsprozess eines Medikaments. Gleichzeitig lag die Erfolgsquote der ersten Runde klinischer Studien in den letzten zehn Jahren konstant unter zehn Prozent. Es ist also längst keine Garantie mehr, dass sich das investierte Kapital auch auszahlt. Deshalb ist eine kurze Time-to-Market für Pharmaunternehmen so wichtig. Denn die teure und zeitaufwändige Entwicklung von Arzneimitteln soll sich schnell amortisieren.

Wissen ist Wettbewerbsvorteil

Ob Branchennews, innovative Produkte, Bildergalerien oder auch exklusive Videointerviews. Sichern auch Sie sich diesen Informationsvorsprung und abonnieren Sie unseren redaktionellen Branchen-Newsletter rund um das Thema Pharma.

Pharma-Newsletter abonnieren

Arzneimittelentwicklung heißt: Sehr viele Fachleute an unterschiedlichen Standorten müssen auf verteilte Informationen zugreifen, sie zusammenführen, verarbeiten und Zusammenhänge in ihnen erkennen. Genau darin liegt die Schwierigkeit und der Grund, warum Forschungs- und Entwicklungsprozesse nicht schneller vorankommen. Der Softwarehersteller M-Files befragte für seinen Intelligent Information Management Report 2019 weltweit 1.500 Unternehmen nach ihren drei Hauptproblemen bei der Datenverwaltung:

• Informationslabyrinthe: Fast die Hälfte aller Befragten gab an, dass es schwierig sei, die richtigen Informationen zu finden;

• Versionssprünge: Mehr als zwei Drittel der Befragten haben Schwierigkeiten, die jeweils aktuelle Version eines Dokuments zu finden;

• Duplizierung von Dokumenten: Mehr als acht von zehn Befragten gaben an, dass sie ein bereits vorhandenes Dokument neu erstellen mussten, weil sie es in ihrem Unternehmensnetzwerk nicht finden konnten.

Jedes Jahr drei Millionen Forschungsarbeiten in über 33.000 Fachzeitschriften

Die Überlastung mit Informationen macht die Sache also derart schwierig. Diese liegen an unterschiedlichsten Stellen und sind laut Gartner zu 80 Prozent unstrukturiert. Das bedeutet: keine leicht auswertbaren Tabellen oder dergleichen, sondern Arztnotizen, Laborberichte, Forschungsbeobachtungen, Bilder etc. Jahr für Jahr werden mehr als drei Millionen Forschungsarbeiten in über 33.000 Fachzeitschriften weltweit veröffentlicht. 85 Jahre bräuchte ein Mensch, um nur die Zusammenfassungen zu lesen. Allein 500.000 Artikel sind seit Bekanntwerden von COVID-19 über das Virus erschienen.

Intelligente Suche: Abgleich von Schlüsselwörtern genügt nicht

Mit den üblichen Business-Intelligence- und Analysetools lassen sich die in unstrukturierten Daten verborgenen Informationen nicht auffinden und nutzen. Man braucht neue Technologien für intelligente Suche, die über den Abgleich von Schlüsselwörtern hinaus (wie ihn normale Suchmaschinen bieten) kontextbezogene Informationen über einen Sachverhalt liefern. Enterprise-Search-Softwareprodukte wie das u.a. bei Astra Zeneca und UCB eingesetzte Sinequa nutzen das Verständnis natürlicher Sprache und Deep Learning – Techniken der künstlichen Intelligenz (KI). Sie verstehen die eigentlichen Absichten des Suchenden, erkennen Beziehungen und Muster in unstrukturiertem Text und liefern relevante und aussagekräftige Ergebnisse. Gartner spricht in seinem Magic Quadrant von Insight Engines.

Die kritische Bemerkung im Laborbuch

Was kostet es, kein vollständiges Bild vom Sicherheitsprofil eines Arzneimittels zu haben, weil einige Informationen in einem schwer zugänglichen System versteckt sind? Wenn man keinen umfassenden Überblick über die Ergebnisse klinischer Studien hat, weil sie über mehrere Datensätze verstreut sind? Welche Chancen werden verpasst, wenn eine kritische Bemerkung in einem Laborbuch oder einer Arztnotiz unbemerkt bleibt? Dies sind Risiken, die durch eine intelligente Suche minimiert werden.

Bei Astra Zeneca zum Beispiel erstellen interne wie externe Spezialist*innen tagtäglich eine immense Anzahl hochtechnischer Dokumente: Forschungsunterlagen, Einträge in medizinische Datenbanken, Versuchsberichte, Patenteinreichungen u.v.m. Hinzu kommt die gesammelte Kommunikation zwischen Forschenden aus verschiedenen Fachgebieten. Im Rahmen der Forschungs- und Entwicklungsarbeit kommt es bei Astra Zeneca täglich vor, dass jemand einen Experten bzw. Informationen im Konzern zu einem dezidierten Thema sucht.

Wer kennt sich z.B. mit „Arteriosklerose“ besonders gut aus, wer weiß über Wirkstoffe und aktive Moleküle in den Medikamenten Bescheid, welche Dokumente zu Nebenwirkungen und Patenten gibt es?

Inhaltsanalyse mit computerlinguistischen Methoden

Der Pharmakonzern experimentierte zunächst mit einfachen Suchmaschinen, um Fachkräfte anhand der Spuren zu lokalisieren, die sie in Dokumenten hinterlassen. Erst mit einer Enterprise-Search-Software jedoch gelang es letztlich, aus der schieren Vielfalt an Daten verschiedenster Quellen die richtigen Informationen herauszufiltern. Die Inhaltsanalyse basiert auf einer semantischen sowie linguistischen Analyse und ist einsetzbar für unstrukturierte und strukturierte Daten. So erhält man auch Fundstellen, in denen der eigentliche Suchbegriff gar nicht vorkommt, hingegen Synonyme oder inhaltlich ähnliche Begriffe.

In einem initialen Prozess analysierte Astra Zeneca mit der Software zunächst rund 200 Millionen interne und externe Dokumente aus dem Bereich F&E. Dabei wurden auch fachspezifische Relationen zwischen Begriffen (synonyme und semantisch verwandte Begriffe) ermittelt. Der Index ergab ein Datenreservoir, aus dem die Software nach Eingabe eines Begriffes in die Suchmaske aus allem, was zu diesem Thema geschrieben wurde, die besten Fachkräfte bzw. Forschungsgruppen zusammenstellt. Innerhalb kürzester Zeit interdisziplinäre Fachteams zu konstituieren, die standortübergreifend an einem gemeinsamen Thema arbeiten – damit verschaffen sich Unternehmen wie Astra Zeneca einen Wettbewerbsvorteil, wenn es gilt, Innovationen möglichst schnell zur Produktreife zu bringen.

SAS-Datensätze gehen in die Millionen

Ähnlich nutzt der internationale Pharmakonzern UCB die Software. Das biopharmazeutische Unternehmen mit Hauptsitz in Brüssel und weltweit über 8.600 Beschäftigten erforscht und entwickelt innovative Behandlungsmöglichkeiten in den Bereichen Zentrales Nervensystem und Immunkrankheiten. In Deutschland ist UCB über die Landesgesellschaft UCB Pharma GmbH mit Sitz in Monheim vertreten.

Im Rahmen der Entwicklung medikamentöser Therapien führt UCB umfangreiche klinische Studien durch. Auf die dabei entstehenden Big-Data-Inhalte müssen die Forschenden bei der Medikamentenentwicklung permanent zugreifen, um relevante Daten für weiterführende statistische Analysen zu finden. Rund zehn Millionen Files haben sich dabei in den letzten 15 Jahren angesammelt – ein Datenberg von 20 Terabyte, der jährlich um derzeit 30 Prozent wächst. Darunter sind mehr als eine Million SAS-Datensätze mit Milliarden von Datenzeilen, SAS-Programmcode, ASCII-, Microsoft Office- und PDF-Dateien.

Mit KI-unterstützter Suche und Analyse bekommen Pharmaunternehmen solche immensen und heterogenen Datenbestände aus internen und externen Quellen in den Griff. Sie beschleunigen ihre Forschung und verkürzen damit die Time-to-Market von Arzneimitteln.

(ID:47894099)