Talk Protein to me Mit Künstlicher Intelligenz Eiweiße entwickeln

Das Gespräch führte Chiara Maurer Lesedauer: 6 min

Anbieter zum Thema

Proteine und Sprache sind zwei Dinge, die man nicht direkt in Verbindung bringen würde. Betrachtet man Proteine aber als Satz, dann sind Aminosäuren die Worte. Wir Menschen werden diese Sprache wohl niemals lernen – das vom KI-Forschungsteam von Salesforce entwickelte Sprachmodell ProGen kann das, wie Nikhil Naik, Director of AI Research bei Salesforce, im Interview erläutert.

Der Begriff Protein stammt von dem griechischen Wort Proton für „das Erste, das Wichtigste“, da Eiweiß für unseren Körper sehr wichtig ist
Der Begriff Protein stammt von dem griechischen Wort Proton für „das Erste, das Wichtigste“, da Eiweiß für unseren Körper sehr wichtig ist
(© Christoph Burgstedt - stock.adobe.com)

Herr Naik, ProGen ist ein Sprachmodell, das durch den Einsatz Künstlicher Intelligenz „Proteine entwirft“. Wie genau funktioniert das, und welche Rolle spielt hier die sogenannte generative KI?

Naik: KI-Algorithmen, so genannte „neuronale Sprachmodelle“, haben bemerkenswerte Erfolge bei der Texterzeugung durch Nachahmung der menschlichen Sprache gezeigt. Trainiert man sie mit ausreichend Daten, können Sprachmodelle neue Texte generieren, die von menschlich erzeugtem Text nicht zu unterscheiden sind.

Eine wichtige Erkenntnis für unsere Arbeit ist, dass Proteine als Sprache dargestellt werden können, die aus Aminosäuren besteht. Das sind die 20 Moleküle, aus denen jedes Protein zusammengesetzt ist. Ebenso wie Wörter einzeln aneinandergereiht werden, um Sätze zu bilden, werden auch Aminosäuren einzeln aneinandergereiht, um Proteine zu bilden. Darauf aufbauend wenden wir die neuronale Sprachmodellierung auf Proteine an, um realitätsnahe, aber neuartige Proteinsequenzen zu erzeugen.

Unser Interviewpartner: Nikhil Naik, Director of AI Research, Salesforce
Unser Interviewpartner: Nikhil Naik, Director of AI Research, Salesforce
(© Salesforce)

Mit unserer Forschung testen wir Künstliche Intelligenz, die auf erfolgreichen KI-Sprachmodellen basiert, um höchst realistische Sätze in natürlicher Sprache zu erzeugen. Wir können zeigen, dass unser Sprachmodell ProGen die Sprache der Proteine erlernen kann, um künstliche Sequenzen für mehrere Proteinfamilien zu erzeugen.

Konkret trainieren wir ein „konditionales“ Sprachmodell, also ein Modell, das durch Benutzereingaben so gesteuert werden kann, dass es Sprache mit bestimmten benutzerdefinierten Eigenschaften, den so genannten „Control Tags“, erzeugt. Im Falle der menschlichen Sprache können diese Kontroll-Tags Eigenschaften wie Stil, Themen oder Daten sein.

Bei Proteinen sind die Kontroll-Tags biologische Eigenschaften wie Proteinfamilie, biologischer Prozess oder molekulare Funktion. Wenn man also einem konditionalen Sprachmodell einen Kontroll-Tag gibt, das eine Proteinfamilie spezifiziert (zum Beispiel ein gegen Phagen wirkendes Lysozym, ein antibakterielles Protein), wird es wahrscheinlich ein Protein mit einer Aminosäuresequenz innerhalb dieser Lysozym-Familie erzeugen.

Wie unterscheidet sich ihre KI ProGen von bisherigen, vergleichbaren KI-Sprachmodellen in diesem Bereich der Forschung?

Naik: Unser KI-System ProGen ist ein hochleistungsfähiges Sprachmodell, das auf der größten verfügbaren Proteindatenbank (~ 280 Millionen Proben) trainiert wurde.

Der Hauptunterschied zu anderen auf Proteine fokussierten KI-Systemen besteht darin, dass Progen nicht nur Aminosäuresequenzen lesen, sondern auch von Grund auf neu schreiben kann.

So viel verdienen Vollzeitbeschäftige in der Pharma- und Chemieindustrie
Bildergalerie mit 6 Bildern

Progen geht eines der schwierigsten Probleme in der Wissenschaft an und zeigt, dass die generative Modellierung im großen Maßstab die künstliche Entwicklung von Proteinen weit nach vorne bringen kann. Ziel ist es, die synthetische Biologie, die Materialwissenschaft und die Medizin zu verändern. Unsere Arbeit zeigt, dass wir KI als kontrollierbares Werkzeug einsetzen können, um Proteine für bestimmte Zielsetzungen in der Biologie zu entwerfen.

Wir setzen hier einen Meilenstein, indem wir die erste bekannte 3D-Struktur eines künstlichen Proteins vorstellen, das vollständig von KI entworfen wurde.

Welche Potenziale bietet diese Technologie?

Naik: Salesforce AI Research hat ProGen im Jahr 2020 zum ersten Mal vorgestellt. Das KI-Sprachmodell hat gezeigt, dass es mithilfe von künstlicher Intelligenz Proteine entwerfen kann, die möglicherweise bei der Bekämpfung von Bakterien und beim Abbau von Kunststoffen zum Schutz der Umwelt unterstützen könnten. Wissenschaftler:innen und Forscher:innen können damit hochgradig individualisierte Proteine mit gewünschten Eigenschaften kontrolliert erstellen – etwa die Fähigkeit, sich an ein anderes Molekül zu binden oder hohen Temperaturen standzuhalten.

Wir hoffen, dass KI-Modelle die Effizienz und Wirksamkeit der Arzneimittelentwicklung verbessern können. Wir glauben, dass KI als Partner von Wissenschaftler:innen im Nasslabor unterstützen kann. Die Pharmaindustrie setzt bereits KI-Modelle in der Arzneimittelentwicklung ein, und wir hoffen, dass sie diesen Prozess optimieren kann.

Wenn eine KI diese Sprache versteht, kann sie die dann ja nicht nur lesen, sondern auch schreiben, sprich: Proteine bauen. Welche Gefahren bergen diese „modifizierten Proteine“?

Naik: Die Anwendungsfälle für KI-generierte Biomoleküle und ihre nachgelagerten Effekte sollten sorgfältig geprüft werden, um sichere und ethische Anwendungen zu gewährleisten. Für jede Technologie, die die Entdeckung neuer Biomoleküle ermöglicht, sollte eine aktive Überwachung während des Projektstarts, der experimentellen Optimierung und der Einsatzphasen eingerichtet werden. So lässt sich eine sichere Nutzung gewährleisten und unbeabsichtigte schädliche Auswirkungen können begrenzt werden.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Wie lassen sich die bisher gewonnenen Studienergebnisse zusammenfassen?

Naik: Zusammen mit Tierra Biosciences und dem Fraser Lab an der University of California San Francisco wurden die künstlichen Proteine vom Typ Lysozym im Labor gegen natürliche Proteine auf ihre antibakterielle Aktivität getestet. Lysozyme sind sehr vielfältig, verfügen über mehrere evolutionäre Familien und sind sogar in Tränen und Schleim enthalten.

Wir haben fünf spezifische Lysozym-Familien für die Generierung ausgewählt, die Proteine mit einer durchschnittlichen Länge von 90 bis 180 Aminosäuren enthalten. Um die Qualität zu verbessern, haben wir ProGen anhand einer öffentlich zugänglichen Datenbank mit natürlichen Lysozymen weiter trainiert. Mit Hilfe von Kontroll-Tags haben wir dem Modell dann mitgeteilt, dass es künstliche Proteine aus diesen fünf Lysozym-Familien generieren soll.

In unseren Experimenten haben wir künstliche Proteine mit natürlichen Proteinen im Labor verglichen und über hundert natürliche und künstliche Proteine aus den fünf Lysozym-Familien für die Synthese und Bewertung ausgewählt. Mit dem Aktivitätstest ermitteln wir, welche Proteine in welchem Maße funktionieren. Wir validieren unser Modell, indem wir künstliche Lysozym-Proteine im Labor synthetisieren und ihre antibakterielle Wirkung mit natürlichen Proteinen vergleichen. Obwohl sich viele unserer künstlichen Proteine deutlich von natürlichen Proteinen unterscheiden, ist ihre antibakterielle Wirkung genauso hoch.

Smart Process Manufacturing Kongress

Beim Smart Process Manufacturing Kongress vom 13. bis 14. September 2023 dreht sich alles um die Digitalisierung in der Prozessindustrie. Wo steht die Branche? Welche neuen Best Cases gibt es? Was sagen die Experten? Erleben Sie zukunftsweisende Impulse und lösungsorientierte Best Practice-Beispiele. Lassen Sie sich inspirieren und nutzen Sie den Austausch auf der Netzwerkplattform Nummer 1.

Jetzt für das Event anmelden und vom Frühbucherrabatt profitieren!

Von unseren künstlichen Lysozymen erwiesen sich 73 Prozent als funktionelle antibakterielle Proteine, im Vergleich zu natürlichen Proteinen, die nur zu 59 Prozent funktionell waren. Künstliche Proteine aus allen fünf evolutionären Familien der Lysozyme zeigten Aktivität.

Um ein Höchstmaß an Präzision zu gewährleisten, führte das Labor von Professor James Fraser an der University of California in San Francisco (UCSF) eine Goldstandard-Funktionsmessung (das heißt, eine Bestimmung der katalytischen Effizienz) an zwei unserer künstlich hergestellten Lysozyme durch. Die katalytische Effizienz der beiden künstlichen Lysozyme war vergleichbar mit dem Lysozym aus Hühnereiweiß, einem hochfunktionellen antibakteriellen Protein, das sich über viele Jahre hinweg natürlich entwickelt hat.

Was werden die nächsten Schritte in der Forschung und Weiterentwicklung Ihres KI-Sprachmodells sein?

Naik: In naher Zukunft könnte die konditionale Generierung von Proteinsequenzen dazu genutzt werden, hochgradig individuelle Proteine mit gewünschten Eigenschaften zu erstellen, etwa mit der Fähigkeit, sich an ein anderes Molekül zu binden oder bei hohen Temperaturen zu funktionieren. Wenn wir diese Ziele unter sorgfältiger Berücksichtigung ethischer Gesichtspunkte erreichen, können wir rasch Therapien für Krankheiten oder Enzyme für industrielle und umwelttechnische Anwendungen entwickeln.

Ganz allgemein öffnet unsere Arbeit viele neue Türen für den Einsatz modernster Technologie zur KI-Sprachmodellierung, um die Proteinentwicklung zu beschleunigen.

Welche Einsatzmöglichkeiten sind für ProGen in Zukunft denkbar?

Naik: Mit unserer Arbeit zeigen wir das Potenzial für groß angelegte generative Modellierung mit KI auf. Ziel ist es, massive Fortschritte im Protein-Engineering zu erreichen.

Künftig wollen wir neuartige Proteine entwickeln – von bisher unentdeckten bis zu natürlich gar nicht vorkommenden. Dies gelingt uns, indem wir spezifische Eigenschaften anpassen, die bei der Heilung von Krankheiten und für eine saubere Umwelt unterstützen könnten.

Wir hoffen, dass dies weitere Forschung in der generativen Modellierung neben den bereits bestehenden Arbeiten im Bereich des Erlernens der Proteinstruktur anregt. Abschließend würden wir gerne mit Biologen zusammenarbeiten, um ProGen in die praktische Forschung einzubringen.

Dieser Beitrag erschien zuerst bei unserer Schwestermarke LABORPRAXIS.

(ID:49611457)