GPT-4 in der Chemie: Stärken und Schwächen laut Universität Jena

„Chembench“-Studie Ist Künstliche Intelligenz in der Chemie leistungsfähiger als Menschen?

20.05.2025 Quelle: Friedrich-Schiller-Universität Jena 3 min Lesedauer

Anbieter zum Thema

Friedrich-Schiller-Universität Jena

metrohm-process-analytics--004--freigestellt (Deutsche Metrohm Prozessanalytik GmbH & Co KG)

Metrohm Deutschland GmbH & Co. KG

WIKA Alexander Wiegand SE & Co. KG

EDL Anlagenbau Gesellschaft mbH

Wie gut sind KI-Modelle wie GPT-4 in der Chemie wirklich? Forschende der Universität Jena haben dies mithilfe eines neuen Testsystems untersucht – mit überraschenden Stärken, aber auch riskanten Schwächen.

Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern.(Bild: Jens Meyer/ Universität Jena) — Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern.
(Bild: Jens Meyer/ Universität Jena)

Eine aktuelle Studie von Forschenden der Friedrich-Schiller-Universität Jena untersucht, wie leistungsstark moderne KI-Modelle wie etwa GPT-4 in der Chemie sind und wie sie im Vergleich zu menschlichen Fachleuten abschneiden. Mithilfe eines neu entwickelten Prüfverfahrens namens „Chembench" konnte das Team um Dr. Kevin M. Jablonka zeigen, dass KI-Modelle in bestimmten Aufgabenfeldern überzeugen, jedoch auch deutliche Schwächen aufweisen. Das berichtet das Team im Fachjournal „Nature Chemistry“.

„Die Möglichkeiten künstlicher Intelligenz in der Chemie stoßen zunehmend auf Interesse – daher wollten wir herausfinden, wie gut diese Modelle wirklich sind“, erklärt Jablonka, Leiter der Carl-Zeiss-Stiftungs-Nachwuchsgruppe „Polymere in Energieanwendungen" an der Friedrich-Schiller-Universität Jena und dem Helmholtz-Institut für Polymere in Energieanwendungen (Hipole) Jena. Im Zentrum der Untersuchung stand „Chembench", ein von den Forschenden entwickeltes Werkzeug, das mit den Fähigkeiten von Chemikerinnen und Chemikern verglichen wurde.

Mehr als 2700 Aufgaben im Vergleich zwischen Mensch und Maschine

Um die Fähigkeiten der KI zu testen, entwickelte das Team der Universität Jena ein spezielles Prüfverfahren, das reale, in der modernen Chemie anfallende Aufgaben nutzt. Mehr als 2700 Fragen aus verschiedenen Bereichen der Chemie – von organischer bis analytischer Chemie – wurden in das Werkzeug „Chembench“ integriert. Sie decken sowohl Grundlagenwissen als auch anspruchsvolle Problemstellungen ab und orientieren sich an typischen Lehrplänen in der Chemie. Die Leistung der KI-Modelle wurde dabei mit der von 19 erfahrenen Fachleuten verglichen, die dieselben Aufgaben bearbeiteten.

Während die Menschen für einen Teil der Studie Hilfsmittel wie Google oder chemische Programme nutzen durften, mussten die KI-Modelle ohne solche externen Ressourcen auskommen. „Die Modelle konnten ihr Wissen also ausschließlich aus dem Training mit vorhandenen Daten ziehen“, erläutert Jablonka. „Wir haben zusätzlich auch zwei KI-Agenten mit Zugriff auf externe Tools getestet – diese konnten allerdings nicht mit den besten Modellen mithalten“, ergänzt der Chemiker. Neben der Richtigkeit der Antworten bewerteten die Forschenden auch, wie gut die KI ihre eigene Antwortsicherheit einschätzte.

KI ist schneller und effizienter, Menschen sind reflektierter und selbstkritischer

Die Ergebnisse der Untersuchung zeigen ein gemischtes Bild, berichtet Jablonka: „Bei sogar sehr anspruchsvollen lehrbuchartigen Fragen zeigten sich einige KI-Modelle als leistungsstärker als Menschen.“ Während die Chemikerinnen und Chemiker in manchen Fällen jedoch offen zugaben, eine Frage nicht sicher beantworten zu können, zeigten die besten KI-Modelle eine gegensätzliche Tendenz: Sie gaben oft mit großer Selbstsicherheit Antworten – selbst, wenn diese inhaltlich falsch waren.

„Besonders auffällig war dies bei Fragen zur Interpretation chemischer Strukturen, etwa zur Vorhersage von NMR-Spektren“, stellt Jablonka fest. Hier schienen die Modelle klare Antworten zu liefern, auch wenn sie teilweise grundlegende Fehler machten. Die menschlichen Fachleute hingegen zögerten häufiger und hinterfragten ihre eigenen Schlussfolgerungen. „Diese Diskrepanz ist ein entscheidender Faktor für die praktische Anwendbarkeit von KI in der Chemie“, ordnet Jablonka ein, denn: „Ein Modell, das fehlerhafte Antworten mit hoher Überzeugung liefert, kann in sensiblen Bereichen der Forschung zu Problemen führen.“

„Unsere Forschung zeigt, dass KI eine wichtige Ergänzung für menschliche Expertise sein kann – nicht als Ersatz, sondern als wertvolles Werkzeug, das in der Arbeit unterstützt“, resümiert Kevin Jablonka. „Damit legt unsere Studie den Grundstein für eine engere Zusammenarbeit von KI und menschlicher Expertise in der Chemie.“

Original-Publikation: Adrian Mirza et al., A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists, Nature Chemistry, (2025), DOI: https://doi.org/10.1038/s41557-025-01815-x

(ID:50428444)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.