Zum Hauptinhalt springen
OpenAI

Ein nahezu autonomer KI-Chemiker verbessert eine anspruchsvolle Reaktion in der medizinischen Chemie

Mit Maria von Molecule.one fand GPT‑5.4 einen überraschenden Zusatzstoff, der die Ausbeuten der Chan-Lam-Kupplung für über 80 % der getesteten Substrate steigert.

Die Arbeit von OpenAI im Bereich der Wissenschaft ist von einer einfachen Überzeugung motiviert: Fortschrittliche KI kann zu einem leistungsstarken Partner für Forschende werden und ihnen dabei helfen, mehr Ideen zu erkunden, entfernte Konzepte miteinander zu verbinden, bessere Experimente zu entwickeln und Entdeckungen zu beschleunigen, die der Menschheit zugutekommen. Wir haben bereits frühe Beispiele dafür vorgestellt, wie Modelle zu neuartigen Forschungsergebnissen beigetragen haben: in der Mathematik, darunter Arbeiten am Einheitsabstandsproblem, in der theoretischen Physik durch ein neues Ergebnis zu Gluon-Amplituden und in der Biologie, wo GPT‑5 in einem automatisierten Labor dazu beitrug, die Kosten der zellfreien Proteinsynthese zu senken. Wir haben außerdem GPT‑Rosalind eingeführt, ein speziell entwickeltes Modell zur Unterstützung von Workflows in der biowissenschaftlichen Forschung und Arzneimittelentwicklung. 

Dieses Projekt führt diese Entwicklungslinie in der medizinischen Chemie fort, wo Fortschritt nicht allein durch Reasoning gemessen werden kann. Eine Hypothese muss sich im Labor mit realen Molekülen, Instrumenten und experimentellen Störeinflüssen bewähren. In Zusammenarbeit mit Molecule.one(wird in einem neuen Fenster geöffnet), haben wir GPT‑5.4 mit Maria verbunden – einer agentischen Chemie-KI, die für autonome Forschung in ein Hochdurchsatzlabor integriert ist – und dem System ein offenes Ziel gegeben: eine von mehreren wichtigen Reaktionsklassen zu verbessern. Das System erstellte Forschungsvorschläge, konzipierte und führte Experimente durch, analysierte experimentelle Daten und schlug Folgeexperimente vor. Menschen blieben im Prozess eingebunden, indem sie Steuerungs- und Bewertungs-Prompt entwarfen und Vorschläge auswählten, die getestet werden sollten. Sie nahmen außerdem geringfügige Korrekturen an Versuchsplänen vor, unterstützten bei grundlegenden Laborarbeiten und validierten das Endergebnis eigenständig.

Der vielversprechendste Vorschlag, OAI-M1-03, konzentrierte sich auf eine schwierige, aber nützliche Variante der Chan–Lam-Kupplung, einer Reaktion, die Chemiker:innen zur Bildung von Kohlenstoff-Stickstoff-Bindungen nutzen. Ausgehend von dem offen formulierten Ziel, die Chan–Lam-Kupplung für die Prozesschemie zu verbessern, identifizierte GPT‑5.4 eigenständig primäre Sulfonamide als herausfordernde Substratklasse mit hohem Wert und schlug vor, dass milde Oxidationsmittel, darunter TEMPO, die Reaktion verbessern könnten. 

Über zwei Experimentierzyklen im Maria Lab hinweg führte diese Idee zu einer erheblichen Verbesserung. Unter den optimierten Bedingungen verbesserten sich die gemessenen Ausbeuten bei 88 % der getesteten Boronsäuren und 83 % der getesteten Sulfonamide. Die mittlere Ausbeute stieg von 16,6 % auf 25,2 %, und der Anteil der Reaktionen mit einer Ausbeute von über 30 % erhöhte sich von 15,6 % auf 37,5 %. Menschliche Chemiker:innen wiederholten anschließend repräsentative Reaktionen im Labormaßstab. Diese Experimente bestätigten die Ergebnisse im Mikrolitermaßstab und zeigten höhere Ausbeuten für 11 von 14 Substratpaaren, in den meisten Fällen mit einer mehr als zweifachen Steigerung. Das ist wichtig, denn Medizinalchemiker:innen benötigen Reaktionen, die nicht nur in Screening-Experimenten im Mikrolitermaßstab funktionieren, sondern auch in praktischen Laborabläufen, wie sie in der Wirkstoffforschung eingesetzt werden.

Fortschritte in diesem Bereich der medizinischen Chemie sind besonders spannend, da die Synthese in der Wirkstoffforschung häufig einen wesentlichen Engpass darstellt: Wissenschaftler:innen können nur die Moleküle testen, die sie herstellen oder auf andere Weise beschaffen können. Die Sulfonamidgruppe kommt in Arzneimitteln aus einem breiten Spektrum von Therapiegebieten vor, darunter Krebsmedikamente, antimikrobielle Wirkstoffe und Diuretika, doch die Chan–Lam-Kupplung primärer Sulfonamide mit Boronsäuren hat historisch gesehen nur geringe Ausbeuten geliefert. Diese Form der Reaktion zuverlässiger zu machen, könnte medizinischen Chemiker:innen eine breitere und praktikablere Möglichkeit bieten, potenziell nützliche Moleküle herzustellen und zu untersuchen.

Auch wenn dies noch ein frühes Ergebnis ist, liefert es ein weiteres konkretes Beispiel für die übergeordnete Richtung, auf die wir hinarbeiten: KI-Systeme, die für Forschende über weite Teile des Forschungszyklus hinweg zu wertvollen Partnern werden können. Das Modell prüfte die Fachliteratur, schlug eine unerwartete Idee vor, half dabei, Experimente zu konzipieren und zu analysieren, und gelangte zu einer wissenschaftlichen Erkenntnis, die menschliche Chemiker:innen bewerten konnten.

Maria Lab: Das spezialisierte Hochdurchsatzlabor von Molecule.one, in dem 10.080 Reaktionen in OAI-M1-03 durchgeführt wurden

Warum das Chemieproblem wichtig ist

Die organische Chemie bildet die Grundlage für alle kleinmolekularen Arzneimittel sowie für Produkte in der Landwirtschaft, Elektronik und Materialwissenschaft. Eine Reaktion ist besonders nützlich, wenn sie bei vielen verschiedenen Ausgangsstoffen zuverlässig dieselbe Art chemischer Bindung bilden kann. Wenn Reaktionen geringe Ausbeuten liefern oder zu viele unerwünschte Nebenprodukte erzeugen, müssen Chemiker:innen unter Umständen ansonsten vielversprechende Moleküle verwerfen oder erhebliche Zeit darauf verwenden, eine andere Syntheseroute zu entwickeln. Dies macht die Synthese zu einem wesentlichen Engpass in der Wirkstoffforschung: Forschende können in der Regel nur die Moleküle testen, die sie herstellen oder anderweitig beschaffen können.

Die Chan–Lam-Kupplung ist in der medizinischen Chemie nützlich, da sie Kohlenstoff-Stickstoff-Bindungen bildet, die in Arzneimitteln häufig vorkommen. Allerdings funktioniert die Reaktion nicht bei jeder Molekülklasse gleich gut. Insbesondere hat die Kupplung primärer Sulfonamide mit Boronsäuren in der Vergangenheit zu niedrigen Ausbeuten geführt. Sulfonamide sind eine wichtige Molekülklasse und Bestandteil von Arzneimitteln, die in der Onkologie und zur Behandlung von Infektionskrankheiten eingesetzt werden. Eine zuverlässigere Gestaltung dieser Reaktion könnte der medizinischen Chemie ein breiteres und praktischeres Spektrum an Möglichkeiten zur Herstellung und Erforschung potenziell nützlicher Moleküle eröffnen.

GPT‑5.4 mit Maria AI und Lab verbinden

Das kombinierte System verband ergänzende Fähigkeiten. Von Forschenden, die mit Maria AI zusammenarbeiteten, verfasste Prompts wurden in einem Harness mit GPT‑5.4 verwendet, um Tausende möglicher Forschungsvorschläge zu generieren und in eine Rangfolge zu bringen. Menschliche Chemiker:innen prüften die kleine Teilmenge der Vorschläge, die laut System am höchsten bewertet wurden, und wählten vier davon für Labortests aus. Maria AI übersetzte dann ausgewählte übergeordnete Pläne in detaillierte Laboranweisungen, führte Tausende von Experimenten mit hohem Durchsatz durch, analysierte die Rohdaten und gab strukturierte Ergebnisse an GPT‑5.4 zurück. 

Einer der vier ausgewählten Vorschläge, OAI-M1-03, schlug vor, milde Oxidationsmittel wie TEMPO einzusetzen, um die Effizienz der Chan-Lam-Reaktion für die Sulfonamidsynthese zu verbessern. Chemiker:innen fanden den Vorschlag sowohl überraschend als auch interessant. Wir teilen die detaillierten Ergebnisse aus OAI-M1-03 in diesem Blogbeitrag und im Forschungsartikel(wird in einem neuen Fenster geöffnet).

Der endgültige Forschungsvorschlag wurde anschließend von Maria verwendet, um Versuchsraster zu erstellen, wobei Menschen geringfügige Korrekturen vornahmen. Die größte menschliche Korrektur bestand darin, Dimethylsulfoxid, oder DMSO, als Lösungsmittel zu vermeiden, da Chemiker:innen befürchteten, es könnte mit den stärkeren Oxidationsmitteln reagieren, die zum Vergleich herangezogen wurden.

Der gesamte Prozess dauerte drei Monate, vom ersten Prompt am 4. März bis zum Teilen der OAI-M1-03-Ergebnisse mit unabhängigen Fachleuten am 4. Juni.

Wir bezeichnen diesen Workflow als nahezu autonom, nicht als vollständig autonom, da menschliche Chemiker:innen während des gesamten Prozesses weiterhin wichtige Entscheidungen trafen. Das Modell schlug die zentralen Forschungsideen vor, während menschliche Chemiker:innen die übergeordnete Steuerung und fachliche Beurteilung übernahmen, experimentelle Details korrigierten, bei der Vorbereitung von Laborverbrauchsmaterialien und Reagenzien halfen und zentrale Experimente manuell wiederholten.

Unsere Ergebnisse

OAI-M1-03 identifizierte TEMPO als nützliches Additiv für die hier untersuchte Chan-Lam-Kupplung primärer Sulfonamide. Unter den optimierten Bedingungen verbesserte sich die Reaktion in zweierlei Hinsicht: die durchschnittliche Ausbeute stieg, und mehr Substratkombinationen erzielten praktisch nutzbare Ausbeuten.

Über zwei Zyklen hinweg führte Maria insgesamt 10.080 Reaktionen durch – mehr, als ein:e Chemiker:in, der/die jeden Tag drei Reaktionen durchführt, in einem Jahrzehnt schaffen würde. Diese Größenordnung war wichtig, weil Ergebnisse in der Chemie irreführend sein können, wenn sie nur an wenigen Beispielen getestet werden. Eine Reaktion kann bei einem bestimmten Paar von Ausgangsstoffen vielversprechend erscheinen, bei einer breiteren Auswahl an Molekülen jedoch fehlschlagen. Tausende von Reaktionen ermöglichten es, TEMPO unter zehn getesteten Oxidationsmitteln zu identifizieren, die Wiederholbarkeit des Effekts über vielfältige Kombinationen hinweg zu beobachten und dessen Grenzen zu ermitteln.


Nach der Analyse der ersten Datenrunde schlug das System eine stärker fokussierte zweite Versuchsreihe vor, um weiterführende Hypothesen zu überprüfen. Eine nützliche Folgeerkenntnis war, dass TEMPO durch ein deutlich kostengünstigeres Analogon, 4-Hydroxy-TEMPO, ersetzt werden konnte, wobei lediglich geringe Leistungseinbußen auftraten.

Diagramm zum Vergleich der Leistung von TEMPO, 4-Hydroxy-TEMPO, 4-Oxo-TEMPO und PMP mit chemischen Strukturen.

Das Ergebnis bestätigte sich auch über das Screening-Format im Mikrolitermaßstab von Maria Lab hinaus. Chemiker:innen reproduzierten repräsentative Reaktionen manuell im Labormaßstab und beobachteten bei 11 von 14 Substratpaaren eine Erhöhung der Ausbeute; bei acht Paaren war die Erhöhung mehr als zweifach. Diese Replikation ist wichtig, weil Experimente in sehr kleinem Maßstab manchmal Artefakte erzeugen können, die in größerem Maßstab verschwinden. Auch eine Validierung im Labormaßstab ist üblich, bevor Forschungsergebnisse in einer wissenschaftlichen Fachzeitschrift veröffentlicht werden.

Beschriftete Glas-Reaktionsfläschchen aus Validierungsexperimenten von Molecule.one im Labormaßstab.

Reaktionsfläschchen aus der manuellen Validierung im Labormaßstab.

TEMPO verbessert die Produktbildung im Labormaßstab

Vier externe Chemieexpert:innen begutachteten den Preprint, in dem OAI-M1-03 beschrieben wird. Ihre Einschätzungen stützten unsere Auffassung, dass das Ergebnis neuartig und es wert ist, mit der wissenschaftlichen Fachwelt geteilt zu werden. Die aussagekräftigere Bewährungsprobe steht als nächstes an: ob unabhängige Labore das Ergebnis reproduzieren können, und ob Chemiker:innen es bei einem breiteren Spektrum von Molekülen als nützlich erachten.

Die Verschmelzung von Hochdurchsatzexperimenten und moderner KI stellt eine neue Frontier der wissenschaftlichen Entdeckung dar. Diese neue Reaktion ist ein eindrucksvoller Nachweis dafür, dass außergewöhnlich milde Bedingungen und ein praktikables Oxidationsmittel ein erfreulich breit gefasstes Substratspektrum für eine der beliebteren Reaktionen in der Wirkstoffsynthese ermöglichen.
– Tim Cernak, Associate Professor of Medicinal Chemistry, University of Michigan

Von den drei anderen Vorschlägen, die von GPT‑5.4 generiert und von Maria während des dreimonatigen Zeitraums getestet wurden, wurden OAI-M1-02 und OAI-M1-04 im Maria Lab experimentell bestätigt, während OAI-M1-01 widerlegt wurde. Die Analyse dieser Ergebnisse ist noch im Gange.

Einschränkungen

Diese Arbeit zeigt, dass ein Modell einen nützlichen Beitrag in der organischen Chemie leisten kann. Es tat mehr, als die Fachliteratur zusammenzufassen oder ein einmaliges Experiment vorzuschlagen: es stellte eine konkrete, überraschende Hypothese auf und legte sie zur menschlichen Überprüfung vor, konzipierte Experimente, interpretierte experimentelle Daten und konzipierte Folgeexperimente.

Es zeigt nicht, dass KI eigenständig ein chemisches Forschungsprogramm von Anfang bis Ende durchführen kann. Menschliches Urteilsvermögen blieb unerlässlich, und der Workflow hing von spezialisierter Hochdurchsatz-Infrastruktur ab. Es belegt ebenfalls nicht, dass die Methode auf andere Kupplungsreaktionen, andere Substratklassen oder Herstellungsbedingungen übertragbar ist.

Die Ausbeuteschätzungen stammten von einer Plattform mit hohem Durchsatz, und die Laborvalidierung umfasste 14 repräsentative Substratpaare. Es sind weitere Arbeiten erforderlich, um den Reaktionsmechanismus zu charakterisieren, die Substratbreite zu definieren, die Leistungsfähigkeit unter verschiedenen Laborbedingungen zu messen und das Ergebnis unabhängig zu reproduzieren.

Preparedness

Fähigkeiten im Bereich Chemie erfordern eine sorgfältige Handhabung, da dieselben Tools, die Medizin und Materialwissenschaften unterstützen können, auch missbraucht werden könnten. Wir haben den Umfang dieser Arbeit bewusst auf ein legitimes Problem der Medizinalchemie begrenzt: die Verbesserung einer bekannten Kupplungsreaktion, die zur Herstellung wirkstoffähnlicher Moleküle eingesetzt wird. Die Experimente beinhalteten keine Toxine, keine chemischen Waffen und keine Anfragen zur Entwicklung schädlicher Verbindungen. Diese Ergebnisse sollten nicht als Beleg dafür gewertet werden, dass das System bei diesen schädlichen Anwendungsfällen Unterstützung leisten kann. Das Projekt hat dies weder getestet noch demonstriert.

Wir bewerten und mindern neu entstehende Risiken durch erweiterte Modellfähigkeiten mithilfe unseres Preparedness Framework, einschließlich Risiken in den Bereichen Chemie und Biologie. Das in dieser Arbeit verwendete Modell hatte bereits relevante Evaluationen durch das UK AI Security Institute durchlaufen, und das System war darauf ausgelegt, Anfragen abzulehnen, die auf schädliche Anwendungen ausgerichtet sind. Der experimentelle Arbeitsablauf fügte eine weitere Kontrollebene hinzu: Menschliche Chemikerinnen und Chemiker wählten aus, welche Vorschläge ins Labor überführt wurden, prüften Versuchspläne und behielten die Kontrolle über die physische Infrastruktur.

Wir halten dies für die verantwortungsvolle Weise, das Potenzial von KI in der experimentellen Chemie zu untersuchen: ein Problemfeld mit klarem wissenschaftlichem Wert wählen, Schutzmaßnahmen auf Modellebene mit fachlicher Aufsicht kombinieren und das System anhand beschränkter physischer Experimente evaluieren. Mit der Verbesserung dieser Fähigkeiten werden wir weiterhin sich abzeichnende Risiken bewerten, Schutzmaßnahmen stärken und klar benennen, was ein Ergebnis impliziert und was nicht.

So geht es weiter

Die unmittelbar nächsten Schritte sind wissenschaftlicher Natur: ein breiteres Spektrum an Ausgangsstoffen zu testen, zu untersuchen, warum die Additive die Reaktion verbessern, zu erfassen, wo der Effekt funktioniert und wo er versagt, und eine unabhängige Replikation zu unterstützen. Zusammengenommen werden diese Studien bestimmen, in welchem Umfang die Methode angewendet werden kann und wie nützlich sie in praktischen Arbeitsabläufen der medizinischen Chemie ist.

Unser längerfristiges Ziel ist es, KI-Systeme zu verlässlichen wissenschaftlichen Partnern zu machen, die Forschende dabei unterstützen, Hypothesen zu entwickeln, Experimente zu konzipieren, Ergebnisse zu interpretieren und zu entscheiden, was als Nächstes getestet werden soll – und dabei auf Expertenurteil, zuverlässige Messungen und starke Schutzmaßnahmen gestützt bleiben. Die organische Chemie ist ein Bereich mit besonders großer Hebelwirkung, da Fortschritte bei der Entdeckung und Herstellung kleiner Moleküle davon abhängen, Moleküle zuverlässig herstellen zu können. Forschende können nur Moleküle testen, die sie herstellen können, und verbesserte Syntheseverfahren können die Bandbreite der Ideen erweitern, die sie in Medizin, Landwirtschaft, Elektronik, Energie und Materialwissenschaft erkunden können. Dieses Ergebnis ist ein frühes Beispiel für diese umfassendere Ausrichtung: ein Frontier-KI-Modell, spezialisierte Agenten, ein automatisiertes Labor und menschliche Chemiker:innen, die zusammenarbeiten, um die Forschungsschleife schneller zu durchlaufen und Erkenntnisse zu erzielen, die die wissenschaftliche Gemeinschaft bewerten, reproduzieren und auf denen sie aufbauen kann.

Wir danken dem Team von Molecule.one sowie den unabhängigen Chemikerinnen und Chemikern, die diese Arbeit begutachtet haben.

Autor

OpenAI

Autoren