Een nagenoeg autonome AI-chemicus verbetert een uitdagende reactie in de medicinale chemie
Met Maria van Molecule.one vond GPT‑5.4 een verrassend additief dat de opbrengsten van Chan-Lam-koppeling verhoogde voor meer dan 80% van de geteste substraten.
OpenAI’s werk op wetenschappelijk gebied wordt gedreven door een eenvoudige overtuiging: geavanceerde AI kan een krachtige partner worden voor wetenschappers, die hen helpt meer ideeën te verkennen, uiteenlopende concepten met elkaar te verbinden, betere experimenten te ontwerpen en ontdekkingen te versnellen die de mensheid ten goede komen. We hebben al vroege voorbeelden gedeeld van modellen die bijdragen aan nieuwe resultaten in de wiskunde, waaronder werk aan het eenheidsafstandsprobleem, in de theoretische natuurkunde, via een nieuw resultaat op het gebied van gluon amplitudes, en in de biologie, waar GPT‑5 hielp de kosten van celvrije eiwitsynthese te verlagen in een geautomatiseerd lab. We hebben ook GPT‑Rosalind geïntroduceerd, een speciaal ontwikkeld model ter ondersteuning van workflows voor onderzoek in de biowetenschappen en de ontdekking van geneesmiddelen.
Dit project trekt die lijn door naar de medicinale chemie, waar vooruitgang niet aan redenering alleen kan worden afgemeten. Een hypothese moet in het laboratorium standhouden met echte moleculen, instrumenten en experimentele ruis. In samenwerking met Molecule.one(opent in een nieuw venster), koppelden we GPT‑5.4 aan Maria, een agentische AI voor chemie die is geïntegreerd met een high‑throughputlaboratorium voor autonoom onderzoek, en we gaven haar een open doel: één van meerdere belangrijke reactietypen te verbeteren. Het systeem genereerde onderzoeksvoorstellen, ontwierp en voerde experimenten uit, analyseerde experimentele gegevens en stelde vervolgexperimenten voor. Mensen bleven betrokken door sturende en beoordelingsopdrachten te ontwerpen en voorstellen te selecteren om te testen. Zij voerden ook beperkte correcties door in experimentele plannen, assisteerden bij eenvoudige laboratoriumwerkzaamheden en valideerden zelfstandig het eindresultaat.
Het meest veelbelovende voorstel, OAI-M1-03, richtte zich op een moeilijke maar nuttige variant van de Chan–Lam-koppeling, een reactie die chemici gebruiken om koolstof-stikstofbindingen te vormen. Uitgaande van de open geformuleerde doelstelling om de Chan–Lam-koppeling voor proceschemie te verbeteren, identificeerde GPT‑5.4 zelfstandig primaire sulfonamiden als een uitdagende, waardevolle substraatklasse en suggereerde dat milde oxidatiemiddelen, waaronder TEMPO, de reactie konden verbeteren.
Gedurende twee experimentatiecycli in Maria Lab leverde dat idee een aanzienlijke verbetering op. Onder de geoptimaliseerde omstandigheden verbeterden de gemeten opbrengsten voor 88% van de geteste boronzuren en 83% van de geteste sulfonamiden. De gemiddelde opbrengst steeg van 16,6% naar 25,2%, en het aandeel reacties met een opbrengst boven 30% nam toe van 15,6% naar 37,5%. Chemici herhaalden vervolgens representatieve reacties op laboratoriumschaal. Deze experimenten bevestigden de resultaten op microliterschaal en lieten hogere opbrengsten zien voor 11 van de 14 substraatparen, met in de meeste gevallen een meer dan tweevoudige toename. Dat is belangrijk, omdat medicinale chemici reacties nodig hebben die niet alleen werken in screeningexperimenten op microliterniveau, maar ook in praktische laboratoriumworkflows die tijdens de geneesmiddelenontwikkeling worden gebruikt.
Verbeteringen op dit gebied van de medicinale chemie zijn bijzonder veelbelovend, omdat synthese vaak een belangrijk knelpunt vormt in het geneesmiddelenonderzoek: wetenschappers kunnen alleen de moleculen testen die ze kunnen maken of op een andere manier verkrijgen. De sulfonamidegroep komt voor in geneesmiddelen binnen een breed scala aan therapeutische gebieden, waaronder antikankergeneesmiddelen, antimicrobiële middelen en diuretica, maar de Chan–Lam-koppeling van primaire sulfonamiden met boronzuur heeft historisch gezien lage opbrengsten opgeleverd. Door deze vorm van de reactie betrouwbaarder te maken, zouden medicinale chemici een bredere en praktischere manier krijgen om mogelijk nuttige moleculen te produceren en te onderzoeken.
Hoewel dit nog een vroeg resultaat is, biedt het opnieuw een concreet voorbeeld van de bredere richting waar we naartoe werken: AI-systemen die waardevolle partners kunnen worden voor wetenschappers in een groot deel van de onderzoekscyclus. Het model nam de literatuur door, stelde een onverwacht idee voor, hielp bij het ontwerpen en analyseren van experimenten en kwam tot een wetenschappelijke bevinding die menselijke chemici konden beoordelen.
Maria Lab: Molecule.Ones's gespecialiseerd high-throughputlaboratorium van Molecule One dat 10.080 reacties uitvoerde in OAI-M1-03
Organische chemie ligt ten grondslag aan alle geneesmiddelen op basis van kleine moleculen, evenals aan producten in de landbouw, elektronica en materiaalkunde. Een reactie is vooral nuttig wanneer die bij veel verschillende uitgangsstoffen op betrouwbare wijze hetzelfde type chemische binding kan vormen. Wanneer reacties lage opbrengsten opleveren of te veel ongewenste bijproducten produceren, moeten chemici mogelijk moleculen die anders veelbelovend zouden zijn opgeven of veel tijd besteden aan het ontwikkelen van een andere syntheseroute. Dit maakt synthese tot een belangrijk knelpunt in de ontdekking van geneesmiddelen: wetenschappers kunnen doorgaans alleen de moleculen testen die ze kunnen maken of op een andere manier kunnen verkrijgen.
De Chan-Lam-koppeling is nuttig in de medicinale chemie omdat deze koolstof-stikstofbindingen vormt, die veel voorkomen in geneesmiddelen. De reactie werkt echter niet voor elke molecuulklasse even goed. In het bijzonder heeft de koppeling van primaire sulfonamiden met boronzuren historisch gezien lage opbrengsten opgeleverd. Sulfonamiden zijn een belangrijke familie van moleculen die voorkomen in geneesmiddelen die worden gebruikt in de oncologie en bij infectieziekten. Door deze reactie betrouwbaarder te maken, zouden medicinale chemici een bredere en praktischer manier kunnen krijgen om potentieel bruikbare moleculen te produceren en te onderzoeken.
Het gecombineerde systeem bracht complementaire capaciteiten samen. Prompts die waren geschreven door wetenschappers die met Maria AI werkten, werden binnen een testomgeving (harness) gebruikt met GPT‑5.4 om duizenden mogelijke onderzoeksvoorstellen te genereren en te rangschikken. Chemici beoordeelden de kleine subset van voorstellen die volgens het systeem het hoogst gerangschikt waren en selecteerden er vier voor laboratoriumtests. Maria AI vertaalde vervolgens geselecteerde plannen op hoofdlijnen naar gedetailleerde labinstructies, voerde duizenden experimenten met hoge doorvoer uit, analyseerde de ruwe data en stuurde gestructureerde resultaten terug naar GPT‑5.4.
Een van de vier geselecteerde voorstellen, OAI-M1-03, stelde voor om milde oxidatiemiddelen zoals TEMPO te gebruiken om de prestaties van de Chan-Lam-reactie voor sulfonamidesynthese te verbeteren. Chemici vonden de suggestie zowel verrassend als interessant. We delen de gedetailleerde bevindingen van OAI-M1-03 in deze blogpost en in het artikel(opent in een nieuw venster).
Het definitieve onderzoeksvoorstel werd vervolgens door Maria gebruikt om experimentele rasters te genereren, met lichte menselijke correcties. De grootste menselijke correctie was het vermijden van dimethylsulfoxide, of DMSO, als oplosmiddel, omdat chemici bezorgd waren dat het kon reageren met de sterkere oxidanten die ter vergelijking werden gebruikt.
Het volledige proces duurde drie maanden, vanaf de eerste prompt op 4 maart tot het delen van de OAI-M1-03-resultaten met onafhankelijke experts op 4 juni.
We beschrijven deze workflow als bijna autonoom, niet volledig autonoom, omdat menselijke chemici gedurende het hele proces nog steeds belangrijke beslissingen namen. Het model stelde de belangrijkste onderzoeksideeën voor, terwijl menselijke chemici sturing en beoordeling op hoog niveau gaven, experimentele details corrigeerden, hielpen bij het voorbereiden van labverbruiksartikelen en reagentia, en belangrijke experimenten handmatig herhaalden.
OAI-M1-03 heeft TEMPO geïdentificeerd als een nuttig additief voor de hier onderzochte primaire sulfonamide-Chan-Lam-koppeling. Onder de geoptimaliseerde omstandigheden verbeterde de reactie op twee manieren: de gemiddelde opbrengst nam toe, en meer substraatcombinaties bereikten praktisch bruikbare opbrengsten.
Gedurende twee cycli voerde Maria in totaal 10.080 reacties uit – meer dan een chemicus die elke dag drie reacties uitvoert in tien jaar zou uitvoeren. Die schaal was van belang, omdat resultaten binnen de chemie misleidend kunnen zijn wanneer ze aan slechts enkele voorbeelden worden getoetst. Een reactie kan veelbelovend lijken bij één paar uitgangsstoffen, maar niet werken voor een bredere reeks moleculen. Duizenden reacties maakten het mogelijk om TEMPO te identificeren onder tien geteste oxidatiemiddelen, te zien dat het effect zich herhaalde in uiteenlopende combinaties en de beperkingen ervan vast te stellen.
Na analyse van de eerste ronde gegevens stelde het systeem een meer gerichte tweede ronde experimenten voor om vervolghypothesen te testen. Een nuttige vervolgbevinding was dat TEMPO kon worden vervangen door een veel goedkoper analogon, 4-hydroxy-TEMPO, met slechts een gering verlies aan prestaties.
Het resultaat hield ook stand buiten het screeningsformaat op microliterschaal van Maria Lab. Menselijke chemici reproduceerden representatieve reacties handmatig op laboratoriumschaal en constateerden een toename van de opbrengst bij 11 van de 14 substraatparen; bij acht paren was de opbrengst meer dan verdubbeld. Die replicatie is belangrijk, omdat experimenten op zeer kleine schaal soms artefacten kunnen introduceren die op grotere schaal verdwijnen. Validatie op laboratoriumschaal is ook gebruikelijk voordat onderzoek in een wetenschappelijk tijdschrift wordt gepubliceerd.

Reactievials van de handmatige validatie op laboratoriumschaal.
Vier externe chemie-experts beoordeelden de preprint waarin OAI-M1-03 wordt beschreven. Hun beoordelingen ondersteunden onze opvatting dat het resultaat nieuw was en het waard was om met de wetenschappelijke gemeenschap te delen. De strengere test volgt nog: of onafhankelijke laboratoria het resultaat kunnen reproduceren, en of chemici het bruikbaar vinden bij een bredere reeks moleculen.
Van de andere drie voorstellen die door GPT‑5.4 zijn gegenereerd en gedurende de periode van drie maanden door Maria zijn getest, werden OAI-M1-02 en OAI-M1-04 experimenteel aangetoond in het Maria Lab, terwijl OAI-M1-01 werd weerlegd. De analyse van deze resultaten is nog bezig.
Dit werk laat zien dat een model een nuttige bijdrage kan leveren aan de organische chemie. Het ging verder dan het samenvatten van de literatuur of het voorstellen van een eenmalig experiment: het stelde een specifieke, verrassende hypothese voor en legde die ter menselijke beoordeling voor, ontwierp experimenten, interpreteerde experimentele gegevens en ontwierp vervolgexperimenten.
Hieruit blijkt niet dat AI zelfstandig een onderzoeksprogramma in de chemie van begin tot eind kan uitvoeren. Menselijk oordeel bleef essentieel, en de workflow was afhankelijk van gespecialiseerde infrastructuur met hoge doorvoer. Dit toont evenmin aan dat de methode toepasbaar zal zijn op andere koppelingsreacties, andere substraatklassen of productieomstandigheden.
De opbrengstschattingen waren afkomstig van een platform met hoge doorvoer, en de validatie op labschaal omvatte 14 representatieve substraatparen. Er is meer werk nodig om het reactiemechanisme te karakteriseren, de substraatscope te definiëren, de prestaties onder verschillende laboratoriumomstandigheden te meten en het resultaat onafhankelijk te reproduceren.
Chemische capaciteiten vereisen een zorgvuldige omgang, omdat dezelfde hulpmiddelen die de geneeskunde en materialenwetenschap kunnen ondersteunen, ook kunnen worden misbruikt. We hebben dit werk bewust afgebakend tot een legitiem probleem binnen de medicinale chemie: het verbeteren van een bekende koppelingsreactie die wordt gebruikt om geneesmiddelachtige moleculen te maken. De experimenten hadden geen betrekking op gifstoffen, chemische wapens of verzoeken om schadelijke verbindingen te ontwerpen. Deze resultaten mogen niet worden opgevat als bewijs dat het systeem kan helpen bij dergelijke schadelijke toepassingen. Het project heeft dat niet getest of aangetoond.
We beoordelen en beperken opkomende risico's van geavanceerde modelmogelijkheden via ons Preparedness Framework, waaronder risico's met betrekking tot chemische en biologische domeinen. Het model dat in dit werk werd gebruikt, had al relevante evaluaties ondergaan bij het UK AI Security Institute, en het systeem was ontworpen om verzoeken te weigeren die gericht zijn op schadelijke toepassingen. De experimentele workflow voegde een extra controlelaag toe: menselijke chemici selecteerden welke voorstellen het lab in gingen, beoordeelden experimentele plannen en behielden controle over de fysieke infrastructuur.
Wij zijn van mening dat dit de verantwoorde manier is om het potentieel van AI in de experimentele scheikunde te onderzoeken: kies een probleemgebied met duidelijke wetenschappelijke waarde, combineer veiligheidsmaatregelen op model met toezicht door deskundigen, en evalueer het systeem aan de hand van fysische experimenten binnen vastgestelde grenzen. Naarmate deze mogelijkheden verbeteren, blijven we opkomende risico’s beoordelen, veiligheidsmaatregelen versterken en duidelijk aangeven wat een resultaat wel en niet impliceert.
De directe vervolgstappen zijn wetenschappelijk van aard: een breder scala aan uitgangsmaterialen testen, onderzoeken waarom de additieven de reactie verbeteren, in kaart brengen waar het effect wel en niet werkt, en onafhankelijke replicatie ondersteunen. Gezamenlijk zullen deze studies bepalen hoe breed de methode kan worden toegepast en hoe nuttig deze is in praktische workflows voor medicinale chemie.
Ons doel op langere termijn is om AI-systemen te ontwikkelen tot betrouwbare wetenschappelijke partners die onderzoekers helpen hypothesen te genereren, experimenten te ontwerpen, resultaten te interpreteren en te bepalen wat ze vervolgens moeten testen, terwijl ze verankerd blijven in deskundig oordeel, betrouwbare metingen en sterke waarborgen. Organische chemie is een vakgebied met bijzonder veel impact, omdat vooruitgang in de ontdekking en productie van kleine moleculen afhangt van het vermogen om moleculen betrouwbaar te kunnen maken. Wetenschappers kunnen alleen moleculen testen die ze kunnen maken, en betere synthese kan het scala aan ideeën vergroten dat ze kunnen onderzoeken op het gebied van geneeskunde, landbouw, elektronica, energie en materiaalkunde. Dit resultaat is een vroeg voorbeeld van die bredere richting: een grensverleggend model, gespecialiseerde agenten, een geautomatiseerd laboratorium en menselijke chemici die samenwerken om de onderzoekscyclus sneller te doorlopen en bevindingen op te leveren die de wetenschappelijke gemeenschap kan beoordelen, reproduceren en erop voortbouwen.
We zijn het team van Molecule.one dankbaar, evenals de onafhankelijke chemici die dit werk hebben beoordeeld.