En nästan autonom AI-kemist förbättrar en utmanande reaktion inom läkemedelskemi
Med Molecule.ones Maria hittade GPT‑5.4 en överraskande tillsats som ökade utbytet i Chan-Lam-koppling för över 80 % av testade substrat.
OpenAI:s arbete inom vetenskap drivs av en enkel övertygelse: avancerad AI kan bli en kraftfull partner för forskare, hjälpa dem att utforska fler idéer, koppla samman avlägsna begrepp, utforma bättre experiment och påskynda upptäckter som gynnar mänskligheten. Vi har redan delat tidiga exempel på modeller som bidragit till nya resultat inom matematik, bland annat arbete med enhetsavståndsproblemet, inom teoretisk fysik genom ett nytt resultat om gluonenamplituder, och inom biologi, där GPT‑5 hjälpte till att sänka kostnaden för cellfri proteinsyntes i ett automatiserat laboratorium. Vi introducerade också GPT‑Rosalind, en specialbyggd modell för att stödja forskning inom livsvetenskaper och arbetsflöden för läkemedelsupptäckt.
Det här projektet förlänger den utvecklingslinjen in i läkemedelskemi, där framsteg inte kan mätas enbart genom resonemang. En hypotes måste fungera i laboratoriet med verkliga molekyler, instrument och experimentellt brus. I samarbete med Molecule.one(öppnas i ett nytt fönster) kopplade vi GPT‑5.4 till Maria – en agentisk kemi-AI integrerad med ett högkapacitetslaboratorium för autonom forskning – och gav den ett öppet mål: att förbättra en av flera viktiga reaktionsklasser. Systemet genererade forskningsförslag, utformade och körde experiment, analyserade experimentella data och föreslog uppföljande experiment. Människor fortsatte att vara delaktiga genom att utforma styrnings- och bedömningsprompter och välja förslag att testa. De gjorde också begränsade korrigeringar av experimentplaner, hjälpte till med grundläggande laboratoriearbete och validerade självständigt slutresultatet.
Det mest lovande förslaget, OAI-M1-03, fokuserade på en svår men användbar version av Chan–Lam-koppling, en reaktion som kemister använder för att bilda kol–kvävebindningar. Med utgångspunkt i det öppna målet att förbättra Chan–Lam-koppling för processkemi identifierade GPT‑5.4 självständigt primära sulfonamider som en utmanande och värdefull substratklass och föreslog att milda oxidanter, inklusive TEMPO, kunde förbättra reaktionen.
Över två experimentcykler i Maria Lab ledde den idén till en betydande förbättring. Under de optimerade förhållandena förbättrades de uppmätta utbytena för 88 % av de testade boronsyrorna och 83 % av de testade sulfonamiderna. Det genomsnittliga utbytet steg från 16,6 % till 25,2 %, och andelen reaktioner med över 30 % utbyte ökade från 15,6 % till 37,5 %. Mänskliga kemister upprepade därefter representativa reaktioner i bänkskala. Dessa experiment bekräftade resultaten i mikroliterskala och visade högre utbyten för 11 av 14 substratpar, med mer än en fördubbling i de flesta fall. Det är viktigt eftersom läkemedelskemister behöver reaktioner som fungerar inte bara i screeningexperiment i mikroliterskala, utan också i praktiska laboratoriearbetsflöden som används vid läkemedelsupptäckt.
Förbättringar inom detta område av läkemedelskemi är särskilt spännande eftersom syntes ofta är en stor flaskhals vid läkemedelsupptäckt: forskare kan bara testa de molekyler de kan framställa eller på annat sätt få tag på. Sulfonamidgruppen förekommer i läkemedel inom många terapiområden, inklusive cancerläkemedel, antimikrobiella medel och diuretika, men Chan–Lam-koppling av primära sulfonamider med boronsyror har historiskt gett låga utbyten. Att göra denna form av reaktionen mer tillförlitlig skulle kunna ge läkemedelskemister ett bredare och mer praktiskt sätt att framställa och utforska potentiellt användbara molekyler.
Även om detta fortfarande är ett tidigt resultat ger det ännu ett konkret exempel på den bredare riktning vi arbetar mot: AI-system som kan bli värdefulla partner för forskare under stora delar av forskningscykeln. Modellen granskade litteraturen, föreslog en oväntad idé, hjälpte till att utforma och analysera experiment och kom fram till ett vetenskapligt fynd som mänskliga kemister kunde utvärdera.
Maria Lab: Molecule.ones specialiserade laboratorium med hög kapacitet som utförde 10 080 reaktioner i OAI-M1-03
Organisk kemi ligger till grund för alla småmolekylära läkemedel, liksom för produkter inom jordbruk, elektronik och materialvetenskap. En reaktion är särskilt användbar när den tillförlitligt kan skapa samma typ av kemisk bindning över många olika utgångsmaterial. När reaktioner ger låga utbyten eller för många oönskade biprodukter kan kemister behöva överge annars lovande molekyler eller lägga betydande tid på att utveckla en annan väg. Detta gör syntes till en stor flaskhals vid läkemedelsupptäckt: forskare kan i allmänhet bara testa de molekyler de kan framställa eller på annat sätt få tag på.
Chan–Lam-koppling är användbar inom läkemedelskemi eftersom den bildar kol–kvävebindningar, som är vanliga i läkemedel. Reaktionen fungerar dock inte lika bra för alla molekylklasser. I synnerhet har koppling av primära sulfonamider med boronsyror historiskt gett låga utbyten. Sulfonamider är en viktig familj av molekyler som finns i läkemedel som används inom onkologi och infektionssjukdomar. Att göra denna reaktion mer tillförlitlig skulle kunna ge läkemedelskemister ett bredare och mer praktiskt sätt att framställa och utforska potentiellt användbara molekyler.
Det kombinerade systemet förenade kompletterande förmågor. Prompter skrivna av forskare som arbetade med Maria AI användes med GPT‑5.4 inom ett ramverk för att generera och rangordna tusentals möjliga forskningsförslag. Mänskliga kemister granskade den lilla delmängd förslag som systemet rankade högst och valde fyra för laboratorietestning. Maria AI översatte sedan utvalda övergripande planer till detaljerade laboratorieinstruktioner, körde tusentals högkapacitetsexperiment, analyserade rådata och returnerade strukturerade resultat till GPT‑5.4.
Ett av de fyra utvalda förslagen, OAI-M1-03, föreslog användning av milda oxidanter som TEMPO för att förbättra Chan-Lam-reaktionens prestanda vid sulfonamidsyntes. Kemister tyckte att förslaget var både överraskande och intressant. Vi delar de detaljerade resultaten från OAI-M1-03 i det här blogginlägget och i artikeln(öppnas i ett nytt fönster).
Det slutliga forskningsförslaget användes sedan av Maria för att generera experimentella matriser, med mindre korrigeringar av människor. Den största mänskliga korrigeringen var att undvika dimetylsulfoxid, eller DMSO, som lösningsmedel eftersom kemisterna oroade sig för att det kunde reagera med de starkare oxidanter som användes som jämförelser.
Hela processen tog tre månader, från den första prompten den 4 mars till att OAI-M1-03-resultaten delades med oberoende experter den 4 juni.
Vi beskriver detta arbetsflöde som nästan autonomt, inte helt autonomt, eftersom mänskliga kemister fortfarande fattade viktiga beslut under hela processen. Modellen föreslog de centrala forskningsidéerna, medan mänskliga kemister gav övergripande styrning och omdöme, korrigerade experimentella detaljer, hjälpte till att förbereda laboratorieförbrukningsvaror och reagenser samt upprepade viktiga experiment för hand.
OAI-M1-03 identifierade TEMPO som en användbar tillsats för den primära sulfonamid-Chan-Lam-koppling som studeras här. Under de optimerade förhållandena förbättrades reaktionen på två sätt: det genomsnittliga utbytet ökade, och fler substratkombinationer nådde praktiskt användbara utbyten.
Över två cykler körde Maria totalt 10 080 reaktioner – fler än en kemist som kör tre reaktioner varje dag skulle hinna med på ett årtionde. Den skalan var viktig eftersom kemiska resultat kan vara missvisande när de bara testas på några få exempel. En reaktion kan se lovande ut för ett par utgångsmaterial, men misslyckas över en bredare uppsättning molekyler. Tusentals reaktioner gjorde det möjligt att identifiera TEMPO bland tio testade oxidanter, se att effekten upprepades över olika kombinationer och hitta dess begränsningar.
Efter att ha analyserat den första dataomgången föreslog systemet en mer fokuserad andra experimentomgång för att testa uppföljande hypoteser. Ett användbart uppföljningsfynd var att TEMPO kunde ersättas med en mycket billigare analog, 4-hydroxy-TEMPO, med liten prestandaförlust.
Resultatet stod sig också utanför Maria Labs screeningformat i mikroliterskala. Mänskliga kemister reproducerade representativa reaktioner manuellt i bänkskala och observerade en ökning av utbytet för 11 av 14 substratpar; för åtta par var ökningen mer än tvåfaldig. Den replikeringen är viktig eftersom mycket småskaliga experiment ibland kan introducera artefakter som försvinner i större skala. Validering i bänkskala är också sedvanlig innan forskning publiceras i en vetenskaplig tidskrift.

Reaktionsflaskor från den manuella valideringen i bänkskala.
Fyra externa kemiexperter granskade preprinten som beskriver OAI-M1-03. Deras bedömningar stödde vår uppfattning att resultatet var nytt och värt att dela med forskarsamhället. Det starkare testet kommer härnäst: om oberoende laboratorier kan reproducera resultatet och om kemister finner det användbart över ett bredare spektrum av molekyler.
Av de övriga tre förslag som genererades av GPT‑5.4 och testades av Maria under tremånadersperioden bevisades OAI-M1-02 och OAI-M1-04 experimentellt i Maria Lab, medan OAI-M1-01 motbevisades. Analysen av dessa resultat pågår.
Detta arbete visar att en modell kan ge ett användbart bidrag inom organisk kemi. Den gjorde mer än att sammanfatta litteraturen eller föreslå ett enstaka experiment: den föreslog en specifik överraskande hypotes och lyfte fram den för mänsklig granskning, utformade experiment, tolkade experimentella data och utformade uppföljande experiment.
Det visar inte att AI självständigt kan driva ett kemiskt forskningsprogram från början till slut. Mänskligt omdöme förblev avgörande, och arbetsflödet var beroende av specialiserad högkapacitetsinfrastruktur. Det fastslår inte heller att metoden kommer att generaliseras till andra kopplingsreaktioner, andra substratklasser eller tillverkningsförhållanden.
Utbytesuppskattningarna kom från en högkapacitetsplattform, och bänkvalideringen omfattade 14 representativa substratpar. Mer arbete behövs för att karakterisera reaktionsmekanismen, definiera substratomfånget, mäta prestanda under olika laboratorieförhållanden och reproducera resultatet oberoende.
Kemiförmågor kräver varsam hantering eftersom samma verktyg som kan stödja medicin och materialvetenskap också skulle kunna missbrukas. Vi avgränsade medvetet detta arbete till ett legitimt läkemedelskemiskt problem: att förbättra en känd kopplingsreaktion som används för att framställa läkemedelsliknande molekyler. Experimenten involverade inte toxiner, kemiska vapen eller förfrågningar om att utforma skadliga föreningar. Dessa resultat ska inte tolkas som bevis för att systemet kan hjälpa till med sådana skadliga tillämpningar. Projektet testade eller demonstrerade inte detta.
Vi bedömer och begränsar framväxande risker från avancerade modellförmågor genom vårt Preparedness Framework, inklusive risker relaterade till kemiska och biologiska områden. Modellen som användes i detta arbete hade redan genomgått relevanta utvärderingar med UK AI Security Institute, och systemet utformades för att neka förfrågningar inriktade på skadliga tillämpningar. Det experimentella arbetsflödet lade till ytterligare ett kontrollager: mänskliga kemister valde vilka förslag som gick in i laboratoriet, granskade experimentplaner och behöll kontrollen över den fysiska infrastrukturen.
Vi anser att detta är det ansvarsfulla sättet att studera AI:s potential inom experimentell kemi: välj ett problemområde med tydligt vetenskapligt värde, kombinera skyddsåtgärder på modellnivå med expertöversyn och utvärdera systemet genom begränsade fysiska experiment. I takt med att dessa förmågor förbättras kommer vi att fortsätta bedöma framväxande risker, stärka skyddsåtgärder och vara tydliga med vad ett resultat innebär och inte innebär.
De omedelbara nästa stegen är vetenskapliga: testa ett bredare spektrum av utgångsmaterial, undersöka varför tillsatserna förbättrar reaktionen, kartlägga var effekten fungerar och misslyckas samt stödja oberoende replikering. Tillsammans kommer dessa studier att avgöra hur brett metoden kan tillämpas och hur användbar den är i praktiska arbetsflöden inom läkemedelskemi.
Vårt långsiktiga mål är att göra AI-system till tillförlitliga vetenskapliga partner som hjälper forskare att generera hypoteser, utforma experiment, tolka resultat och besluta vad som ska testas härnäst, samtidigt som de förblir förankrade i expertomdöme, tillförlitlig mätning och starka skyddsåtgärder. Organisk kemi är ett område med särskilt stor hävstångseffekt eftersom framsteg inom småmolekylär upptäckt och tillverkning beror på förmågan att framställa molekyler pålitligt. Forskare kan bara testa molekyler de kan framställa, och bättre syntes kan utöka det spektrum av idéer de kan utforska inom medicin, jordbruk, elektronik, energi och materialvetenskap. Detta resultat är ett tidigt exempel på den bredare riktningen: en frontier-modell, specialiserade agenter, ett automatiserat laboratorium och mänskliga kemister som arbetar tillsammans för att ta sig snabbare genom forskningscykeln och producera fynd som forskarsamhället kan utvärdera, reproducera och bygga vidare på.
Vi är tacksamma mot teamet på Molecule.one och mot de oberoende kemister som granskade detta arbete.