En nær-autonom AI-kjemiker forbedrer en utfordrende reaksjon i legemiddelkjemi
Med Molecule.ones Maria fant GPT‑5.4 et overraskende tilsetningsstoff som økte utbyttet fra Chan-Lam-kobling for over 80 % av testede substrater.
OpenAIs arbeid innen vitenskap er motivert av en enkel overbevisning: avansert AI kan bli en kraftig partner for forskere, hjelpe dem med å utforske flere ideer, koble sammen fjerntliggende konsepter, utforme bedre eksperimenter og fremskynde oppdagelser som gagner menneskeheten. Vi har allerede delt tidlige eksempler på modeller som bidrar til nye resultater i matematikk, inkludert arbeid med enhetsavstandsproblemet, i teoretisk fysikk, gjennom et nytt resultat om gluonamplituder, og i biologi, der GPT‑5 bidro til å senke kostnadene ved cellefri proteinsyntese i et automatisert laboratorium. Vi introduserte også GPT‑Rosalind, en spesialbygd modell for å støtte forskning innen livsvitenskap og arbeidsflyter for legemiddelutvikling.
Dette prosjektet viderefører den utviklingen til legemiddelkjemi, der fremgang ikke kan måles med resonnering alene. En hypotese må fungere i laboratoriet med reelle molekyler, instrumenter og eksperimentell støy. I samarbeid med Molecule.one(åpnes i et nytt vindu), Vi koblet GPT‑5.4 til Maria – en agentbasert kjemi-KI integrert med et laboratorium med høy gjennomstrømming for autonom forskning – og ga den et åpent mål: å forbedre én av flere viktige reaksjonsklasser. Systemet genererte forskningsforslag, utformet og gjennomførte eksperimenter, analyserte eksperimentelle data og foreslo oppfølgingsforsøk. Mennesker var fortsatt involvert ved å utforme styrings- og vurderingsprompter og velge ut forslag som skulle testes. De gjorde også begrensede korrigeringer av eksperimentplaner, bistod med grunnleggende laboratorieoperasjoner og validerte det endelige resultatet uavhengig.
Det mest lovende forslaget, OAI-M1-03, fokuserte på en vanskelig, men nyttig versjon av Chan–Lam-kobling, en reaksjon kjemikere bruker for å danne karbon-nitrogen-bindinger. Med utgangspunkt i det åpne målet om å forbedre Chan–Lam-kobling for prosesskjemi identifiserte GPT‑5.4 selvstendig primære sulfonamider som en utfordrende substratklasse med høy verdi og foreslo at milde oksidanter, inkludert TEMPO, kunne forbedre reaksjonen.
Over to eksperimenteringssykluser i Maria Lab ga denne ideen en betydelig forbedring. Under de optimaliserte betingelsene ble målte utbytter forbedret for 88 % av de boronsyrene og 83 % av de sulfonamidene som ble testet. Gjennomsnittlig utbytte steg fra 16,6 % til 25,2 %, og andelen reaksjoner med over 30 % utbytte økte fra 15,6 % til 37,5 %. Menneskelige kjemikere gjentok deretter representative reaksjoner i benkskala. Disse eksperimentene bekreftet resultatene i mikroliterskala og viste høyere utbytter for 11 av 14 substratpar, med mer enn dobling i de fleste tilfeller. Det er viktig fordi medisinske kjemikere trenger reaksjoner som fungerer ikke bare i screeningeksperimenter i mikroliterskala, men også i praktiske laboratoriearbeidsflyter som brukes under legemiddelutvikling.
Forbedringer på dette området innen legemiddelkjemi er særlig spennende fordi syntese ofte er en stor flaskehals i legemiddelutvikling: forskere kan bare teste molekylene de kan lage eller på annen måte skaffe. Sulfonamidgruppen finnes i legemidler på tvers av en lang rekke terapeutiske områder, inkludert kreftmedisiner, antimikrobielle midler og diuretika, men Chan–Lam-kobling av primære sulfonamider med boronsyrer har historisk gitt lave utbytter. Å gjøre denne formen for reaksjonen mer pålitelig kan gi medisinske kjemikere en bredere og mer praktisk måte å produsere og utforske potensielt nyttige molekyler på.
Selv om dette fortsatt er et tidlig resultat, gir det et nytt konkret eksempel på den bredere retningen vi arbeider mot: AI-systemer som kan bli verdifulle partnere for forskere gjennom store deler av forskningssløyfen. Modellen gjennomgikk litteraturen, foreslo en uventet idé, bidro til å utforme og analysere eksperimenter og kom frem til et vitenskapelig funn som menneskelige kjemikere kunne vurdere.
Maria Lab: Molecule.one sin spesialisert laboratorium med høy gjennomstrømming som kjørte 10 080 reaksjoner i OAI-M1-03
Organisk kjemi ligger til grunn for alle småmolekylære legemidler, samt produkter innen landbruk, elektronikk og materialvitenskap. En reaksjon er spesielt nyttig når den pålitelig kan lage samme type kjemisk binding på tvers av mange ulike utgangsmaterialer. Når reaksjoner gir lave utbytter eller for mange uønskede biprodukter, kan kjemikere måtte forkaste ellers lovende molekyler eller bruke betydelig tid på å utvikle en annen rute. Dette gjør syntese til en stor flaskehals i legemiddelutvikling: forskere kan vanligvis bare teste molekylene de kan lage eller på annen måte skaffe.
Chan–Lam-kobling er nyttig i legemiddelkjemi fordi den danner karbon-nitrogen-bindinger, som er vanlige i legemidler. Reaksjonen fungerer imidlertid ikke like godt for alle molekylklasser. Særlig har kobling av primære sulfonamider med boronsyrer historisk gitt lave utbytter. Sulfonamider er en viktig familie av molekyler som finnes i legemidler brukt innen onkologi og infeksjonssykdommer. Å gjøre denne reaksjonen mer pålitelig kan gi medisinske kjemikere en bredere og mer praktisk måte å produsere og utforske potensielt nyttige molekyler på.
Det kombinerte systemet forente komplementære evner. Prompter skrevet av forskere som arbeidet med Maria AI, ble brukt med GPT‑5.4 i en testsele for å generere og rangere tusenvis av mulige forskningsforslag. Menneskelige kjemikere gjennomgikk den lille gruppen forslag som systemet rangerte høyest, og valgte fire for laboratorietesting. Maria AI oversatte deretter utvalgte overordnede planer til detaljerte laboratorieinstruksjoner, kjørte tusenvis av eksperimenter med høy gjennomstrømming, analyserte rådataene og returnerte strukturerte resultater til GPT‑5.4.
Ett av de fire utvalgte forslagene, OAI-M1-03, foreslo å bruke milde oksidasjonsmidler som TEMPO for å forbedre effektiviteten til Chan-Lam-reaksjonen ved sulfonamidsyntese. Kjemikere syntes forslaget var både overraskende og interessant. Vi deler de detaljerte funnene fra OAI-M1-03 i dette blogginnlegget og i artikkelen(åpnes i et nytt vindu).
Det endelige forskningsforslaget ble deretter brukt av Maria til å generere eksperimentelle matriser, med små korrigeringer fra mennesker. Den største menneskelige korrigeringen var å unngå dimetylsulfoksid, eller DMSO, som løsemiddel fordi kjemikerne var bekymret for at det kunne reagere med de sterkere oksidantene som ble brukt som sammenligninger.
Hele prosessen tok tre måneder, fra den første prompten 4. mars til delingen av OAI-M1-03-resultatene med uavhengige eksperter 4. juni.
Vi beskriver denne arbeidsflyten som nær-autonom, ikke fullt autonom, fordi menneskelige kjemikere fortsatt tok viktige beslutninger gjennom hele prosessen. Modellen foreslo de viktigste forskningsideene, mens menneskelige kjemikere bidro med overordnet styring og vurdering, korrigerte eksperimentelle detaljer, hjalp til med å klargjøre laboratorieforbruksvarer og reagenser og gjentok sentrale eksperimenter for hånd.
OAI-M1-03 identifiserte TEMPO som et nyttig tilsetningsstoff for den primære sulfonamid-Chan-Lam-koblingen som studeres her. Under de optimaliserte betingelsene ble reaksjonen forbedret på to måter: gjennomsnittlig utbytte økte, og flere substratkombinasjoner nådde praktisk nyttige utbytter.
Over to sykluser kjørte Maria totalt 10 080 reaksjoner – mer enn en kjemiker som kjører tre reaksjoner hver dag, ville gjort på et tiår. Den skalaen var viktig fordi kjemiresultater kan være misvisende når de testes på bare noen få eksempler. En reaksjon kan se lovende ut på ett par utgangsmaterialer, men svikte på tvers av et bredere sett med molekyler. Tusenvis av reaksjoner gjorde det mulig å identifisere TEMPO blant ti testede oksidanter, se effekten gjenta seg på tvers av ulike kombinasjoner og finne begrensningene.
Etter å ha analysert den første datarunden foreslo systemet en mer fokusert andre runde med eksperimenter for å teste oppfølgingshypoteser. Ett nyttig oppfølgingsfunn var at TEMPO kunne erstattes av en langt billigere analog, 4-hydroksy-TEMPO, med lite tap i ytelse.
Resultatet holdt også utover Maria Labs screeningformat i mikroliterskala. Menneskelige kjemikere reproduserte representative reaksjoner manuelt i benkskala og observerte en økning i utbytte for 11 av 14 substratpar; for åtte par var økningen større enn to ganger. Denne replikasjonen er viktig fordi eksperimenter i svært liten skala noen ganger kan introdusere artefakter som forsvinner i større skala. Validering i benkskala er også vanlig før forskning publiseres i et vitenskapelig tidsskrift.

Reaksjonsrør fra den manuelle valideringen i laboratorieskala.
Fire eksterne kjemieksperter vurderte preprinten som beskrev OAI-M1-03. Vurderingene deres støttet vårt syn om at resultatet var nytt og verdt å dele med det vitenskapelige miljøet. Den sterkere testen kommer nå: om uavhengige laboratorier kan reprodusere resultatet, og om kjemikere finner det nyttig på tvers av et bredere spekter av molekyler.
Av de tre andre forslagene som ble generert av GPT‑5.4 og testet av Maria i tremånedersperioden, ble OAI-M1-02 og OAI-M1-04 eksperimentelt påvist i Maria Lab, mens OAI-M1-01 ble motbevist. Analysen av disse resultatene pågår.
Dette arbeidet viser at en modell kan gi et nyttig bidrag i organisk kjemi. Den gjorde mer enn å oppsummere litteraturen eller foreslå et enkeltstående eksperiment: den foreslo en konkret, overraskende hypotese og løftet den frem for menneskelig vurdering, utformet eksperimenter, tolket eksperimentelle data og utformet oppfølgingseksperimenter.
Det viser ikke at AI selvstendig kan drive et kjemisk forskningsprogram fra start til slutt. Menneskelig vurdering forble avgjørende, og arbeidsflyten var avhengig av spesialisert infrastruktur med høy gjennomstrømming. Det fastslår heller ikke at metoden vil kunne generaliseres til andre koblingsreaksjoner, andre substratklasser eller produksjonsbetingelser.
Utbytteestimatene kom fra en plattform med høy gjennomstrømming, og benkvalideringen omfattet 14 representative substratpar. Mer arbeid trengs for å karakterisere reaksjonsmekanismen, definere substratomfanget, måle ytelse under ulike laboratoriebetingelser og reprodusere resultatet uavhengig.
Kjemikapasiteter krever varsom håndtering fordi de samme verktøyene som kan støtte medisin og materialvitenskap, også kan misbrukes. Vi avgrenset bevisst dette arbeidet til et legitimt problem innen legemiddelkjemi: å forbedre en kjent koblingsreaksjon som brukes til å lage legemiddellignende molekyler. Eksperimentene involverte ikke toksiner, kjemiske våpen eller forespørsler om å utforme skadelige forbindelser. Disse resultatene bør ikke leses som bevis for at systemet kan hjelpe med slike skadelige anvendelser. Prosjektet testet eller demonstrerte ikke det.
Vi vurderer og reduserer nye risikoer fra avanserte modellkapabiliteter gjennom vårt Preparedness Framework, inkludert risikoer knyttet til kjemiske og biologiske områder. Modellen som ble brukt i dette arbeidet, hadde allerede gjennomgått relevante evalueringer med UK AI Security Institute, og systemet var utformet for å avvise forespørsler rettet mot skadelige bruksområder. Den eksperimentelle arbeidsflyten la til enda et kontrollnivå: menneskelige kjemikere valgte hvilke forslag som gikk videre til laboratoriet, gjennomgikk eksperimentelle planer og beholdt kontrollen over den fysiske infrastrukturen.
Vi mener dette er den ansvarlige måten å studere AIs potensial i eksperimentell kjemi på: velge et problemområde med klar vitenskapelig verdi, kombinere sikkerhetstiltak på modellnivå med ekspertoppsyn og evaluere systemet gjennom avgrensede fysiske eksperimenter. Etter hvert som disse evnene forbedres, vil vi fortsette å vurdere fremvoksende risikoer, styrke sikkerhetstiltak og være konkrete om hva et resultat innebærer og ikke innebærer.
De umiddelbare neste trinnene er vitenskapelige: teste et bredere spekter av utgangsmaterialer, undersøke hvorfor tilsetningsstoffene forbedrer reaksjonen, kartlegge hvor effekten virker og svikter, og støtte uavhengig replikasjon. Til sammen vil disse studiene avgjøre hvor bredt metoden kan brukes, og hvor nyttig den er i praktiske arbeidsflyter innen legemiddelkjemi.
Vårt langsiktige mål er å gjøre AI-systemer til pålitelige vitenskapelige partnere som hjelper forskere med å generere hypoteser, utforme eksperimenter, tolke resultater og bestemme hva som skal testes videre, samtidig som de forblir forankret i ekspertvurdering, pålitelig måling og sterke sikkerhetstiltak. Organisk kjemi er et område med særlig stor påvirkningskraft fordi fremgang innen oppdagelse og produksjon av små molekyler avhenger av å kunne lage molekyler pålitelig. Forskere kan bare teste molekyler de kan lage, og bedre syntese kan utvide spekteret av ideer de kan utforske innen medisin, landbruk, elektronikk, energi og materialvitenskap. Dette resultatet er ett tidlig eksempel på den bredere retningen: en frontier-modell, spesialiserte agenter, et automatisert laboratorium og menneskelige kjemikere som arbeider sammen for å bevege seg raskere gjennom forskningssløyfen og produsere funn som det vitenskapelige miljøet kan vurdere, reprodusere og bygge videre på.
Vi er takknemlige overfor Molecule.one-teamet og de uavhengige kjemikerne som gjennomgikk dette arbeidet.