Niemal autonomiczny chemik AI ulepsza trudną reakcję w chemii medycznej
Dzięki Marii od Molecule.one GPT‑5.4 znalazł zaskakujący dodatek, który zwiększa wydajności sprzęgania Chan-Lam dla ponad 80% testowanych substratów.
Prace OpenAI w nauce motywuje proste przekonanie: zaawansowana AI może stać się potężnym partnerem dla naukowców, pomagając im badać więcej pomysłów, łączyć odległe koncepcje, projektować lepsze eksperymenty i przyspieszać odkrycia korzystne dla ludzkości. Udostępniliśmy już wczesne przykłady wkładu modeli w nowe wyniki w matematyce, w tym prace nad problemem odległości jednostkowej, w fizyce teoretycznej — poprzez nowy wynik dotyczący amplitud gluonowych — oraz w biologii, gdzie GPT‑5 pomógł obniżyć koszt bezkomórkowej syntezy białek w zautomatyzowanym laboratorium. Wprowadziliśmy również GPT‑Rosalind, specjalnie zaprojektowany model wspierający badania w naukach o życiu oraz przepływy pracy związane z odkrywaniem leków.
Ten projekt rozszerza tę trajektorię na chemię medyczną, gdzie postępu nie można mierzyć samym rozumowaniem. Hipoteza musi działać w laboratorium z rzeczywistymi cząsteczkami, aparaturą i szumem eksperymentalnym. Współpracując z Molecule.one(otwiera nowe okno), połączyliśmy GPT‑5.4 z Marią — agentową sztuczną inteligencją do zadań chemicznych zintegrowaną z laboratorium o wysokiej przepustowości pozwalającym na autonomiczne wykonywanie badań — i wyznaczyliśmy jej otwarty cel: ulepszenie jednej z kilku ważnych klas reakcji. System wygenerował propozycje badawcze, zaprojektował i przeprowadził eksperymenty, przeanalizował dane eksperymentalne oraz zaproponował eksperymenty uzupełniające. Ludzie pozostawali w pętli decyzyjnej, projektując polecenia ukierunkowujące i oceniające oraz wybierając propozycje do przetestowania. Wprowadzili również niewielkie korekty do planów eksperymentów, pomagali przy podstawowych czynnościach laboratoryjnych oraz samodzielnie zweryfikowali ostateczny wynik.
Najbardziej obiecująca propozycja, OAI-M1-03, skupiała się na trudnej, ale użytecznej wersji sprzęgania Chan–Lam, reakcji używanej przez chemików do tworzenia wiązań węgiel–azot. Wychodząc od otwartego celu ulepszenia sprzęgania Chan–Lam na potrzeby chemii procesowej, GPT‑5.4 samodzielnie wskazał pierwszorzędowe sulfonamidy jako trudną, wartościową klasę substratów i zasugerował, że łagodne utleniacze, w tym TEMPO, mogą poprawić reakcję.
W dwóch cyklach eksperymentów w Maria Lab pomysł ten przyniósł znaczną poprawę. W zoptymalizowanych warunkach zmierzone wydajności poprawiły się dla 88% testowanych kwasów boronowych i 83% testowanych sulfonamidów. Średnia wydajność wzrosła z 16,6% do 25,2%, a udział reakcji o wydajności powyżej 30% zwiększył się z 15,6% do 37,5%. Następnie chemicy powtórzyli reprezentatywne reakcje w skali laboratoryjnej. Eksperymenty te potwierdziły wyniki w skali mikrolitrowej, wykazując wyższe wydajności dla 11 z 14 par substratów, w większości przypadków z ponad dwukrotnym wzrostem. Ma to znaczenie, ponieważ chemicy medyczni potrzebują reakcji działających nie tylko w mikrolitrowych eksperymentach przesiewowych, lecz także w praktycznych przepływach pracy laboratoryjnej używanych podczas odkrywania leków.
Ulepszenia w tym obszarze chemii medycznej są szczególnie ekscytujące, ponieważ synteza często stanowi główne wąskie gardło w odkrywaniu leków: naukowcy mogą testować tylko te cząsteczki, które potrafią wytworzyć lub inaczej pozyskać. Grupa sulfonamidowa występuje w lekach z wielu obszarów terapeutycznych, w tym w lekach przeciwnowotworowych, przeciwdrobnoustrojowych i moczopędnych, jednak sprzęganie Chan–Lam pierwszorzędowych sulfonamidów z kwasami boronowymi historycznie dawało niskie wydajności. Zwiększenie niezawodności tej formy reakcji mogłoby dać chemikom medycznym szerszy i bardziej praktyczny sposób wytwarzania oraz badania potencjalnie użytecznych cząsteczek.
Choć to wciąż wczesny wynik, stanowi on kolejny konkretny przykład szerszego kierunku, do którego dążymy: systemów AI, które mogą stać się wartościowymi partnerami naukowców w znacznej części cyklu badawczego. Model przejrzał literaturę, zaproponował nieoczekiwany pomysł, pomógł zaprojektować i przeanalizować eksperymenty oraz doprowadził do odkrycia naukowego, które mogli ocenić chemicy.
Maria Lab: wyspecjalizowane laboratorium firmy Molecule.one o wysokiej przepustowości, które przeprowadziło 10 080 reakcji w ramach OAI-M1-03
Chemia organiczna leży u podstaw wszystkich leków małocząsteczkowych, a także produktów w rolnictwie, elektronice i inżynierii materiałowej. Reakcja jest szczególnie użyteczna, gdy potrafi niezawodnie tworzyć ten sam rodzaj wiązania chemicznego w wielu różnych materiałach wyjściowych. Gdy reakcje dają niskie wydajności lub zbyt wiele niepożądanych produktów ubocznych, chemicy mogą musieć porzucić skądinąd obiecujące cząsteczki albo poświęcić dużo czasu na opracowanie innej ścieżki. To sprawia, że synteza jest głównym wąskim gardłem w odkrywaniu leków: naukowcy zasadniczo mogą testować tylko te cząsteczki, które potrafią wytworzyć lub inaczej pozyskać.
Sprzęganie Chan–Lam jest użyteczne w chemii medycznej, ponieważ tworzy wiązania węgiel–azot, często występujące w lekach. Reakcja nie działa jednak równie dobrze dla każdej klasy cząsteczek. W szczególności sprzęganie pierwszorzędowych sulfonamidów z kwasami boronowymi historycznie dawało niskie wydajności. Sulfonamidy to ważna rodzina cząsteczek obecnych w lekach stosowanych w onkologii i chorobach zakaźnych. Zwiększenie niezawodności tej reakcji mogłoby dać chemikom medycznym szerszy i bardziej praktyczny sposób wytwarzania oraz badania potencjalnie użytecznych cząsteczek.
Połączony system zestawił komplementarne możliwości. Polecenia napisane przez naukowców pracujących z Maria AI wykorzystano z GPT‑5.4 w ramach uprzęży, aby generować i porządkować tysiące możliwych propozycji badawczych. Chemicy przejrzeli niewielki podzbiór propozycji najwyżej ocenionych przez system i wybrali cztery do testów laboratoryjnych. Następnie Maria AI przekształciła wybrane plany wysokiego poziomu w szczegółowe instrukcje laboratoryjne, przeprowadziła tysiące wysokoprzepustowych eksperymentów, przeanalizowała surowe dane i zwróciła ustrukturyzowane wyniki do GPT‑5.4.
Jedna z czterech wybranych propozycji, OAI-M1-03, sugerowała zastosowanie łagodnych utleniaczy, takich jak TEMPO, w celu poprawy wydajności reakcji Chana-Lama w syntezie sulfonamidów. Chemicy uznali tę sugestię za zaskakującą i interesującą. Szczegółowe wyniki OAI-M1-03 omawiamy w tym wpisie na blogu oraz w publikacji(otwiera nowe okno).
Końcowa propozycja badawcza została następnie wykorzystana przez Marię do wygenerowania siatek eksperymentalnych, z niewielkimi korektami ze strony ludzi. Największa korekta wprowadzona przez ludzi polegała na uniknięciu dimetylosulfotlenku, czyli DMSO, jako rozpuszczalnika, ponieważ chemicy obawiali się, że może reagować z silniejszymi utleniaczami użytymi do porównań.
Cały proces trwał trzy miesiące: od pierwszego polecenia 4 marca do udostępnienia wyników OAI-M1-03 niezależnym ekspertom 4 czerwca.
Opisujemy ten przepływ pracy jako niemal autonomiczny, a nie w pełni autonomiczny, ponieważ chemicy nadal podejmowali ważne decyzje na każdym etapie procesu. Model proponował kluczowe pomysły badawcze, a chemicy zapewniali ogólne ukierunkowanie i ocenę, korygowali szczegóły eksperymentalne, pomagali przygotować materiały zużywalne i odczynniki laboratoryjne oraz ręcznie powtarzali kluczowe eksperymenty.
OAI-M1-03 wskazał TEMPO jako użyteczny dodatek do badanego tu sprzęgania Chan-Lam pierwszorzędowych sulfonamidów. W zoptymalizowanych warunkach reakcja poprawiła się na dwa sposoby: wzrosła średnia wydajność, a więcej kombinacji substratów osiągnęło praktycznie użyteczne wydajności.
W dwóch cyklach Maria przeprowadziła łącznie 10 080 reakcji — więcej, niż chemik wykonujący trzy reakcje dziennie przeprowadziłby w ciągu dekady. Ta skala miała znaczenie, ponieważ wyniki chemiczne mogą być mylące, gdy testuje się je tylko na kilku przykładach. Reakcja może wyglądać obiecująco dla jednej pary materiałów wyjściowych, ale zawieść w szerszym zestawie cząsteczek. Tysiące reakcji umożliwiły zidentyfikowanie TEMPO wśród dziesięciu testowanych utleniaczy, sprawdzenie powtarzalności efektu w różnych kombinacjach oraz znalezienie jego ograniczeń.
Po analizie pierwszej rundy danych system zaproponował bardziej ukierunkowaną drugą rundę eksperymentów, aby przetestować kolejne hipotezy. Jednym z użytecznych dalszych ustaleń było to, że TEMPO można zastąpić znacznie tańszym analogiem, 4-hydroksy-TEMPO, przy niewielkiej utracie wydajności.
Wynik utrzymał się również poza mikrolitrowym formatem przesiewowym Maria Lab. Chemicy ręcznie odtworzyli reprezentatywne reakcje w skali laboratoryjnej i zaobserwowali wzrost wydajności dla 11 z 14 par substratów; dla ośmiu par wzrost był ponad dwukrotny. Ta replikacja ma znaczenie, ponieważ eksperymenty w bardzo małej skali mogą czasem wprowadzać artefakty znikające w większej skali. Walidacja w skali laboratoryjnej jest też zwyczajowo wymagana przed publikacją badań w czasopiśmie naukowym.

Fiolki reakcyjne z ręcznej walidacji w skali laboratoryjnej.
Czterech zewnętrznych ekspertów-chemików zrecenzowało preprint opisujący OAI-M1-03. Ich oceny poparły nasze stanowisko, że wynik jest nowatorski i wart udostępnienia społeczności naukowej. Silniejszy test dopiero nadejdzie: czy niezależne laboratoria potrafią odtworzyć wynik i czy chemicy uznają go za użyteczny w szerszym zakresie cząsteczek.
Spośród trzech pozostałych propozycji wygenerowanych przez GPT‑5.4 i przetestowanych przez Marię w okresie trzech miesięcy OAI-M1-02 i OAI-M1-04 zostały eksperymentalnie potwierdzone w Maria Lab, natomiast OAI-M1-01 obalono. Analiza tych wyników trwa.
Ta praca pokazuje, że model może wnieść użyteczny wkład w chemię organiczną. Zrobił więcej niż podsumowanie literatury czy zaproponowanie jednorazowego eksperymentu: wysunął konkretną, zaskakującą hipotezę i przedstawił ją do oceny ludziom, zaprojektował eksperymenty, zinterpretował dane eksperymentalne oraz zaprojektował eksperymenty uzupełniające.
Nie pokazuje to, że AI potrafi samodzielnie prowadzić program badań chemicznych od początku do końca. Ocena człowieka pozostała niezbędna, a przepływ pracy zależał od wyspecjalizowanej infrastruktury wysokoprzepustowej. Nie dowodzi też, że metoda uogólni się na inne reakcje sprzęgania, inne klasy substratów czy warunki produkcyjne.
Szacunki wydajności pochodziły z platformy wysokoprzepustowej, a walidacja w skali laboratoryjnej objęła 14 reprezentatywnych par substratów. Potrzeba dalszych prac, aby scharakteryzować mechanizm reakcji, określić zakres substratów, zmierzyć działanie w różnych warunkach laboratoryjnych i niezależnie odtworzyć wynik.
Możliwości chemiczne wymagają ostrożnego traktowania, ponieważ te same narzędzia, które mogą wspierać medycynę i inżynierię materiałową, mogłyby zostać użyte niewłaściwie. Celowo ograniczyliśmy zakres tej pracy do uzasadnionego problemu chemii medycznej: ulepszenia znanej reakcji sprzęgania używanej do wytwarzania cząsteczek podobnych do leków. Eksperymenty nie obejmowały toksyn, broni chemicznej ani próśb o projektowanie szkodliwych związków. Nie należy odczytywać tych wyników jako dowodu, że system może pomagać w takich szkodliwych zastosowaniach. Projekt tego nie testował ani nie demonstrował.
Oceniamy i ograniczamy pojawiające się zagrożenia wynikające z zaawansowanych możliwości modeli za pomocą naszych Ram gotowości, w tym zagrożenia związane z dziedzinami chemii i biologii. Model wykorzystany w tej pracy przeszedł już odpowiednie ewaluacje we współpracy z brytyjskim Instytutem Bezpieczeństwa AI (UK AI Security Institute), a system zaprojektowano tak, aby odmawiał realizacji żądań ukierunkowanych na szkodliwe zastosowania. W procesie eksperymentalnym dodano kolejny poziom kontroli: chemicy wybierali, które propozycje trafią do laboratorium, zweryfikowali plany eksperymentów i zachowywali kontrolę nad fizyczną infrastrukturą.
Uważamy, że to odpowiedzialny sposób badania potencjału AI w chemii eksperymentalnej: wybrać obszar problemowy o jasnej wartości naukowej, połączyć zabezpieczenia na poziomie modelu z nadzorem ekspertów i ocenić system poprzez ograniczone eksperymenty fizyczne. W miarę rozwoju tych możliwości będziemy nadal oceniać pojawiające się ryzyka, wzmacniać zabezpieczenia i precyzyjnie określać, co dany wynik oznacza, a czego nie oznacza.
Bezpośrednie kolejne kroki obejmują działania naukowe: przetestować szerszy zakres materiałów wyjściowych, zbadać, dlaczego dodatki poprawiają reakcję, zmapować, gdzie efekt działa, a gdzie zawodzi, oraz wesprzeć niezależną replikację. Łącznie badania te określą, jak szeroko można stosować tę metodę i jak użyteczna jest ona w praktycznych przepływach pracy chemii medycznej.
Naszym długoterminowym celem jest uczynienie systemów AI wiarygodnymi partnerami naukowymi, którzy pomagają badaczom generować hipotezy, projektować eksperymenty, interpretować wyniki i decydować, co testować dalej, pozostając zakorzenionymi w ocenie ekspertów, rzetelnych pomiarach i silnych zabezpieczeniach. Chemia organiczna jest szczególnie obiecującym obszarem, ponieważ postęp w odkrywaniu i wytwarzaniu małych cząsteczek zależy od zdolności niezawodnego wytwarzania cząsteczek. Naukowcy mogą testować tylko cząsteczki, które potrafią wytworzyć, a lepsza synteza może poszerzyć zakres pomysłów, które mogą badać w medycynie, rolnictwie, elektronice, energetyce i inżynierii materiałowej. Ten wynik jest jednym z wczesnych przykładów tego szerszego kierunku: model pionierski, wyspecjalizowani agenci, zautomatyzowane laboratorium i chemicy współpracujący, aby szybciej przechodzić przez cykl badawczy i uzyskiwać ustalenia, które społeczność naukowa może ocenić, odtworzyć i rozwinąć.
Jesteśmy wdzięczni zespołowi Molecule.one oraz niezależnym chemikom, którzy zrecenzowali tę pracę.