Un chimiste IA quasi autonome améliore une réaction difficile en chimie thérapeutique
Avec Maria de Molecule.one, GPT‑5.4 a trouvé un additif surprenant augmentant les rendements du couplage de Chan–Lam pour plus de 80 % des substrats testés.
Les travaux d’OpenAI dans le domaine scientifique sont motivés par une conviction simple : l’IA avancée peut devenir un partenaire puissant pour les scientifiques, en les aidant à explorer davantage d’idées, à établir des liens entre des concepts éloignés, à concevoir de meilleures expériences et à accélérer les découvertes qui profitent à l’humanité. Nous avons déjà présenté de premiers exemples de modèles ayant contribué à des résultats inédits en mathématiques, notamment des travaux sur le problème des distances unitaires, en physique théorique, avec un nouveau résultat sur les amplitudes de gluons, et en biologie, où GPT‑5 a contribué à réduire le coût de la synthèse de protéines sans cellules dans un laboratoire automatisé. Nous avons également présenté GPT‑Rosalind, un modèle conçu spécialement pour soutenir les processus de recherche en sciences de la vie et de découverte de médicaments.
Ce projet prolonge cette trajectoire jusque dans la chimie thérapeutique, où les progrès ne peuvent être mesurés par le seul raisonnement. Une hypothèse doit fonctionner en laboratoire avec de vraies molécules, des instruments et du bruit expérimental. En collaboration avec Molecule.one(s'ouvre dans une nouvelle fenêtre), nous avons connecté GPT‑5.4 à Maria, une IA agentique de chimie intégrée à un laboratoire à haut débit pour la recherche autonome, et lui avons donné un objectif général : améliorer l’une de plusieurs classes de réactions importantes. Le système a généré des propositions de recherche, conçu et exécuté des expériences, analysé les données expérimentales et proposé des expériences de suivi. Les humains sont demeurés impliqués dans le processus en concevant des invites d’orientation et d’évaluation, et en sélectionnant les propositions à tester. Ils ont également apporté des corrections limitées aux plans expérimentaux, aidé à effectuer des opérations de laboratoire de base et validé de façon autonome le résultat final.
La proposition la plus prometteuse, OAI-M1-03, portait sur une version difficile mais utile du couplage de Chan–Lam, une réaction que les chimistes utilisent pour former des liaisons carbone-azote. Partant de l’objectif général d’améliorer le couplage de Chan–Lam pour la chimie des procédés, GPT‑5.4 a identifié de manière autonome les sulfonamides primaires comme une classe de substrats difficile et à forte valeur, et a suggéré que des oxydants doux, dont TEMPO, pourraient améliorer la réaction.
Au cours de deux cycles d’expérimentation dans Maria Lab, cette idée a entraîné une amélioration significative. Dans les conditions optimisées, les rendements mesurés se sont améliorés pour 88 % des acides boroniques et 83 % des sulfonamides testés. Le rendement moyen est passé de 16,6 % à 25,2 %, et la proportion des réactions présentant un rendement supérieur à 30 % est passée de 15,6 % à 37,5 %. Des chimistes humains ont ensuite reproduit des réactions représentatives à l’échelle de la paillasse. Ces expériences ont confirmé les résultats obtenus à l’échelle du microlitre, montrant des rendements plus élevés pour 11 des 14 paires de substrats, avec une augmentation supérieure à un facteur deux dans la plupart des cas. C’est important, car les chimistes des médicaments ont besoin de réactions qui fonctionnent non seulement lors d’expériences de criblage à l’échelle du microlitre, mais aussi dans les flux de travail pratiques en laboratoire utilisés pendant la découverte de médicaments.
Les avancées dans ce domaine de la chimie thérapeutique sont particulièrement stimulantes, car la synthèse constitue souvent un obstacle majeur dans la découverte de médicaments : les scientifiques ne peuvent tester que les molécules qu’ils peuvent fabriquer ou obtenir par d’autres moyens. Le groupe sulfonamide est présent dans des médicaments couvrant un large éventail de domaines thérapeutiques, notamment les médicaments anticancéreux, les antimicrobiens et les diurétiques, mais le couplage de Chan–Lam des sulfonamides primaires avec des acides boroniques a historiquement produit de faibles rendements. Rendre cette forme de réaction plus fiable pourrait offrir aux chimistes en chimie thérapeutique une méthode plus polyvalente et plus pratique pour produire et explorer des molécules potentiellement utiles.
Même s’il s’agit encore d’un résultat préliminaire, cet exemple illustre concrètement l’objectif plus large que nous poursuivons : des systèmes d’IA capables de devenir des partenaires précieux pour les scientifiques tout au long d'une grande partie du processus de recherche. Le modèle a passé en revue la littérature, proposé une idée inattendue, aidé à concevoir et à analyser des expériences, et abouti à un résultat scientifique que des chimistes humains pouvaient évaluer.
Maria Lab : le laboratoire spécialisé de Molecule.one à haut débit, qui a réalisé 10 080 réactions dans le cadre d’OAI-M1-03
La chimie organique est à la base de tous les médicaments à petites molécules, ainsi que des produits en agriculture, en électronique et en science des matériaux. Une réaction est particulièrement utile lorsqu’elle permet de former de façon fiable le même type de liaison chimique à partir de nombreux réactifs de départ différents. Lorsque des réactions produisent des rendements faibles ou trop de sous-produits indésirables, les chimistes peuvent devoir abandonner des molécules pourtant prometteuses ou consacrer beaucoup de temps à élaborer une autre voie de synthèse. Cela fait de la synthèse un obstacle majeur dans la découverte de médicaments : les scientifiques ne peuvent généralement tester que les molécules qu’ils peuvent synthétiser ou obtenir par d’autres moyens.
Le couplage de Chan–Lam est utile en chimie thérapeutique, car il permet de former des liaisons carbone-azote, qui sont courantes dans les médicaments. Cependant, la réaction ne fonctionne pas aussi bien pour toutes les classes de molécules. En particulier, le couplage de sulfonamides primaires avec des acides boroniques a historiquement produit de faibles rendements. Les sulfonamides constituent une importante famille de molécules présentes dans des médicaments utilisés en oncologie et en infectiologie. Rendre cette réaction plus fiable pourrait offrir aux chimistes en chimie thérapeutique une méthode plus polyvalente et plus pratique pour produire et explorer des molécules potentiellement utiles.
Le système combiné associait des capacités complémentaires. Des invites rédigées par des scientifiques travaillant avec l’IA de Maria ont été utilisées avec GPT‑5.4 au sein d’un cadre d’expérimentation afin de générer et de classer des milliers de propositions de recherche potentielles. Des chimistes humains ont examiné le petit sous-ensemble de propositions les mieux classées selon le système et en ont sélectionné quatre aux fins d’essais en laboratoire. L’IA de Maria a ensuite converti les plans de haut niveau sélectionnés en consignes de laboratoire détaillées, mené des milliers d’expériences à haut débit, analysé les données brutes et renvoyé des résultats structurés à GPT‑5.4.
L’une des quatre propositions sélectionnées, OAI-M1-03, suggérait d’utiliser des oxydants doux comme le TEMPO afin d’améliorer l’efficacité de la réaction de Chan–Lam pour la synthèse de sulfonamides. Les chimistes ont trouvé la suggestion à la fois surprenante et intéressante. Nous présentons les résultats détaillés d’OAI-M1-03 dans ce billet de blogue et dans l’ article scientifique(s'ouvre dans une nouvelle fenêtre).
La proposition de recherche finale a ensuite été utilisée par Maria pour générer des grilles expérimentales, avec de légères corrections apportées par des humains. La principale correction humaine a consisté à éviter le diméthylsulfoxyde, ou DMSO, comme solvant, car les chimistes craignaient qu’il puisse réagir avec les oxydants plus forts utilisés comme comparateurs.
Le processus complet a duré trois mois, de la première invite le 4 mars à la communication des résultats d’OAI-M1-03 à des experts indépendants le 4 juin.
Nous qualifions ce flux de travail de quasi autonome et non entièrement autonome parce que des chimistes ont tout de même pris des décisions importantes tout au long du processus. Le modèle a proposé les idées de recherche clés, tandis que des chimistes humains ont assuré l’orientation stratégique et exercé leur jugement, corrigé certains détails expérimentaux, aidé à préparer les consommables et réactifs de laboratoire et répété manuellement les expériences clés.
OAI-M1-03 a identifié le TEMPO comme un additif utile pour le couplage Chan–Lam du sulfonamide primaire étudié ici. Dans les conditions optimisées, la réaction s’est améliorée de deux façons : le rendement moyen a augmenté et davantage de combinaisons de substrats ont atteint des rendements utiles en pratique.
Au cours de deux cycles, Maria a réalisé un total de 10 080 réactions, soit davantage qu’un chimiste réalisant trois réactions par jour n’en réaliserait en dix ans. Cette échelle était importante, car les résultats en chimie peuvent être trompeurs lorsqu’ils ne sont testés que sur quelques exemples. Une réaction peut sembler prometteuse sur une paire de matières de départ, mais échouer sur un ensemble plus large de molécules. Des milliers de réactions ont permis d’identifier TEMPO parmi dix oxydants testés, de constater que l’effet se reproduisait dans diverses combinaisons et d’en cerner les limites.
Après avoir analysé la première série de données, le système a proposé une deuxième série d’expériences plus ciblée afin de tester des hypothèses de suivi. Un résultat intéressant de cette seconde série d’expériences a été que TEMPO pouvait être remplacé par un analogue beaucoup moins coûteux, le 4-hydroxy-TEMPO, avec une faible perte de performance.
Le résultat s’est également maintenu au-delà du format de criblage à l’échelle du microlitre de Maria Lab. Des chimistes humains ont reproduit manuellement des réactions représentatives à l’échelle de la paillasse et ont observé une augmentation du rendement pour 11 des 14 paires de substrats; pour huit paires, l’augmentation était supérieure à deux fois. Cette réplication est importante parce que les expériences à très petite échelle peuvent parfois introduire des artefacts qui disparaissent à plus grande échelle. Il est également d’usage d’effectuer une validation à l’échelle de la paillasse avant que les travaux de recherche soient publiés dans une revue scientifique.

Fioles de réaction utilisées lors de la validation manuelle à l’échelle du laboratoire
Quatre experts externes en chimie ont examiné la prépublication décrivant OAI-M1-03. Leurs évaluations ont conforté notre point de vue selon lequel le résultat était inédit et méritait d’être partagé avec la communauté scientifique. L’épreuve la plus probante viendra ensuite : déterminer si des laboratoires indépendants peuvent reproduire le résultat, et si les chimistes le jugent utile pour une gamme plus large de molécules.
Parmi les trois autres propositions générées par GPT‑5.4 et testées par Maria pendant la période de trois mois, les hypothèses OAI-M1-02 et OAI-M1-04 ont été confirmées expérimentalement dans Maria Lab, tandis que l’hypothèse OAI-M1-01 a été réfutée. L’analyse de ces résultats est en cours.
Ce travail montre qu’un modèle peut apporter une contribution utile en chimie organique. Il a fait plus que résumer la littérature ou suggérer une expérience ponctuelle : il a proposé une hypothèse précise et surprenante, l’a soumise à l’examen des chercheurs, a conçu des expériences, a interprété des données expérimentales et a conçu des expériences de suivi.
Cela ne démontre pas que l’IA peut mener de façon autonome un programme de recherche en chimie de bout en bout. Le jugement humain demeurait essentiel, et le flux de travail dépendait d’une infrastructure spécialisée à haut débit. De plus, cela n’établit pas que la méthode pourra être généralisée à d’autres réactions de couplage, à d’autres classes de substrats ou à des conditions de fabrication.
Les estimations de rendement provenaient d’une plateforme à haut débit, et la validation à l’échelle du laboratoire a porté sur 14 paires de substrats représentatives. Des travaux supplémentaires sont nécessaires pour caractériser le mécanisme de la réaction, définir l’étendue des substrats compatibles, mesurer les performances dans différentes conditions de laboratoire et reproduire le résultat de manière indépendante.
Les capacités en chimie doivent être traitées avec prudence, car les mêmes outils qui peuvent soutenir la médecine et la science des matériaux pourraient aussi être utilisés à mauvais escient. Nous avons délibérément circonscrit la portée de ces travaux à un problème légitime de chimie thérapeutique : l’amélioration d’une réaction de couplage connue utilisée pour synthétiser des molécules de type médicament. Les expériences ne portaient pas sur des toxines, des armes chimiques ni des demandes visant à concevoir des composés nocifs. Ces résultats ne doivent pas être interprétés comme la preuve que le système peut aider à ces applications nuisibles. Le projet n’a ni testé ni démontré cela.
Nous évaluons et atténuons les risques émergents découlant des capacités des modèles avancés au moyen de notre cadre de préparation, qui comprend les risques liés aux domaines chimique et biologique. Le modèle utilisé dans ce travail avait déjà fait l’objet d’évaluations pertinentes auprès de l’Institut de sécurité de l’IA du Royaume-Uni, et le système a été conçu pour refuser les demandes axées sur des applications préjudiciables. Le flux de travail expérimental ajoutait un niveau de contrôle supplémentaire : les chimistes humains sélectionnaient les propositions à soumettre au laboratoire, examinaient les plans expérimentaux et conservaient le contrôle de l’infrastructure physique.
Nous pensons que c’est la manière responsable d’étudier le potentiel de l’IA en chimie expérimentale : choisir un domaine de recherche à forte valeur scientifique, associer les garde-fous au niveau du modèle à une supervision experte et évaluer le système au moyen d’expériences physiques contraintes. À mesure que ces capacités s’amélioreront, nous continuerons d’évaluer les risques émergents, de renforcer les mesures de protection et d’indiquer clairement ce qu’un résultat implique ou n’implique pas.
Les prochaines étapes immédiates sont scientifiques : tester un éventail plus large de matériaux de départ, étudier pourquoi les additifs améliorent la réaction, déterminer dans quels cas l’effet est observé ou non, et soutenir une réplication indépendante. Ensemble, ces études permettront de déterminer dans quelle mesure la méthode peut être appliquée et à quel point elle est utile dans les flux de travail pratiques en chimie thérapeutique.
Notre objectif à plus long terme est de faire des systèmes d’IA des partenaires scientifiques fiables qui aident les chercheurs à formuler des hypothèses, à concevoir des expériences, à interpréter les résultats et à décider de ce qu’il faut tester ensuite, tout en restant ancrés dans le jugement d’experts, des mesures fiables et de solides mécanismes de protection. La chimie organique est un domaine particulièrement stratégique, car les progrès dans la découverte et la fabrication de petites molécules dépendent de la capacité à synthétiser des molécules de manière fiable. Les scientifiques ne peuvent tester que les molécules qu’ils sont en mesure de synthétiser, et de meilleures méthodes de synthèse peuvent élargir l’éventail des idées qu’ils peuvent explorer en médecine, en agriculture, en électronique, en énergie et en science des matériaux. Ce résultat constitue l’un des premiers exemples de cette orientation plus large : un modèle de pointe, des agents spécialisés, un laboratoire automatisé et des chimistes humains qui travaillent ensemble pour accélérer le cycle de recherche et produire des résultats que la communauté scientifique peut évaluer, reproduire et sur lesquels elle peut s’appuyer.
Nous remercions l’équipe de Molecule.one et les chimistes indépendants qui ont examiné ces travaux.