Un chimiste IA quasi autonome améliore une réaction difficile en chimie médicinale
Avec Maria de Molecule.one, GPT‑5.4 a trouvé un additif surprenant augmentant les rendements du couplage de Chan-Lam pour plus de 80 % des substrats testés.
Les travaux d’OpenAI dans le domaine scientifique reposent sur une conviction simple : l’IA avancée peut devenir un partenaire puissant pour les scientifiques, en les aidant à explorer davantage d’idées, à relier des concepts éloignés, à concevoir de meilleures expériences et à accélérer des découvertes bénéfiques pour l’humanité. Nous avons déjà présenté de premiers exemples de modèles ayant contribué à des résultats inédits en mathématiques, notamment des travaux sur le problème des distances unitaires, en physique théorique, avec un nouveau résultat sur les amplitudes de gluons, et en biologie, où GPT‑5 a aidé à réduire le coût de la synthèse de protéines acellulaire dans un laboratoire automatisé. Nous avons également présenté GPT‑Rosalind, un modèle conçu spécifiquement pour soutenir la recherche en sciences du vivant et les workflows de découverte de médicaments.
Ce projet prolonge cette trajectoire dans le domaine de la chimie médicinale, où les progrès ne peuvent pas être évalués par le seul raisonnement. Une hypothèse doit faire ses preuves en laboratoire, avec de vraies molécules, de vrais instruments et les aléas propres aux expériences. En collaboration avec Molecule.one(ouverture dans une nouvelle fenêtre), nous avons connecté GPT‑5.4 à Maria, une IA de chimie agentique intégrée à un laboratoire à haut débit pour la recherche autonome, et lui avons donné un objectif ouvert : améliorer l’une de plusieurs catégories importantes de réactions. Le système a généré des propositions de recherche, conçu et réalisé des expériences, analysé des données expérimentales et proposé des expériences de suivi. Les humains sont restés étroitement impliqués en concevant des prompts de pilotage et de notation, et en sélectionnant les propositions à tester. Ils ont également apporté des corrections limitées aux plans expérimentaux, aidé aux opérations de base du laboratoire et validé de façon indépendante le résultat final.
La proposition la plus prometteuse, OAI-M1-03, portait sur une version difficile mais utile du couplage de Chan–Lam, une réaction utilisée par les chimistes pour former des liaisons carbone-azote. Partant de l’objectif ouvert d’améliorer le couplage de Chan–Lam pour la chimie des procédés, GPT‑5.4 a identifié de manière autonome les sulfonamides primaires comme une classe de substrats difficile et à forte valeur, et a suggéré que des oxydants doux, dont TEMPO, pourraient améliorer la réaction.
Sur deux cycles d’expérimentation dans Maria Lab, cette idée a produit une amélioration significative. Dans les conditions optimisées, les rendements mesurés se sont améliorés pour 88 % des acides boroniques et 83 % des sulfonamides testés. Le rendement moyen est passé de 16,6 % à 25,2 %, et la part des réactions dépassant 30 % de rendement est passée de 15,6 % à 37,5 %. Des chimistes humains ont ensuite répété des réactions représentatives à l’échelle de la paillasse. Ces expériences ont confirmé les résultats à l’échelle du microlitre, montrant des rendements plus élevés pour 11 des 14 paires de substrats, avec une augmentation supérieure à deux fois dans la plupart des cas. C’est important, car les chimistes médicinaux ont besoin de réactions qui fonctionnent non seulement dans des expériences de criblage au microlitre, mais aussi dans les workflows pratiques de laboratoire utilisés lors de la découverte de médicaments.
Les améliorations dans ce domaine de la chimie médicinale sont particulièrement enthousiasmantes, car la synthèse constitue souvent un goulet d’étranglement majeur dans la découverte de médicaments : les scientifiques ne peuvent tester que les molécules qu’ils peuvent fabriquer ou obtenir autrement. Le groupe sulfonamide apparaît dans des médicaments couvrant un large éventail de domaines thérapeutiques, notamment les anticancéreux, les antimicrobiens et les diurétiques ; pourtant, le couplage de Chan–Lam de sulfonamides primaires avec des acides boroniques a historiquement donné de faibles rendements. Rendre cette forme de réaction plus fiable pourrait offrir aux chimistes médicinaux un moyen plus large et plus pratique de produire et d’explorer des molécules potentiellement utiles.
Même s’il s’agit encore d’un résultat préliminaire, il fournit un autre exemple concret de la direction plus large vers laquelle nous travaillons : des systèmes d’IA capables de devenir des partenaires précieux pour les scientifiques dans une grande partie de la boucle de recherche. Le modèle a passé en revue la littérature, proposé une idée inattendue, aidé à concevoir et à analyser des expériences, et abouti à une découverte scientifique que des chimistes humains ont pu évaluer.
Maria Lab : le laboratoire spécialisé à haut débit de Molecule.one qui a réalisé 10 080 réactions dans le cadre d’OAI-M1-03
La chimie organique est à la base de tous les médicaments à petites molécules, ainsi que de produits utilisés dans l’agriculture, l’électronique et la science des matériaux. Une réaction est particulièrement utile lorsqu’elle peut former le même type de liaison chimique de manière fiable avec de nombreux matériaux de départ différents. Lorsque les réactions produisent de faibles rendements ou trop de sous-produits indésirables, les chimistes peuvent devoir abandonner des molécules par ailleurs prometteuses ou consacrer beaucoup de temps à développer une autre voie. Cela fait de la synthèse un goulet d’étranglement majeur dans la découverte de médicaments : en général, les scientifiques ne peuvent tester que les molécules qu’ils peuvent fabriquer ou obtenir autrement.
Le couplage de Chan–Lam est utile en chimie médicinale, car il forme des liaisons carbone-azote, fréquentes dans les médicaments. Cependant, la réaction ne fonctionne pas aussi bien pour toutes les classes de molécules. En particulier, le couplage de sulfonamides primaires avec des acides boroniques a historiquement produit de faibles rendements. Les sulfonamides constituent une famille importante de molécules présentes dans des médicaments utilisés en oncologie et contre les maladies infectieuses. Rendre cette réaction plus fiable pourrait offrir aux chimistes médicinaux un moyen plus large et plus pratique de produire et d’explorer des molécules potentiellement utiles.
Le système combiné associait des capacités complémentaires. Des prompts rédigés par des scientifiques travaillant avec Maria AI ont été utilisés avec GPT‑5.4 au sein d’un système d’orchestration afin de générer et classer des milliers de propositions de recherche. Des chimistes ont examiné les propositions les mieux classées et en ont retenu quatre pour des essais en laboratoire. Maria AI a ensuite traduit les plans retenus en protocoles expérimentaux détaillés, mené des milliers d’expériences à haut débit, analysé les données brutes et renvoyé des résultats structurés à GPT‑5.4.
L’une des quatre propositions sélectionnées, OAI-M1-03, suggérait d’utiliser des oxydants doux comme TEMPO pour améliorer les performances de la réaction de Chan-Lam dans la synthèse des sulfonamides. Les chimistes ont trouvé cette suggestion à la fois surprenante et intéressante. Nous partageons les résultats détaillés d’OAI-M1-03 dans cet article de blog et dans l’article scientifique(ouverture dans une nouvelle fenêtre).
La proposition de recherche finale a ensuite été utilisée par Maria pour générer des grilles expérimentales, avec de légères corrections apportées par des humains. La principale correction humaine a consisté à éviter le diméthylsulfoxyde, ou DMSO, comme solvant, car les chimistes craignaient qu’il puisse réagir avec les oxydants plus forts utilisés comme comparateurs.
Le processus complet a duré trois mois, du premier prompt le 4 mars au partage des résultats d’OAI-M1-03 avec des experts indépendants le 4 juin.
Nous décrivons ce workflow comme quasi autonome, et non entièrement autonome, car des chimistes humains ont continué à prendre des décisions importantes tout au long du processus. Le modèle a proposé les idées de recherche clés, tandis que des chimistes humains ont fourni le pilotage et le jugement de haut niveau, corrigé des détails expérimentaux, aidé à préparer les consommables et réactifs de laboratoire, et répété manuellement les expériences clés.
OAI-M1-03 a identifié TEMPO comme un additif utile pour le couplage de Chan-Lam des sulfonamides primaires étudié ici. Dans les conditions optimisées, la réaction s’est améliorée de deux façons : le rendement moyen a augmenté et davantage de combinaisons de substrats ont atteint des rendements utiles en pratique.
Sur deux cycles, Maria a mené au total 10 080 réactions, soit plus qu’un chimiste réalisant trois réactions par jour n’en ferait en dix ans. Cette échelle était importante, car les résultats en chimie peuvent être trompeurs lorsqu’ils ne sont testés que sur quelques exemples. Une réaction peut sembler prometteuse sur une paire de matériaux de départ, mais échouer sur un ensemble plus large de molécules. Des milliers de réactions ont permis d’identifier TEMPO parmi dix oxydants testés, de voir l’effet se répéter sur des combinaisons diverses et d’en trouver les limites.
Après avoir analysé la première série de données, le système a proposé une deuxième série d’expériences plus ciblée afin de tester des hypothèses de suivi. Un résultat intéressant de cette seconde série d’expériences a été que TEMPO pouvait être remplacé par un analogue beaucoup moins coûteux, le 4-hydroxy-TEMPO, avec une faible perte de performance.
Le résultat s’est également maintenu au-delà du format de criblage à l’échelle du microlitre de Maria Lab. Des chimistes humains ont reproduit manuellement des réactions représentatives à l’échelle de la paillasse et observé une augmentation du rendement pour 11 des 14 paires de substrats ; pour huit paires, l’augmentation était supérieure à deux fois. Cette réplication est importante, car des expériences à très petite échelle peuvent parfois introduire des artefacts qui disparaissent à plus grande échelle. La validation à l’échelle de la paillasse est également une pratique courante avant la publication d’une recherche dans une revue scientifique.

Flacons de réaction provenant de la validation manuelle à l’échelle de la paillasse.
Quatre experts externes en chimie ont examiné la prépublication décrivant OAI-M1-03. Leurs évaluations ont conforté notre point de vue selon lequel le résultat était inédit et méritait d’être partagé avec la communauté scientifique. Le test décisif viendra ensuite : savoir si des laboratoires indépendants peuvent reproduire le résultat, et si les chimistes le jugent utile sur un éventail plus large de molécules.
Parmi les trois autres propositions générées par GPT‑5.4 et testées par Maria pendant la période de trois mois, OAI-M1-02 et OAI-M1-04 ont été confirmées expérimentalement dans Maria Lab, tandis qu’OAI-M1-01 a été réfutée. L’analyse de ces résultats est en cours.
Ces travaux montrent qu’un modèle peut apporter une contribution utile en chimie organique. Il a fait plus que résumer la littérature ou suggérer une expérience ponctuelle : il a proposé une hypothèse précise et surprenante, l’a mise en avant pour examen humain, a conçu des expériences, interprété des données expérimentales et conçu des expériences de suivi.
Ils ne montrent pas que l’IA peut mener de manière indépendante un programme de recherche en chimie de bout en bout. Le jugement humain est resté essentiel, et le workflow dépendait d’une infrastructure spécialisée à haut débit. Ils n’établissent pas non plus que la méthode se généralisera à d’autres réactions de couplage, à d’autres classes de substrats ou à des conditions de fabrication.
Les estimations de rendement provenaient d’une plateforme à haut débit, et la validation à la paillasse a couvert 14 paires de substrats représentatives. Des travaux supplémentaires sont nécessaires pour caractériser le mécanisme de la réaction, définir l’étendue des substrats compatibles, mesurer les performances dans différentes conditions de laboratoire et reproduire le résultat de manière indépendante.
Les capacités en chimie exigent un traitement prudent, car les mêmes outils qui peuvent soutenir la médecine et la science des matériaux pourraient aussi être détournés. Nous avons volontairement limité ces travaux à un problème légitime de chimie médicinale : améliorer une réaction de couplage connue utilisée pour fabriquer des molécules de type médicament. Les expériences n’impliquaient pas de toxines, d’armes chimiques ni de demandes de conception de composés nocifs. Ces résultats ne doivent pas être interprétés comme la preuve que le système peut aider à ces applications nocives. Le projet ne l’a ni testé ni démontré.
Nous évaluons et atténuons les risques émergents liés aux capacités avancées des modèles au moyen de notre cadre de préparation, notamment les risques liés aux domaines chimique et biologique. Le modèle utilisé dans ces travaux avait déjà fait l’objet d’évaluations adaptées auprès de l'Institut de sécurité de l'IA du Royaume-Uni (AISI), et le système a été conçu pour refuser les demandes axées sur des applications nocives. Le workflow expérimental a ajouté un niveau supplémentaire de contrôle : des chimistes humains sélectionnaient les propositions entrant au laboratoire, examinaient les plans expérimentaux et conservaient le contrôle de l’infrastructure physique.
Nous pensons que c’est la manière responsable d’étudier le potentiel de l’IA en chimie expérimentale : choisir un domaine de recherche à forte valeur scientifique, associer les garde-fous au niveau du modèle à une supervision experte et évaluer le système au moyen d’expériences physiques contraintes. À mesure que ces capacités s’amélioreront, nous continuerons à évaluer les risques émergents, à renforcer les garde-fous et à préciser ce qu’un résultat implique et n’implique pas.
Les prochaines étapes immédiates sont scientifiques : tester un éventail plus large de matériaux de départ, étudier pourquoi les additifs améliorent la réaction, déterminer dans quels cas l’effet est observé ou non, et soutenir une réplication indépendante. Ensemble, ces études détermineront dans quelle mesure la méthode peut être appliquée largement et quelle est son utilité dans des workflows pratiques de chimie médicinale.
Notre objectif à plus long terme est de faire des systèmes d’IA des partenaires scientifiques fiables, qui aident les chercheurs à générer des hypothèses, à concevoir des expériences, à interpréter les résultats et à décider quoi tester ensuite, tout en restant ancrés dans le jugement des experts, des mesures fiables et de solides garde-fous. La chimie organique est un domaine à fort impact, car les progrès dans la découverte et la fabrication de petites molécules dépendent de la capacité à fabriquer des molécules de manière fiable. Les scientifiques ne peuvent tester que les molécules qu’ils peuvent fabriquer, et une meilleure synthèse peut élargir l’éventail d’idées qu’ils peuvent explorer dans la médecine, l’agriculture, l’électronique, l’énergie et la science des matériaux. Ce résultat est un premier exemple de cette direction plus large : un modèle de pointe, des agents spécialisés, un laboratoire automatisé et des chimistes humains travaillant ensemble pour avancer plus vite dans la boucle de recherche et produire des découvertes que la communauté scientifique peut évaluer, reproduire et exploiter.
Nous remercions l’équipe de Molecule.one et les chimistes indépendants qui ont examiné ces travaux.