GPT‑5 réduit le coût de la synthèse de protéines sans cellules
En collaboration avec Ginkgo Bioworks, nous avons créé un laboratoire autonome piloté par l’IA et avons réalisé une réduction de 40 % du coût de production des protéines.
Nous avons observé des progrès rapides de l’IA dans des domaines tels que les mathématiques et la physique, où les idées peuvent souvent être évaluées sans interaction avec le monde physique. La biologie est différente. Le progrès traverse le laboratoire, où les scientifiques effectuent des expériences qui demandent du temps et de l'argent.
Cependant, la situation commence à changer. Les modèles de pointe peuvent maintenant se connecter directement à l'automatisation de laboratoire, proposer des expériences, les exécuter à grande échelle, apprendre des résultats et décider de la suite. Dans une grande partie des sciences de la vie, le goulot d'étranglement est l'itération, et les laboratoires autonomes sont conçus pour lever cette contrainte.
Dans des travaux antérieurs, nous avons démontré que GPT‑5 pouvait améliorer les protocoles de laboratoire humide grâce à une expérimentation en boucle fermée. Ici, nous démontrons que la même approche peut réduire le coût de production des protéines.
Nous nous sommes associés à Ginkgo Bioworks(s'ouvre dans une nouvelle fenêtre) pour connecter GPT‑5 à un laboratoire infonuagique –un laboratoire de biologie expérimentale automatisé géré à distance par un logiciel, où des robots réalisent des expériences et renvoient des données – et avons utilisé cette configuration de laboratoire en boucle pour optimiser un processus biologique largement utilisé : la synthèse de protéines sans cellules (CFPS). Au cours de six cycles d’expérimentation en boucle fermée, le système a testé plus de 36 000 compositions de réaction CFPS distinctes réparties sur 580 plaques automatisées. Après avoir eu accès à un ordinateur, à un navigateur Web et à des articles pertinents, GPT‑5 a nécessité trois séries d’expérimentations pour établir une nouvelle référence en matière de CFPS à faible coût, permettant une réduction de 40 % du coût de production des protéines (et une amélioration de 57 % du coût des réactifs), notamment grâce à de nouvelles compositions réactionnelles plus résistantes aux conditions de réaction couramment rencontrées dans les laboratoires autonomes.
La synthèse de protéines sans cellules (CFPS) est une méthode pour produire des protéines sans avoir besoin de cultiver des cellules vivantes. Au lieu d'introduire de l'ADN dans des cellules et d'attendre qu'elles produisent une protéine, le CFPS active la machinerie de production des protéines dans un mélange contrôlé. Cela en fait un outil pratique pour le prototypage rapide et les tests, car les scientifiques peuvent mener de nombreuses expériences rapidement et mesurer les résultats le jour même.
Les protéines représentent une part importante de ce que la biologie moderne apporte. De nombreux médicaments importants reposent sur des protéines. De nombreux diagnostics et essais de recherche dépendent des protéines. Dans les environnements industriels, les protéines jouent le rôle d'enzymes qui rendent les processus chimiques plus propres et plus efficaces. Des protéines se trouvent même dans votre détergent à lessive. Lorsque la production de protéines devient plus rapide et moins coûteuse, les scientifiques peuvent généralement tester plus d'idées plus tôt et réduire le coût de la transformation des premières recherches en quelque chose dont les gens peuvent bénéficier chaque jour.
CFPS est déjà utile pour ce type d’itération. Le goulot d'étranglement réside dans le fait qu'il est difficile à optimiser et qu'il devient coûteux à grande échelle.
La synthèse protéique hors cellule nécessite des éléments complexes qui interagissent entre eux : la matrice d’ADN codant pour la protéine à produire, le lysat cellulaire (le mélange de composants cellulaires provenant de l’intérieur des cellules) et un grand nombre de composants biochimiques, allant des sources d’énergie aux sels. Il est extrêmement difficile d’analyser le système dans son ensemble, et de nombreuses(s'ouvre dans une nouvelle fenêtre) études(s'ouvre dans une nouvelle fenêtre) antérieures(s'ouvre dans une nouvelle fenêtre) ont eu recours à différents types d’apprentissage automatique pour réduire les coûts de production des protéines.
Les formulations standard de synthèse protéique sans cellules (CFPS) et les trousses commerciales sont souvent vendues à des prix adaptés à un rythme de travail humain. Les laboratoires autonomes peuvent réaliser des milliers de réactions dans le temps qu’une équipe humaine en réaliserait des dizaines. À cette échelle, le coût des réactifs devient le facteur limitant.
CFPS est également difficile à optimiser par la seule intuition. C’est un mélange de nombreux composants qui interagissent. De petits changements peuvent avoir de l’importance, mais la direction de l’effet n’est pas toujours évidente, et les meilleures combinaisons peuvent être difficiles à trouver sans effectuer de nombreuses expériences. Les approches antérieures ont réduit les coûts, mais les progrès tendent à être limités, car l’exploration approfondie de l’espace est exigeante en main-d’œuvre.
Nous avons associé GPT‑5 au laboratoire infonuagique de Ginkgo Bioworks pour créer un système autonome en boucle fermée destiné à l’optimisation de la synthèse de protéines sans cellules (CFPS).
GPT‑5 a conçu des séries d’expériences. Le laboratoire les a exécutés. Les résultats ont été réintégrés dans le modèle. Le modèle a utilisé ces données pour proposer le prochain cycle. Nous avons répété ce cycle six fois.

GPT‑5 a conçu des séries d’expériences dans un format standard de plaque à 384 puits, et les a exécutées sur le laboratoire infonuagique de Ginkgo Bioworks. Une fois les expériences terminées, le laboratoire infonuagique a renvoyé les données à GPT‑5, où le modèle a analysé les résultats, généré de nouvelles hypothèses et conçu la prochaine série d’expériences.
Pour que la boucle reste ancrée dans ce qu’un laboratoire autonome peut faire, nous avons ajouté une validation programmatique stricte avant l’exécution de toute expérience. Cette validation a confirmé que les expériences conçues par l'IA pouvaient être exécutées physiquement sur la plateforme d'automatisation. Cela a permis d'éviter les « expériences sur papier » qui semblent plausibles à l'écrit, mais qui ne peuvent être réalisées dans un flux de travail robotisé.
Au cours de l’ensemble du cycle, le système a effectué plus de 36 000 réactions CFPS sur 580 plaques automatisées. Cette échelle est importante, car c’est elle qui permet aux tendances de se dessiner. En biologie, les expériences individuelles sont sujettes à des variations. C’est grâce au débit et à l’itération que l’on parvient à distinguer le signal du bruit aléatoire. Une fois que GPT‑5 a eu accès à l’article et aux outils pertinents, il a fallu trois séries d’expérimentations et deux mois pour établir une nouvelle référence : un coût de production des protéines réduit de 40 % par rapport à la meilleure référence antérieure(s'ouvre dans une nouvelle fenêtre).
Chariots d’automatisation reconfigurables de Ginkgo Bioworks. Crédit : Ginkgo Bioworks
Nous avons constaté que les améliorations provenaient de l'identification de combinaisons qui fonctionnent bien ensemble et qui résistent aux réalités de l'automatisation à haut débit.
Nous avons découvert que GPT‑5 a identifié des compositions de réaction à faible coût que les humains n'avaient pas encore testées dans cette configuration. La synthèse de protéines sans cellules (CFPS) a été étudiée depuis des années, mais l’espace des mélanges possibles reste vaste. Lorsque vous êtes en mesure de proposer et d'exécuter rapidement des milliers de combinaisons, vous pouvez identifier des régions exploitables qu'il est facile de manquer avec un flux de travail manuel.
Nous avons également constaté que les expériences à haut débit sur plaques diffèrent souvent des expériences manuelles sur paillasse. L’oxygénation peut être réduite dans les formats de réaction à haut débit. Le mélange et la géométrie peuvent être différents. La plupart des réactions CFPS produisent beaucoup plus de protéines dans des tubes à essai que dans des plaques de microtitration, car les échelles plus grandes offrent généralement une meilleure disponibilité en oxygène et un meilleur mélange. En fait, pour des réactions sur plaque à faible volume, GPT‑5 a proposé de nombreuses réactions qui ont surpassé les meilleures précédentes immédiatement après avoir eu accès à un ordinateur pour l'analyse des données et à un navigateur web pour rechercher des articles pertinents. Dans l’ensemble, GPT‑5 a proposé de nombreuses combinaisons de réactifs qui ont bien fonctionné sous des contraintes de haut débit, y compris plusieurs qui sont plus robustes dans des conditions de faible oxygène, courantes dans les environnements de laboratoire automatisés.
De plus, nous avons constaté que de légères modifications dans la mise en mémoire tampon, les composants de régénération d'énergie et les polyamines avaient un impact disproportionné par rapport à leur coût. Ce ne sont pas toujours les premiers paramètres auxquels les gens pensent, mais à haut débit, ils deviennent des hypothèses vérifiables plutôt que des suppositions de fond.
Enfin, la structure des coûts elle-même a déterminé ce qui était important. Dans le CFPS, les coûts sont désormais dominés par le lysat et l'ADN. Cela signifie que le rendement est la stratégie la plus à effet de levier. Si vous pouvez augmenter la production de protéines par unité d’intrant coûteux, vous faites des progrès significatifs sur les coûts, même avant de chercher des économies marginales ailleurs.
Au cours de six cycles d’expérimentation autonome, le système a continuellement amélioré la synthèse de protéines sans cellules, réduisant les coûts tout en augmentant le rendement en protéines. Les résultats sont présentés sous forme de coût de réaction par rapport au titre protéique pour chaque cycle, les meilleurs compromis formant une frontière. Les points plus grands marquent le coût par gramme le plus bas atteint à chaque tour, et la référence étoile/pointillée indique l'ancien point de référence de pointe dans les plaques à 384 puits (Olsen et al., 2025). Un examen plus approfondi des tours ultérieurs met en évidence les gains finaux, et une synthèse tour par tour montre que le meilleur coût par gramme diminue au fil du temps.
Ces résultats ont été démontrés sur une protéine, sfGFP, et un système de synthèse de protéines sans cellules (CFPS). La généralisation à d'autres protéines et à d'autres systèmes CFPS doit encore être démontrée.
L’oxygénation et la géométrie de réaction peuvent fortement influencer les rendements, et ces facteurs peuvent varier selon l’échelle. Certaines améliorations peuvent être sensibles à ces conditions, et comprendre ces sensibilités fait partie de l'étape suivante.
Une supervision humaine était nécessaire pour l'amélioration des protocoles et la manipulation des réactifs. Le système peut concevoir et interpréter des expériences, mais le travail en laboratoire comporte encore des détails pratiques nécessitant des opérateurs expérimentés.
Nous prévoyons d’appliquer l’optimisation en boucle avec le laboratoire à d’autres flux de travail biologiques où des itérations plus rapides peuvent débloquer des progrès. Nous voyons les laboratoires autonomes comme complémentaires aux modèles. Les modèles peuvent générer des conceptions, mais en fin de compte, la biologie nécessite toujours des tests et des itérations. Fermer la boucle entre la génération et l’expérimentation est la façon de transformer des idées prometteuses en résultats fonctionnels.
Alors que nous œuvrons à accélérer le progrès scientifique de manière sécuritaire et responsable, nous cherchons également à évaluer et à réduire les risques, en particulier ceux liés à la biosécurité. Ces résultats montrent que les modèles peuvent raisonner dans le laboratoire humide pour améliorer les protocoles, et peuvent avoir des implications en matière de biosécurité que nous évaluons et atténuons grâce à notre cadre de préparation. Nous nous engageons à établir des garde-fous nécessaires et nuancés au niveau des modèles et des systèmes pour réduire ces risques, ainsi qu'à développer des évaluations pour suivre les niveaux actuels.
Nous sommes reconnaissants envers nos partenaires chez Ginkgo Bioworks et les équipes qui ont aidé à concevoir, exploiter et soutenir le laboratoire infonuagique automatisé derrière ce travail.


