GPT‑5 réduit le coût de la synthèse de protéines sans cellules
En collaboration avec Ginkgo Bioworks, nous avons créé un laboratoire autonome basé sur l'IA et réduit de 40 % les coûts de production des protéines.
Nous avons observé des progrès significatifs de l'IA dans des domaines tels que les mathématiques et la physique, où les concepts peuvent souvent être évalués sans interagir avec le monde physique. La biologie est différente. Les progrès se font en laboratoire, où les scientifiques mènent des expériences qui demandent du temps et des ressources financières.
Pourtant, la situation commence à changer. Les modèles Frontier peuvent désormais se connecter directement à l'automatisation des laboratoires, proposer des expériences, les mener à grande échelle, tirer des enseignements des résultats et déterminer les prochaines étapes. Dans la plupart des domaines des sciences de la vie, le goulot d'étranglement réside dans l'itération, et les laboratoires autonomes sont conçus pour lever cette contrainte.
Dans des précédentes publications d'œuvres, nous avons démontré que le GPT‑5 pouvait améliorer les protocoles de laboratoire expérimental grâce à l'expérimentation en boucle fermée. Nous démontrons ici que la même approche peut réduire le coût de la production de protéines.
Nous avons établi un partenariat avec Ginkgo Bioworks(ouverture dans une nouvelle fenêtre) afin de connecter GPT‑5 à un laboratoire cloud, c’est-à-dire un laboratoire expérimental automatisé fonctionnant à distance grâce à un logiciel, dans lequel des robots réalisent des expériences et renvoient des données. Nous avons utilisé cette configuration de laboratoire en boucle pour optimiser un processus biologique largement utilisé : la synthèse de protéines sans cellules (CFPS). Au cours de six cycles d’expérimentation en boucle fermée, le système a testé plus de 36 000 compositions réactionnelles CFPS uniques sur 580 plaques automatisées. Après avoir obtenu l’accès à un ordinateur, à un navigateur web et à des articles pertinents, GPT‑5 a effectué trois séries d’expériences pour établir une nouvelle norme en matière de CFPS à faible coût, permettant une réduction de 40 % du coût de production des protéines (et une amélioration de 57 % du coût des réactifs), y compris de nouvelles compositions réactionnelles plus résistantes aux conditions de réaction courantes dans les laboratoires autonomes.
La synthèse de protéines sans cellules (CFPS) est une méthode permettant de produire des protéines sans cultiver de cellules vivantes. Au lieu d'introduire de l'ADN dans des cellules et d'attendre qu'elles produisent une protéine, la CFPS active le mécanisme de production protéique dans un mélange contrôlé. Cela en fait un outil pratique pour le prototypage et les tests rapides, car les scientifiques peuvent mener de nombreuses expériences rapidement et analyser les résultats le jour même.
Les protéines occupent une place importante dans la biologie moderne. De nombreux médicaments essentiels sont à base de protéines. De nombreux diagnostics et tests de recherche dépendent des protéines. Dans les environnements industriels, les protéines agissent comme des enzymes qui rendent les processus chimiques plus propres et plus efficaces. On trouve même des protéines dans votre lessive. Lorsque la production de protéines devient plus rapide et moins coûteuse, les scientifiques peuvent généralement tester plus d'idées plus rapidement et réduire le coût de la transformation des premières recherches en produits dont tout le monde peut bénéficier au quotidien.
La CFPS est déjà utile pour ce type d'itération. Le principal défi réside dans le fait qu'elle est difficile à optimiser et devient coûteuse à grande échelle.
La synthèse de protéines hors cellule nécessite des ingrédients complexes qui interagissent entre eux : la matrice d’ADN codant pour la protéine à fabriquer, le lysat cellulaire (ensemble des mécanismes cellulaires provenant de l’intérieur des cellules) et un grand nombre de composants biochimiques allant des sources d’énergie aux sels. Il est extrêmement difficile d’appréhender le système dans son ensemble, et de nombreuses(ouverture dans une nouvelle fenêtre) études(ouverture dans une nouvelle fenêtre) précédentes(ouverture dans une nouvelle fenêtre) ont appliqué différents types de machine learning afin de réduire le coût de production des protéines.
Les formulations standard de synthèse protéique sans cellules (CFPS) et les kits commerciaux sont souvent proposés à des prix adaptés à un travail à l'échelle humaine. Les laboratoires autonomes peuvent effectuer des milliers de réactions là où une équipe humaine n'en réaliserait que quelques dizaines. À cette échelle, le coût des réactifs devient le facteur limitant.
La CFPS est également difficile à optimiser uniquement à l'intuition. C'est un mélange de nombreux composants qui interagissent entre eux. De petits changements peuvent avoir leur importance, mais la nature de leur effet n'est pas toujours évidente, et il peut être difficile de trouver les meilleures associations sans procéder à de nombreuses expériences. Les approches précédentes ont permis de réduire les coûts, mais les progrès ont tendance à être progressifs, car il est très laborieux d'explorer ce domaine dans toute son étendue.
Nous avons associé GPT‑5 au laboratoire cloud de Ginkgo Bioworks afin de créer un système autonome en boucle fermée pour l'optimisation de la synthèse de protéines sans cellules (CFPS).
GPT‑5 a conçu des séries d'expériences. Le laboratoire les a exécutés. Les résultats ont été transmis au modèle. Le modèle a utilisé ces données pour proposer la prochaine série. Nous avons répété ce cycle six fois.

GPT‑5 a conçu des séries d'expériences dans un format standard de plaque à 384 emplacements et les a exécutées sur le laboratoire cloud de Ginkgo Bioworks. Une fois les expériences terminées, le laboratoire cloud a renvoyé les données à GPT‑5, où le modèle a analysé les résultats, généré de nouvelles hypothèses et conçu la prochaine série d'expériences.
Afin de garantir que le cycle reste ancré dans les capacités d'un laboratoire autonome, nous avons ajouté une validation programmatique rigoureuse avant le lancement de toute expérience. Cette validation garantissait que les expériences conçues par l'IA étaient physiquement exécutables sur la plateforme d'automatisation. Elle empêchait ainsi les « expériences sur papier », qui semblaient plausibles en théorie, mais qui ne pourraient pas être réalisées dans un flux de travail robotisé.
Au cours de l’ensemble du cycle, le système a exécuté plus de 36 000 réactions CFPS sur 580 plaques automatisées. Cette échelle est importante, car c’est elle qui permet de faire apparaître des tendances. En biologie, les expériences isolées sont peu fiables. Le débit et l’itération permettent de séparer le signal du bruit de fond. Une fois que GPT‑5 a eu accès à l’article pertinent et aux outils, il a fallu trois séries d’expérimentations et deux mois pour établir une nouvelle référence : un coût de production des protéines réduit de 40 % par rapport à la meilleure référence antérieure(ouverture dans une nouvelle fenêtre).
Chariots d'automatisation reconfigurables de Ginkgo Bioworks. Crédit : Ginkgo Bioworks
Nous avons constaté que les améliorations provenaient de l'identification d'associations efficaces et adaptées aux réalités de l'automatisation à haut débit.
Nous avons constaté que GPT‑5 a identifié des compositions réactionnelles à faible coût que les humains n'avaient pas encore testées dans cette configuration. La synthèse protéique sans cellules (CFPS) fait l'objet d'études depuis des années, mais l'éventail des mélanges possibles reste vaste. Lorsque l'on peut proposer et exécuter rapidement des milliers d'associations, il est possible de trouver des zones exploitables qui seraient facilement négligées dans le cadre d'un processus manuel.
Nous avons également constaté que les expériences à haut débit réalisées sur des plaques diffèrent souvent des expériences manuelles réalisées en laboratoire. L'oxygénation peut être plus faible dans les formats de réaction à haut débit. Le mélange et la configuration peuvent être différents. La plupart des réactions CFPS produisent beaucoup plus de protéines dans des tubes à essai que dans des plaques de microtitrage, car les échelles plus grandes offrent généralement une plus grande disponibilité en oxygène et un meilleur mélange. En effet, pour les réactions sur plaque à faible volume, le GPT‑5 a proposé de nombreuses réactions qui ont surpassé les meilleures précédentes immédiatement après avoir eu accès à un ordinateur pour l'analyse des données et à un navigateur web pour rechercher des articles pertinents. Dans l'ensemble, GPT‑5 a proposé de nombreuses associations de réactifs qui ont donné de bons résultats dans des conditions de haut débit, dont beaucoup sont plus performants dans des conditions de faible teneur en oxygène, fréquentes dans les laboratoires automatisés.
De plus, nous avons constaté que de légères modifications apportées aux composants de tampon, de régénération d'énergie et aux polyamines avaient un impact disproportionné par rapport à leur coût. Ce ne sont pas toujours les premiers paramètres auxquels les gens pensent, mais à haut débit, ils deviennent des hypothèses vérifiables plutôt que des suppositions de base.
Enfin, c'est la structure des coûts elle-même qui a déterminé ce qui importait. Dans la CFPS, les coûts sont désormais dominés par le lysat et l'ADN. Cela signifie que le rendement est la stratégie la plus efficace. Si vous pouvez augmenter la production de protéines par unité de matière première coûteuse, vous réalisez des progrès significatifs en matière de coûts avant même de rechercher des économies marginales ailleurs.
Au cours de six cycles d'expérimentation autonome, le système a progressivement amélioré la synthèse de protéines sans cellules, ce qui a permis de réduire les coûts tout en augmentant le rendement protéique. Les résultats sont présentés sous forme de coût de réaction par rapport au taux de protéines pour chaque cycle, les meilleurs compromis formant une limite. Les points les plus gros indiquent le coût par gramme le plus bas atteint à chaque cycle, et la référence en pointillés indique la meilleure référence auparavant enregistrée pour les plaques à 384 emplacements (Olsen et al., 2025). Un examen plus approfondi des derniers cycles met en évidence les résultats finaux, et un résumé cycle par cycle montre que le meilleur coût par gramme diminue au fil du temps.
Ces résultats ont été démontrés sur une protéine, la sfGFP, et un système de synthèse protéique acellulaire (CFPS). La généralisation à d'autres protéines et à d'autres systèmes CFPS doit encore être démontrée.
L'oxygénation et la configuration de la réaction peuvent avoir une incidence significative sur les rendements, et ces facteurs peuvent varier selon les échelles. Certaines améliorations peuvent être sensibles à ces conditions, et la compréhension de ces sensibilités fait partie de ce qui va suivre.
Une supervision humaine était nécessaire pour l'amélioration des protocoles et la manipulation des réactifs. Le système peut concevoir et interpréter des expériences, mais le travail en laboratoire implique toujours des détails pratiques qui nécessitent des opérateurs expérimentés.
Nous prévoyons d'appliquer l'optimisation « lab-in-the-loop » à d'autres processus biologiques où une itération plus rapide peut favoriser les progrès. Nous considérons les laboratoires autonomes comme complémentaires aux modèles. Les modèles peuvent générer des conceptions, mais en fin de compte, la biologie nécessite toujours des tests et des itérations. C'est en bouclant la boucle entre la génération et l'expérimentation que l'on transforme des idées prometteuses en résultats concrets.
Alors que nous œuvrons à accélérer le progrès scientifique de manière sûre et responsable, nous cherchons également à évaluer et à réduire les risques, en particulier ceux liés à la biosécurité. Ces résultats montrent que les modèles peuvent raisonner dans le laboratoire expérimental pour améliorer les protocoles, et peuvent avoir des implications pour la biosécurité que nous évaluons et atténuons grâce à notre cadre de préparation. Nous nous engageons à mettre en place des garde-fous nécessaires et nuancés, tant au niveau des modèles que des systèmes, afin de réduire ces risques, ainsi qu’à développer des évaluations permettant d’en suivre les niveaux actuels.
Nous sommes reconnaissants envers nos partenaires de Ginkgo Bioworks et les équipes qui ont contribué à la conception, à l'exploitation et au soutien du laboratoire cloud automatisé à l'origine de ce projet.


