Présentation de GPT‑Rosalind pour la recherche en sciences de la vie
Un nouveau modèle conçu sur mesure pour accélérer la recherche scientifique et la découverte de médicaments.
Aujourd’hui, nous présentons GPT‑Rosalind, notre modèle de raisonnement de pointe conçu pour soutenir la recherche en biologie, la découverte de médicaments et la médecine translationnelle. La série de modèles pour les sciences de la vie est optimisée pour les workflows scientifiques, en combinant une utilisation améliorée des outils avec une compréhension approfondie de la chimie, de l’ingénierie des protéines et de la génomique.
En moyenne, il faut environ 10 à 15 ans pour passer de l’identification d’une cible à l’autorisation réglementaire d’un nouveau médicament aux États-Unis. Les gains réalisés dès les premières étapes de la découverte se répercutent en aval, avec une meilleure sélection des cibles, des hypothèses biologiques plus solides et des expériences de meilleure qualité. Les progrès en sciences de la vie sont limités non seulement par la difficulté intrinsèque de la science, mais aussi par la complexité des workflows de recherche eux-mêmes. Les scientifiques doivent travailler à partir de vastes volumes de littérature, de bases de données spécialisées, de données expérimentales et d’hypothèses en constante évolution afin de générer et d’évaluer de nouvelles idées. Ces workflows sont souvent chronophages, fragmentés et difficiles à faire évoluer à grande échelle.
Nous pensons que des systèmes d’IA avancés peuvent aider les chercheurs à progresser plus rapidement dans ces workflows—non seulement en rendant le travail existant plus efficace, mais aussi en leur permettant d’explorer davantage de pistes, de faire émerger des connexions qui pourraient autrement passer inaperçues et d’aboutir plus rapidement à de meilleures hypothèses. En soutenant la synthèse des données probantes, la génération d’hypothèses, la planification expérimentale et d’autres tâches de recherche en plusieurs étapes, ce modèle est conçu pour aider les chercheurs à accélérer les premières phases de la découverte. À terme, ces systèmes pourraient aider les organisations des sciences de la vie à réaliser des avancées qui ne seraient autrement pas possibles, avec un taux de réussite nettement plus élevé.
GPT‑Rosalind est désormais disponible en aperçu de recherche dans ChatGPT, Codex et via l’API pour les clients éligibles, dans le cadre de notre programme d’accès sécurisé. Nous lançons également un plugin de recherche Life Sciences pour Codex, accessible gratuitement, afin d’aider les scientifiques à connecter les modèles à plus de 50 outils scientifiques et sources de données. Nous collaborons avec des clients tels que Amgen, Moderna, Allen Institute, Thermo Fisher Scientific et d’autres, afin d’appliquer GPT‑Rosalind à des workflows qui accélèrent la recherche et la découverte.
Le modèle porte le nom de Rosalind Franklin, dont les recherches rigoureuses ont contribué à révéler la structure de l’ADN et à poser les bases de la biologie moléculaire moderne.
Des données brutes aux décisions de découverte étayées, découvrez comment notre modèle conçu sur mesure accélère les workflows de recherche.
La série de modèles GPT‑Rosalind pour les sciences de la vie est conçue pour répondre aux exigences du travail scientifique moderne, couvrant la littérature publiée, les données, les outils et les expérimentations. Lors de nos évaluations, il offre les meilleures performances sur des tâches nécessitant un raisonnement sur les molécules, les protéines, les gènes, les voies biologiques et la biologie liée aux maladies, et il se montre plus efficace dans l’utilisation d’outils et de bases de données scientifiques au sein de workflows en plusieurs étapes, tels que la revue de la littérature, l’interprétation des relations séquence-fonction, la planification expérimentale et l’analyse de données.
Il s’agit de la première version de notre série de modèles GPT‑Rosalind pour les sciences de la vie, et nous continuerons à repousser les limites des capacités de raisonnement biochimique du modèle dans des workflows scientifiques complexes, sur des horizons longs et fortement outillés. L’infrastructure de calcul d’OpenAI nous permet de continuer à entraîner, évaluer et améliorer des modèles spécialisés toujours plus performants sur des tâches scientifiques réelles—aidant ces systèmes à gagner en utilité alors que les workflows deviennent eux-mêmes plus complexes.
Des informations de découverte fondées sur des données probantes aux expériences à fort impact, découvrez comment notre suite de solutions se traduit par des améliorations mesurables de vos workflows de recherche.
Nous collaborons avec des clients de premier plan dans les secteurs pharmaceutique, biotechnologique et de la recherche, ainsi qu’avec des organisations technologiques en sciences de la vie, afin d’appliquer GPT‑Rosalind à des workflows qui favorisent la découverte.
« Les questions sont extrêmement complexes, les données sont très spécifiques, et les enjeux sont considérables. Les questions sont extrêmement complexes, les données sont très spécifiques et les enjeux sont extrêmement élevés. Notre collaboration unique avec OpenAI nous permet d’exploiter leurs capacités et outils les plus avancés de manière nouvelle et innovante, avec le potentiel d’accélérer la mise à disposition de médicaments aux patients. »
Nous avons évalué GPT‑Rosalind sur un ensemble de capacités fondamentales pour la découverte scientifique et la recherche industrielle. Ces évaluations mesurent les capacités de raisonnement fondamentales dans différents sous-domaines scientifiques, notamment les mécanismes de réaction chimique, la structure des protéines, les effets des mutations et les interactions, ainsi que l’interprétation phylogénétique des séquences d’ADN. Elles évaluent également la capacité des modèles à soutenir des workflows de recherche réels, en interprétant des résultats expérimentaux, en identifiant des motifs pertinents pour les experts et en synthétisant des informations externes afin de concevoir des expériences de suivi. Enfin, elles évaluent si les modèles sont capables de sélectionner et d’utiliser les outils informatiques, les bases de données et les capacités spécifiques au domaine les plus adaptés pour enrichir leur raisonnement. Dans leur ensemble, ces évaluations témoignent de progrès sur l’ensemble du processus de recherche scientifique, de bout en bout, et suggèrent une capacité accrue à aider les chercheurs à mener à bien des tâches de découverte complexes.
Nous avons évalué GPT‑Rosalind sur une série de benchmarks publics. Sur BixBench, un benchmark conçu autour de cas concrets en bio-informatique et en analyse de données, GPT‑Rosalind a obtenu les meilleures performances parmi les modèles dont les résultats sont publiés.
Sur LABBench2, un benchmark mesurant les performances sur un éventail de tâches de recherche telles que la recherche de littérature, l’accès aux bases de données, la manipulation de séquences et la conception de protocoles, GPT‑Rosalind surpasse GPT‑5.4 dans 6 tâches sur 11. L’amélioration la plus notable provient de CloningQA, qui nécessite la conception de bout en bout d’ADN et de réactifs enzymatiques pour des protocoles de clonage moléculaire.
Nous avons également collaboré avec Dyno Therapeutics, une entreprise pionnière dans la conception de thérapies géniques par IA, afin d’évaluer le modèle sur une tâche de prédiction et de génération séquence-fonction de l’ARN, à partir de séquences inédites et non contaminées. Les performances ont été comparées à 57 scores historiques obtenus par des experts humains du domaine de l’IA appliquée à la biologie. Lorsqu’elles sont évaluées directement dans l’application Codex, les meilleures soumissions du modèle (best-of-ten) se classent au-delà du 95e percentile des experts humains pour la tâche de prédiction, et autour du 84e percentile des experts humains pour la tâche de génération de séquences.
Ces évaluations fournissent un indicateur pertinent des performances sur les types de workflows sur lesquels les scientifiques s’appuient au quotidien pour générer des données probantes, analyser des données complexes et progresser vers des conclusions biologiques étayées.
Les scientifiques peuvent utiliser notre nouveau plugin de recherche Life Sciences(ouverture dans une nouvelle fenêtre) pour Codex, disponible dès aujourd’hui sur GitHub. Ce package comprend un large ensemble de modules couvrant les workflows de recherche les plus courants, conçus pour aider les utilisateurs à travailler sur la génétique humaine, la génomique fonctionnelle, la structure des protéines, la biochimie, les données cliniques et l’identification d’études publiques.

Ces modules constituent une couche d’orchestration qui aide les scientifiques à traiter plus efficacement des questions larges, ambiguës et en plusieurs étapes. Ils donnent accès à plus de 50 bases de données multi-omiques publiques, sources de littérature et outils de biologie, et offrent un point de départ flexible pour des workflows courants et reproductibles, tels que la consultation de structures protéiques, la recherche de séquences, la revue de la littérature et l’identification de jeux de données publics.
Les utilisateurs Enterprise éligibles peuvent exploiter ce plugin dans leurs workflows de recherche avec GPT‑Rosalind pour un raisonnement biologique plus approfondi, tandis que tous les utilisateurs peuvent utiliser ce package de plugins avec nos modèles principaux.
Nous souhaitons rendre ces capacités accessibles aux scientifiques et aux organisations de recherche les mieux placés pour faire progresser la santé humaine, tout en maintenant de solides garanties contre les usages biologiques abusifs. Le modèle Life Sciences est lancé via un dispositif de déploiement à accès contrôlé pour les clients Enterprise éligibles aux États-Unis dans un premier temps, avec des mécanismes encadrant l’éligibilité, la gestion des accès et la gouvernance organisationnelle. Dans le même temps, nous rendons également disponibles un ensemble de connecteurs ainsi que le Plugin de recherche Life Sciences, afin que les chercheurs puissent utiliser plus efficacement nos modèles principaux pour les tâches de recherche en sciences de la vie.
Le modèle Life Sciences a été développé avec des contrôles de sécurité renforcés de niveau entreprise et une gestion des accès consolidée, permettant un usage scientifique professionnel dans des environnements de recherche gouvernés. Nous évaluons l’accès selon trois principes fondamentaux : un usage bénéfique, une gouvernance robuste assortie d’une supervision en matière de sécurité, et un accès contrôlé avec une sécurité de niveau entreprise. Concrètement, cela signifie que les organisations participantes doivent mener des travaux de recherche scientifique légitimes présentant un bénéfice public clair, maintenir des dispositifs appropriés de gouvernance, de conformité et de prévention des usages abusifs, et restreindre l’accès aux utilisateurs autorisés au sein d’environnements sécurisés et bien encadrés. Les organisations doivent également accepter les conditions de l’aperçu de recherche en sciences de la vie et se conformer aux politiques d’utilisation d’OpenAI. Il se peut également que nous demandions des informations supplémentaires dans le cadre de l’intégration ou de la participation continue.
Les organisations peuvent demander l’accès via notre processus de qualification et d’évaluation de la sécurité.
Pendant l’aperçu de recherche, l’utilisation de ce modèle ne consommera pas de crédits ni de tokens existants—sous réserve de mécanismes de prévention des abus. Nous partagerons plus de détails sur les tarifs et la disponibilité alors que le programme se développe.
Le modèle Life Sciences est conçu pour aider les organisations scientifiques à produire un travail de meilleure qualité, plus rapidement, dans des environnements qui exigent à la fois des capacités techniques et un contrôle opérationnel. Notre équipe dédiée à Life Sciences—ainsi que nos partenaires de conseil, notamment McKinsey & Company, Boston Consulting Group et Bain & Company— accompagnent les organisations dans l’identification de cas d’usage à fort impact, l’intégration du modèle dans les environnements d’entreprise et la génération de résultats mesurables. Si vous souhaitez explorer les façons dont OpenAI Life Sciences peut soutenir vos activités, vous pouvez contacter notre équipe Life Sciences.
Il s’agit de la première version de notre série de modèles Life Sciences, et nous la considérons comme le point de départ d’un engagement à long terme visant à développer une IA capable d’accélérer la découverte scientifique dans des domaines essentiels pour la société, de la santé humaine à la recherche biologique au sens large. Nous continuerons d’améliorer les capacités de raisonnement biologique du modèle, d’étendre la prise en charge de workflows de recherche complexes, riches en outils et s’inscrivant dans la durée, et de collaborer étroitement avec des institutions scientifiques de premier plan pour en évaluer l’impact dans des conditions réelles. Cela inclut des partenariats en cours avec des laboratoires nationaux tels que Los Alamos National Laboratory, pour lesquels nous explorons la conception de protéines et de catalyseurs guidée par l’IA, notamment la capacité des systèmes d’IA à modifier des structures biologiques tout en préservant ou en améliorant leurs propriétés fonctionnelles clés.
À terme, nous nous attendons à ce que ces systèmes deviennent des partenaires de plus en plus performants dans la découverte—aidant les scientifiques à passer plus rapidement de la question à la donnée probante, de la donnée probante à l’analyse, et de l’analyse à de nouveaux traitements pour les patients.


