Neue Funktionen für GPT‑Rosalind
Mehr Intelligenz auf Basis realer wissenschaftlicher Workflows für die Life-Sciences-Branche.
Wir stellen ein neues Modell-Update für unsere GPT‑Rosalind-Reihe vor, das speziell für die Forschung in den Biowissenschaften im Unternehmensmaßstab entwickelt wurde. Es kombiniert die Fähigkeiten von GPT‑5.5 für agentisches Programmieren und Tool-Nutzung mit stärkerer Modellintelligenz in zentralen Bereichen der Wirkstoffforschung wie medizinischer Chemie und Genomik und verbessert zugleich die Leistung in breiteren Life-Sciences-Analysen, Designs und experimentellen Workflows.
Fortschritte in den Biowissenschaften hängen davon ab, Daten und Evidenz über Skalen und Modalitäten hinweg zusammenzuführen: Moleküle, Gene, Signalwege und lebende Systeme. In unseren Evaluationen zeigt das aktualisierte GPT‑Rosalind breite Leistungszuwächse bei Forschungsaufgaben von Biologie-Expert:innen, komplexen Fragen der medizinischen Chemie, quantitativer Biologie und Nasslabor-Fehlerbehebung.
GPT‑Rosalind ist jetzt als Forschungsvorschau für berechtigte Organisationen weltweit über unsere Trusted-Access-Bereitstellungsstruktur verfügbar.
Um die reale Wirkung von GPT‑Rosalind zu messen und kontinuierlich zu verbessern, haben wir LifeSciBench entwickelt, einen extern von Expert:innen bewerteten Benchmark mit Fokus auf grundlegende Aspekte der Forschung in den Biowissenschaften. Anders als bestehende Benchmarks, die eine einzelne Komponente der Modellleistung oder eine biologische Domäne isoliert bewerten, betrachtet LifeSciBench wissenschaftlich wertvolle Arbeit von Anfang bis Ende, indem Aufgaben aus sechs zentralen Workflow-Bereichen der Forschung in den Biowissenschaften herangezogen werden: Evidenzverarbeitung, Analyse, Konzeption und Optimierung, wissenschaftliches Reasoning, Validierung und Betrieb sowie Translation und Kommunikation. Wir nutzen diesen Benchmark, um Fortschritte an den Bedürfnissen und Realitäten der Life-Sciences-Forschung auszurichten.
GPT‑Rosalind führt bei wissenschaftlich wertvollen Aufgaben, die von Branchen- und akademischen Expert:innen identifiziert wurden.
Extraktion, Abgleich und Prüfung wissenschaftlicher Evidenz aus Publikationen, Abbildungen, Tabellen und experimentellen Aufzeichnungen.
Bewertungsbeispiel
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Antwort des Kandidaten
Fazit: In der vorliegenden Form ist dieses Paket nicht ausreichend, um eine beschleunigte Zulassung der Mikro-Dystrophin-Expression als Surrogat-Endpunkt zu unterstützen, der mit hinreichender Wahrscheinlichkeit einen klinischen Nutzen vorhersagen kann. Skeptische Gutachter:innen der FDA würden die Evidenz hinsichtlich Biomarkern, Funktionalität, Haltbarkeit, Sicherheit und Generalisierbarkeit wahrscheinlich als wesentlich unzureichend belegt ansehen.
Paketartikel | Schlüsselfehlermodus | Was wäre erforderlich? |
|---|---|---|
Western-Blot-Quantifizierung | MANEX1A bindet an ein N-terminales Epitop, das sowohl vom endogenen Dystrophin in voller Länge als auch vom Mikro-Dystrophin-Transgen geteilt wird, sodass der Test das Transgen nicht eindeutig vom Rest-/Revertanten-Dystrophin unterscheiden kann. Die Quantifizierung eines 138 kDa Mikro-Dystrophins im Vergleich zu einem gesunden Dystrophin-Standard in voller Länge ist ebenfalls ungültig. | Verwende einen rekombinanten Mikro-Dystrophin-Standard und eine orthogonale Methode, die Transgen- von endogenem Dystrophin unterscheidet, wie z. B. gezielte Massenspektrometrie oder einen transgenspezifischen/epitopspezifischen Test. |
Immunfluoreszenz | Der polyklonale Antikörper gegen das C-Terminus ist ungeeignet, da dem 138 kDa-Konstrukt die C-terminale Domäne fehlt. Viele DMD-Patienten weisen Revertantenfasern auf, und Revertanten-Dystrophin kann C-terminale Epitope beibehalten. Revertante Fasern können sich mit zunehmendem Alter klonal ausbreiten und das IF-Signal verfälschen, insbesondere bei älteren Jungen. | Wiederhole die Immunfluoreszenz mit einem Antikörper gegen ein Epitop, das im Transgen vorhanden ist, aber im revertierten Dystrophin fehlt. Transgen-positive Fasern sind getrennt von Revertantenfasern zu quantifizieren. |
Validität des Ersatzendpunkts | Das Paket vermischt die Proteinmenge mit der klinischen Funktion. „38 % der Proteinmasse gesunder Kontrollpersonen“ bedeutet nicht 38 % der normalen Dystrophinfunktion, da Mikro-Dystrophin strukturell verkürzt ist. | Bevor die Expression als Surrogat-Endpunkt verwendet wird, sollte der Zusammenhang zwischen dem Massenanteil von Mikro-Dystrophin, der sarkolemmalen Lokalisation, der nachfolgenden funktionellen Wiederherstellung und dem klinischen Nutzen empirisch validiert werden. |
Biopsie-Konzeption | Die Biopsie des kontralateralen Vastus lateralis vor und nach der Behandlung führt zu einer links-rechts- und intramuskulären räumlichen Variabilität. Krankheitsverlauf und fibro-fettige Umwandlung können auch das auf das Gesamtprotein normalisierte Signal verändern. | Standardisiere die Biopsiestelle anhand einheitlicher anatomischer Orientierungspunkte, normalisiere auf muskelspezifische Proteine und miss parallel die fibro-fettige Zusammensetzung. |
NSAA-Vergleichstabelle/Statistiken | Eine externe Kohorte, die den natürlichen Krankheitsverlauf untersucht, ist keine randomisierte, gleichzeitige Kontrollgruppe. Studieneignung, unterstützende Behandlung, Teilnahmeeffekte, NSAA-Ausgangswerte, Steroidregime, Alter und Exon-Klasse können allesamt den Vergleich verfälschen. Ein ungepaarter t-Test ist nicht ausreichend. Außerdem liegt eine NSAA-Veränderung von +1,4 innerhalb der Test-Retest-Variabilität für diese Altersgruppe. | Führe eine randomisierte, gleichzeitig durchgeführte, placebokontrollierte Studie durch oder verwende zumindest adjustierte Analysen, die den NSAA-Ausgangswert, das Alter, das Steroidregime, die Exonklasse und andere Störfaktoren berücksichtigen. |
Altersfenster-Verzerrung | Jungen im Alter von 4 bis 7 Jahren befinden sich in einem Entwicklungsfenster, in dem unbehandelte, gehfähige DMD-Patienten motorische Funktionen erlangen können, bevor der Abbau überwiegt. Eine 48-wöchige NSAA-Veränderung vereint Entwicklungsgewinn, Krankheitsverlauf und mögliche Behandlungseffekte. | Um den Entwicklungsverlauf vom Behandlungseffekt zu trennen, setze eine gleichzeitig durchgeführte randomisierte Kontrollstudie mit Altersstratifizierung ein. |
Bisherige klinische Präzedenzfälle | Funktionelle Signale von Mikro-Dystrophin in offenen Studien konnten keinen zuverlässigen bestätigenden Nutzen vorhersagen; in der veröffentlichten Literatur finden sich auch bestätigende Studien zur Mikro-Dystrophin-Gentherapie, die keine Verbesserungen der NSAA in offenen Studien nachweisen konnten. | Verlasse dich nicht auf die Veränderung der NSAA-Werte in offenen Studien als entscheidende Belege. Kontrollierte funktionelle Nachweise sind erforderlich. |
Strukturelle Grenzen der Konstruktion | Das 138 kDa Konstrukt entfernt die Spektrin-Repeats R16/17, die nNOS-Bindungsstellen enthalten. Der Verlust der nNOS-Rekrutierung kann die funktionelle Sympatholyse und den Ischämieschutz während körperlicher Belastung beeinträchtigen und somit eine mechanistische Obergrenze für die Abhilfe unabhängig vom Expressionsniveau schaffen. | Ergänze mechanistische Studien, die zeigen, ob dieses spezifische Konstrukt relevante Dystrophin-assoziierte Komplexfunktionen, die nNOS-Lokalisierung, die Trainingsphysiologie und den Muskelschutz wiederherstellt. |
AAV-Haltbarkeit | Vektorgenome etablieren nach 12 Wochen keine dauerhafte Expression. AAV9-Genome sind größtenteils nicht-integrierende Episomen und können im Laufe der Zeit abnehmen. Die Persistenz des Vektorgenoms ist nicht dasselbe wie die persistente Expression von Proteinen. | Messung der longitudinalen Expression des Transgenproteins und der Beständigkeit funktioneller Biomarker über 12 Wochen hinaus. |
Immun-/Sicherheitsprofil | Bei 8 von 12 Patienten ist die Zunahme von Transaminase mit einer Immunantwort auf AAV-transduzierte Zellen vereinbar, der Mechanismus ist jedoch noch nicht geklärt. Ein Fall von Myokarditis gibt Anlass zur Sorge angesichts des kardialen Tropismus von AAV9. | Eine detailliertere Immunüberwachung, eine Charakterisierung der Leber-/Herz-Sicherheit sowie eine intensivierte kardiologische Nachsorge sind erforderlich. |
Patientenauswahl/Generalisierbarkeit | Der Ausschluss von Patienten mit positiven neutralisierenden Anti-AAV9-Antikörpern schränkt die Generalisierbarkeit ein. Der Ausschluss von Exon-44-Deletionen schränkt die Anwendbarkeit auf diese DMD-Subgruppe ein. n=12 ist zu klein, um die Sicherheit und Wirksamkeit in der gesamten DMD-Population zu charakterisieren. | Erweitere nach Möglichkeit die Zulassungskriterien oder lege stratifizierte Analysen nach Antikörperstatus, Genotyp/Exonklasse, Alter und Ausgangsfunktion im Voraus fest, bevor du das Ergebnis zur Unterstützung einer breiten Zulassung verwendest. |
Regulatorische Schlussfolgerung: Das Paket mag zwar biologische Aktivität aufweisen, es ist jedoch noch nicht erwiesen, dass die gemessene Mikro-Dystrophin-Expression ein zuverlässiger Surrogatparameter ist, der mit hinreichender Wahrscheinlichkeit einen klinischen Nutzen vorhersagen kann. Die größten Lücken bestehen in der Spezifität des Assays, ungültigen Quantifizierungsstandards, möglichen Störfaktoren durch Revertantenfasern, dem Fehlen einer randomisierten Kontrollgruppe, altersbedingten Störfaktoren durch NSAA, unsicherer Dauerhaftigkeit und ungelösten Fragen der Sicherheit und Generalisierbarkeit.
Um diese Lücke zu schließen, bräuchte das Programm ein kontrolliertes, altersstratifiziertes klinisches Studiendesign mit transgenspezifischen Expressionsanalysen, orthogonaler Proteinquantifizierung, Kontrollen der Gewebezusammensetzung, longitudinalen Haltbarkeitsdaten, mechanistischen Funktionsanalysen für das verkürzte Konstrukt und einer verstärkten Sicherheitsüberwachung, insbesondere in Bezug auf Leber und Herz.
Bewertungskriterien und Noten
GPT‑Rosalind erzielt branchenführende Leistung in der medizinischen Chemie, einem Fachgebiet, das darauf ausgerichtet ist, aus Molekülen nützliche Arzneimittel zu entwickeln. Wir haben MedChemBench so konzipiert, dass realistische Workflows der medizinischen Chemie abgebildet werden: bewertet werden multimodales Verständnis chemischer Strukturen, Struktur-Wirkungs-Beziehungen (SAR), Vorhersage von Wirkstärke, Toxizität sowie Resorption, Verteilung, Metabolisierung und Exkretion (ADME), Entscheidungsfindung anhand der Lead-Optimierung mit mehreren Parametern und Retrosynthese. GPT‑Rosalind übertrifft GPT‑5.5 bei MedChemBench mit 27,5 % gegenüber 25,1 % und verwendet dabei 7,2 % weniger Token.
GPT‑Rosalind zeigt bessere multimodale Synthese und mechanistisches Reasoning in der medizinischen Chemie.
Bei GeneBench, unserer agentischen Evaluation für langfristige End-to-End-Analysen in Genomik und quantitativer Biologie, verwendet GPT‑Rosalind 31 % weniger Token als GPT‑5.5 und erreicht zugleich eine höhere Genauigkeit von 21,6 % gegenüber 20,4 %. GeneBench bewertet die agentische Leistung bei quantitativen Aufgaben mit langem Zeithorizont: Kann ein Agent auf Basis realistischer wissenschaftlicher Daten valide Analysen, Qualitätskontrollen, Modellierung und Korrekturen planen, um zu entscheidungsrelevanten Antworten zu gelangen? Die enthaltenen Probleme erstrecken sich über verschiedene Domänen, darunter funktionelle Genomik, räumliche Transkriptomik, Proteomik, Epigenomik und angewandte Genetik.
GPT‑Rosalind verwendet 31 % weniger Token als GPT‑5.5 und verbessert zugleich die Genauigkeit.
Wir führen eine neue Evaluation ein, um die Fähigkeit von GPT‑Rosalind zu testen, Wissenschaftler:innen bei realer Laborarbeit zu unterstützen. LabWorkBench testet die Fähigkeit des Modells, Störungen mit experimentellen Ergebnissen in realen Nasslaborprotokollen zu verknüpfen, die von Wissenschaftler:innen verwendet werden, für Zwecke von der Fehlerbehebung bis zur Optimierung. Die von LabWorkBench verwendeten Daten sind proprietär und daher nicht kontaminiert. GPT‑Rosalind erzielt 63,2 % gegenüber GPT‑5.5 mit 55,8 % und verwendet dabei 5,3 % weniger Token.
Bei der Unterstützung realer Nasslaborprotokolle zeigt GPT‑Rosalind deutliche Zugewinne gegenüber GPT‑5.5 und verbessert zugleich die Token-Effizienz.
Wir haben die Plugins für biowissenschaftliche Forschung(wird in einem neuen Fenster geöffnet) und NGS-Analyse in den Biowissenschaften(wird in einem neuen Fenster geöffnet) entwickelt, um die erhöhte Intelligenz von GPT‑Rosalind um eine praktische Ausführungsebene für wiederholbare wissenschaftliche Workflows zu erweitern. Zusammen bringen diese Plugins evidenzbasierte Quellenrecherche, biologische Interpretation und bioinformatische Ausführung in denselben Workspace und helfen Forschenden, externe Evidenz mit internen „-omik“-Analysen zu verbinden, während Artefakte und Provenienz erhalten bleiben. Alle Nutzer:innen können jetzt über Codex auf beide Plugins zugreifen. Qualifizierte GPT‑Rosalind‑Unternehmensnutzer:innen können zusätzlich GPT‑Rosalind verwenden, um diese Plugins zu betreiben.
Um Codex als dynamische Arbeitsumgebung für Wissenschaftler:innen besser nutzbar zu machen, haben wir interaktive Viewer für biologisch native Dateitypen hinzugefügt. Die erste Gruppe von Sequenz-, Alignment- und Struktur-Viewern soll Wissenschaftler:innen nah an der Evidenz halten, während GPT‑Rosalind über einen Workflow hinweg Reasoning betreibt und Folgefragen direkt unter Nutzung des aktiven Viewers im Kontext beantwortet.
Die Demo oben zeigt diese Fähigkeiten in Aktion, orchestriert von GPT‑Rosalind. Wir begleiten eine Wissenschaftlerin, die eine Flüssigbiopsie eines Tumors untersucht, um Mutationen und andere molekulare Veränderungen zu identifizieren, die die Behandlung lenken könnten. Das Plugin für NGS-Analysen in den Biowissenschaften wandelt die Überprüfung verarbeiteter ctDNA-Datensätze in ein interaktives Notebook um, hebt wiederkehrende Veränderungen, niedrigfrequente Calls und Probenverläufe hervor und fokussiert die Untersuchung auf KRAS G12C. Von dort ergänzt das Plugin für biowissenschaftliche Forschung quellenbasierten Kontext zu Target, Inhibitor und Resistenz, während die nativen Sequenz-, Alignment- und Struktur-Viewer der Wissenschaftlerin ermöglichen, den mutierten Rest 12, seine Konservierung in der RAS-Familie und die inhibitorgebundene Tasche direkt zu prüfen. Der Workflow schließt damit ab, diese Evidenz in konkrete Folgeoptionen zu übersetzen, wobei jeder Schritt und jedes Artefakt für die Prüfung durch Expert:innen verfügbar ist.

Plugin für NGS-Analysen in den Biowissenschaften
scRNA-seq-QC und Annotation

Wandele ein Matrix-Bundle im 10x-Stil in QC-gefilterte Artefakte einzelner Zellen, Annotationen und UMAPs um, die in Codex geprüft und überarbeitet werden können. Das Plugin für die NGS-Analyse in den Biowissenschaften leitet die Anfrage an scrna-seq-qc weiter, wählt QC-Schwellenwerte aus den Daten, bewahrt die Provenienz rund um Filterung und Annotation und zeigt Blocker wie fehlende Abhängigkeiten für die Doublet-Erkennung an.
Bulk-RNA-seq-FASTQ-QC

Wandele ein Bulk-RNA-seq-Probenblatt, ein FASTQ-Bundle und Referenzdateien in ein QC-geprüftes Counts-Bundle um, das in Codex geprüft und wiederverwendet werden kann. Das Plugin für NGS-Analysen in den Biowissenschaften leitet die Anfrage weiter, validiert die Eingaben und gibt ein auditierbares Ausführungsfenster mit MultiQC, Salmon-Matrizen, Provenienz und expliziten Einschränkungen zurück.
Wir erweitern den Zugang zur GPT‑Rosalind-Reihe für berechtigte Organisationen weltweit. GPT‑Rosalind wird als Forschungsvorschau über unsere Trusted-Access-Bereitstellungsstruktur für Organisationen verfügbar sein, die legitime wissenschaftliche Forschung mit klarem öffentlichem Nutzen betreiben, über starke Governance und Sicherheitsaufsicht verfügen und kontrollierten Zugriff mit Sicherheit auf Unternehmensniveau bieten.
Im Rahmen dieser globalen Expansion freuen wir uns, Novo Nordisks Mission zu unterstützen, Patient:innen schneller innovative Behandlungsoptionen bereitzustellen, indem wir helfen, ihre medizinische Forschung mit GPT‑Rosalind zu skalieren. Novo Nordisk nutzt Frontier-KI-Fähigkeiten, um Forschenden zu helfen, komplexe Datensätze zu analysieren, nützliche Muster aufzudecken und Hypothesen schneller zu testen. Das stärkere biologische Verständnis von GPT‑Rosalind wird Teams helfen, Evidenz aus Literatur, Genomik, Transkriptomik, Sequenzen, Strukturen und experimentellen Ergebnissen zu verbinden, sodass der Weg von Daten zu klareren Forschungsentscheidungen leichter wird.
„Forschung in den Biowissenschaften ist komplex, datenreich und interdisziplinär. Um Forschenden echten Mehrwert zu bieten, müssen fortgeschrittene KI-Modelle in vertrauenswürdigen wissenschaftlichen Daten verankert, mit validierten Tools verbunden und in die realen Workflows integriert sein, die Forschende täglich nutzen. Wir freuen uns über unsere Partnerschaft mit OpenAI und die Möglichkeit zu erkunden, wie GPT‑Rosalind rigorosere, praktische Ansätze in der Wirkstoffentdeckung unterstützen kann.“
Mishal Patel, Group Vice President, AI & Digital Innovation, R&D - Novo Nordisk
Wir bieten jetzt außerdem einen von OpenAI verwalteten Workspace für qualifizierte Organisationen ohne Enterprise-Konto an.
Das aktualisierte GPT‑Rosalind ist der nächste Schritt in unserem breiteren Engagement, KI-Systeme zu entwickeln, die wissenschaftliche Entdeckungen beschleunigen können, während zugleich sichergestellt wird, dass fortgeschrittene biologische Fähigkeiten mit angemessenen Schutzmaßnahmen bereitgestellt werden. Wir werden das biologische Reasoning des Modells weiter verbessern, die Unterstützung für tool-intensive Forschungsworkflows mit langem Zeithorizont ausbauen und mit qualifizierten Organisationen in verschiedenen Regionen zusammenarbeiten, um die reale Wirkung zu evaluieren.
Das bedeutet auch, Life-Sciences-KI für wirkungsstarke Arbeit im öffentlichen Interesse einzusetzen – von Wirkstoffentdeckung und translationaler Medizin bis zu öffentlicher Gesundheit, Vorsorge und biologischem Gefahrenschutz. Durch Rosalind Biodefense und unser Trusted-Access-Bereitstellungsmodell wollen wir biologische Frontier-Fähigkeiten in die Hände der Forschenden, Institutionen und Verteidiger:innen legen, die daran arbeiten, die menschliche Gesundheit zu verbessern und die gesellschaftliche Resilienz zu stärken.
Wir werden GPT‑Rosalind weiterentwickeln, damit es zu einem leistungsfähigeren Partner über den gesamten Lebenszyklus wissenschaftlicher Forschung wird und Wissenschaftler:innen hilft, schneller von den richtigen Fragen zu klarerer Evidenz, besseren Experimenten und letztlich neuen Behandlungen für Patient:innen zu gelangen.


