3 giugno 2026

Nuove capacità per GPT‑Rosalind

Maggiore intelligenza radicata in flussi di lavoro scientifici reali per il settore delle scienze della vita.

Presentiamo un nuovo aggiornamento del modello per la nostra serie GPT‑Rosalind, progettata appositamente per la ricerca nelle scienze della vita su scala enterprise. Combina le capacità di coding agentico e uso degli strumenti di GPT‑5.5 con un’intelligenza del modello più forte in domini centrali della scoperta di farmaci, come chimica medicinale e genomica, migliorando le prestazioni in analisi, progettazione e flussi sperimentali più ampi nelle scienze della vita.

Il progresso nelle scienze della vita dipende dalla sintesi di dati ed evidenze tra scale e modalità: molecole, geni, pathway e sistemi viventi. Nelle nostre valutazioni, GPT‑Rosalind aggiornato mostra ampi miglioramenti nelle attività di ricerca di esperti di biologia, query complesse di chimica medicinale, biologia quantitativa e troubleshooting wet lab.

GPT‑Rosalind è ora disponibile in anteprima di ricerca per organizzazioni idonee a livello globale tramite la nostra struttura di distribuzione ad accesso affidabile.

Migliorare le prestazioni su attività di valore scientifico

Per misurare e migliorare continuamente l’impatto reale di GPT‑Rosalind, abbiamo progettato LifeSciBench, un benchmark valutato da esperti esterni e focalizzato sugli aspetti fondamentali della ricerca nelle scienze della vita. A differenza dei benchmark esistenti, che valutano un singolo componente delle prestazioni del modello o un dominio biologico isolato, LifeSciBench considera il lavoro scientificamente utile end-to-end, con attività tratte da sei aree di flusso di lavoro centrali: gestione delle evidenze, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione e operazioni, traduzione e comunicazione. Usiamo questo benchmark per allineare i progressi alle esigenze e alla realtà della ricerca nelle scienze della vita.

GPT‑Rosalind guida le prestazioni in attività di valore scientifico identificate da esperti industriali e accademici.

Estrazione, riconciliazione e audit di evidenze scientifiche da articoli, figure, tabelle e registri sperimentali.

Esempio di valutazione

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Risposta del candidato

In sintesi: così presentato, questo pacchetto non è abbastanza solido da supportare l’approvazione accelerata basata sull’espressione di micro-distrofina come endpoint surrogato ragionevolmente predittivo di beneficio clinico. Un revisore FDA scettico probabilmente giudicherebbe biomarcatore, funzione, durabilità, sicurezza e generalizzabilità sostanzialmente non sufficientemente supportate.

Elemento del pacchetto	Principale modalità di fallimento	Cosa servirebbe
Quantificazione Western blot	MANEX1A lega un epitopo N-terminale condiviso dalla distrofina endogena full-length e dal transgene micro-distrofina, quindi il saggio non distingue nettamente transgene e distrofina residua/revertante. Anche quantificare una micro-distrofina da 138 kDa rispetto a uno standard sano di distrofina full-length non è valido.	Usare uno standard ricombinante di micro-distrofina e un metodo ortogonale che distingua transgene e distrofina endogena, come spettrometria di massa mirata o un saggio specifico per transgene/epitopo.
Immunofluorescenza	L’anticorpo policlonale C-terminale è poco adatto perché il costrutto da 138 kDa manca del dominio C-terminale. Molti pazienti DMD hanno fibre revertanti e la distrofina revertante può mantenere epitopi C-terminali. Le fibre revertanti possono espandersi clonalmente con l’età, distorcendo il segnale IF, soprattutto nei ragazzi più grandi.	Ripetere IF con un anticorpo contro un epitopo presente nel transgene ma assente dalla distrofina revertante. Quantificare separatamente le fibre positive al transgene e quelle revertanti.
Validità dell’endpoint surrogato	Il pacchetto confonde quantità di proteina e funzione clinica. «38% della massa proteica del controllo sano» non significa 38% della funzione normale della distrofina, perché la micro-distrofina è strutturalmente tronca.	Validare empiricamente la relazione tra percentuale di massa di micro-distrofina, localizzazione sarcolemmale, ripristino funzionale downstream e beneficio clinico prima di trattare l’espressione come endpoint surrogato.
Disegno della biopsia	Biopsie pre- e post-trattamento del vasto laterale controlaterale introducono variabilità sinistra-destra e spaziale intramuscolare. Progressione della malattia e sostituzione fibro-adiposa possono inoltre cambiare il segnale normalizzato alle proteine totali.	Standardizzare il sito bioptico con landmark anatomici coerenti, normalizzare su proteine muscolo-specifiche e misurare in parallelo la composizione fibro-adiposa.
Comparatore/statistiche NSAA	Una coorte esterna di storia naturale non è un controllo concorrente randomizzato. Idoneità allo studio, cure di supporto, effetti di partecipazione, NSAA basale, regime steroideo, età e classe di esone possono distorcere il confronto. Un t-test non appaiato non è sufficiente. Inoltre, una variazione NSAA di +1,4 rientra nella variabilità test-retest per questa fascia d’età.	Condurre uno studio randomizzato concorrente controllato con placebo, o almeno analisi aggiustate per NSAA basale, età, regime steroideo, classe di esone e altri confondenti.
Confondimento della finestra d’età	I ragazzi di 4–7 anni sono in una finestra di sviluppo in cui pazienti DMD ambulanti non trattati possono guadagnare funzione motoria prima che domini il declino. Una variazione NSAA a 48 settimane mescola guadagno di sviluppo, progressione della malattia e possibile effetto del trattamento.	Usare un controllo randomizzato concorrente con stratificazione per età per separare traiettoria di sviluppo ed effetto del trattamento.
Precedente clinico	I segnali funzionali open-label della micro-distrofina non hanno previsto in modo affidabile il beneficio confermatorio; precedenti pubblicati includono trial confermatori di terapia genica con micro-distrofina che non hanno riprodotto miglioramenti NSAA open-label.	Non affidarsi al cambiamento NSAA open-label come supporto decisivo. Richiedere evidenza funzionale controllata.
Limiti strutturali del costrutto	Il costrutto da 138 kDa elimina le ripetizioni di spectrina R16/17, che contengono siti di legame nNOS. La perdita del reclutamento nNOS può compromettere la simpatolisi funzionale e la protezione dall’ischemia durante l’esercizio, creando un limite meccanicistico al recupero funzionale indipendente dal livello di espressione.	Aggiungere studi meccanicistici che mostrino se questo specifico costrutto ripristina la funzione rilevante del complesso associato alla distrofina, la localizzazione nNOS, la fisiologia dell’esercizio e la protezione muscolare.
Durabilità AAV	I genomi vettoriali a 12 settimane non dimostrano espressione durevole. I genomi AAV9 sono in gran parte episomi non integranti e possono diminuire nel tempo. La persistenza del genoma vettoriale non equivale a espressione proteica persistente.	Misurare longitudinalmente l’espressione proteica del transgene e la durabilità dei biomarcatori funzionali oltre 12 settimane.
Profilo immunitario/di sicurezza	La transaminite in 8/12 pazienti è coerente con una risposta immunitaria a cellule trasdotte da AAV, ma il meccanismo non è stabilito. Un caso di miocardite è preoccupante dato il tropismo cardiaco di AAV9.	Fornire monitoraggio immunitario più approfondito, caratterizzazione della sicurezza epatica/cardiaca e follow-up cardiaco intensificato.
Selezione dei pazienti/generalizzabilità	Escludere pazienti positivi ad anticorpi neutralizzanti anti-AAV9 limita la generalizzabilità. Escludere delezioni dell’esone 44 limita l’applicabilità a quel sottogruppo DMD. n=12 è troppo piccolo per caratterizzare sicurezza ed efficacia nella popolazione DMD più ampia.	Ampliare l’idoneità dove possibile o pre-specificare analisi stratificate per stato anticorpale, genotipo/classe di esone, età e funzione basale prima di usare il risultato a supporto di un’approvazione ampia.

Conclusione regolatoria: il pacchetto può mostrare attività biologica, ma non stabilisce ancora che l’espressione misurata di micro-distrofina sia un surrogato affidabile ragionevolmente predittivo di beneficio clinico. Le principali lacune sono specificità del saggio, standard di quantificazione non validi, possibile confondimento da fibre revertanti, assenza di controllo randomizzato, confondimento NSAA legato all’età, durabilità incerta e questioni irrisolte di sicurezza/generalizzabilità.

Per colmare il divario, servirebbero un disegno clinico controllato e stratificato per età con saggi di espressione specifici del transgene, quantificazione proteica ortogonale, controlli di composizione tissutale, dati longitudinali di durabilità, saggi funzionali meccanicistici per il costrutto tronco e monitoraggio di sicurezza più forte, soprattutto epatico e cardiaco.

Criteri di valutazione e voti

Criterio

Punti

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Ragionamento scientifico più forte

Chimica medicinale

GPT‑Rosalind raggiunge prestazioni leader di settore nella chimica medicinale, un campo dedicato a trasformare molecole in farmaci utili. Abbiamo progettato MedChemBench per riflettere flussi di lavoro realistici di chimica medicinale, valutando comprensione multimodale delle strutture chimiche, relazione struttura-attività (SAR), previsione di potenza, tossicità e assorbimento, distribuzione, metabolismo, escrezione (ADME), decisioni di ottimizzazione multiparametrica dei lead e retrosintesi. GPT‑Rosalind supera GPT‑5.5 su MedChemBench con 27,5% contro 25,1%, usando il 7,2% di token in meno.

GPT‑Rosalind mostra migliore sintesi multimodale e ragionamento meccanicistico nella chimica medicinale.

Genomica e biologia quantitativa

Su GeneBench, la nostra valutazione agentica su analisi end-to-end a lungo orizzonte in genomica e biologia quantitativa, GPT‑Rosalind usa il 31% di token in meno rispetto a GPT‑5.5 e ottiene un’accuratezza superiore, 21,6% contro 20,4%. GeneBench valuta le prestazioni agentiche in attività quantitative a lungo orizzonte: sulla base di dati scientifici realistici, un agente può pianificare analisi valide, QC, modellazione e correzioni per arrivare a risposte rilevanti per le decisioni? I problemi inclusi coprono vari domini, tra cui genomica funzionale, trascrittomica spaziale, proteomica, epigenomica e genetica applicata.

GPT‑Rosalind usa il 31% di token in meno rispetto a GPT‑5.5 migliorando l’accuratezza.

Assistere il lavoro di laboratorio reale

Introduciamo una nuova valutazione per testare la capacità di GPT‑Rosalind di aiutare gli scienziati che svolgono lavoro di laboratorio in contesti reali. LabWorkBench testa la capacità del modello di collegare perturbazioni e risultati sperimentali in protocolli wet lab reali usati dagli scienziati, per scopi che vanno dal troubleshooting all’ottimizzazione. I dati usati da LabWorkBench sono proprietari e quindi non contaminati. GPT‑Rosalind ottiene 63,2% contro il 55,8% di GPT‑5.5, usando il 5,3% di token in meno.

Nell’assistenza a protocolli reali di laboratorio wet lab, GPT‑Rosalind mostra miglioramenti significativi rispetto a GPT‑5.5, aumentando al contempo l’efficienza dei token.

Dal ragionamento ai flussi di lavoro eseguiti

Abbiamo creato i plugin Life Sciences Research⁠(si apre in una nuova finestra) e Life Sciences NGS Analysis⁠(si apre in una nuova finestra) per estendere la maggiore intelligenza di GPT‑Rosalind con un livello di esecuzione pratico per flussi scientifici ripetibili. Insieme, questi plugin portano recupero di evidenze con fonti, interpretazione biologica ed esecuzione bioinformatica nella stessa area di lavoro, aiutando i ricercatori a collegare evidenze esterne e analisi omiche interne, preservando artefatti e provenienza. Tutti gli utenti possono ora accedere a entrambi i plugin tramite Codex. Gli utenti enterprise GPT‑Rosalind qualificati possono inoltre usare GPT‑Rosalind per alimentare questi plugin.

Per sfruttare meglio Codex come banco di lavoro dinamico per scienziati, abbiamo aggiunto visualizzatori interattivi per tipi di file biologicamente nativi. Il primo set di visualizzatori per sequenze, allineamenti e strutture è pensato per tenere gli scienziati vicini alle evidenze mentre GPT‑Rosalind ragiona lungo un flusso di lavoro e risponde direttamente a domande di follow-up usando il visualizzatore attivo nel contesto.

La demo sopra mostra queste capacità in azione, orchestrate da GPT‑Rosalind. Seguiamo una scienziata che studia una biopsia liquida tumorale per identificare mutazioni e altri cambiamenti molecolari utili a orientare il trattamento. Il plugin Life Sciences NGS Analysis trasforma la revisione di record ctDNA elaborati in un notebook interattivo, evidenziando alterazioni ricorrenti, chiamate a bassa frequenza e traiettorie dei campioni che focalizzano l’indagine su KRAS G12C. Da lì, il plugin Life Sciences Research aggiunge contesto con fonti su target, inibitori e resistenza, mentre i visualizzatori nativi di sequenza, allineamento e struttura permettono alla scienziata di ispezionare direttamente il residuo mutante 12, la sua conservazione nella famiglia RAS e la tasca legata all’inibitore. Il flusso di lavoro si conclude traducendo tali evidenze in opzioni di follow-up concrete, con ogni passaggio e artefatto disponibile per revisione esperta.

Lo schermo di un computer mostra un’area di lavoro che indica l’uso di un plugin NGS Analysis per esplorare dati di mutazioni ctDNA. Lo schermo include vari grafici a barre etichettati «Top detailed histologies» e «Top altered genes by mutated cfDNA samples», che mostrano dati su tipi di cancro e alterazioni geniche. Il testo descrive il dataset, i risultati chiave e i parametri di analisi. — Plugin Life Sciences NGS Analysis

QC e annotazione scRNA-seq

Screenshot di un flusso di lavoro bioinformatico a schermo diviso. Il pannello sinistro mostra un assistente IA che riassume un’analisi di controllo qualità single-cell RNA sequencing (scRNA-seq) completata, inclusi file generati, metriche QC, visualizzazioni UMAP e annotazioni dei tipi cellulari. Il pannello destro mostra un report «scRNA QC Review» con istogrammi per conteggi totali, geni rilevati e percentuale mitocondriale, accanto a grafici a barre con conteggi QC pass/fail e popolazioni cellulari filtrate. L’interfaccia è visualizzata su uno sfondo sfumato blu e verde. — Trasforma un bundle di matrici in stile 10x in artefatti single-cell filtrati per QC, annotazioni e UMAP ispezionabili e revisionabili in Codex. Il plugin Life Sciences NGS Analysis instrada la richiesta a scrna-seq-qc, sceglie soglie QC dai dati, preserva la provenienza di filtraggio e annotazione ed evidenzia blocchi come dipendenze mancanti per il rilevamento dei doublet.

QC FASTQ di RNA-seq bulk

Vista a schermo diviso di un flusso RNA-seq: a sinistra un assistente IA riassume risultati QC RNA-seq bulk completati, mentre a destra è mostrato un report MultiQC interattivo con statistiche di sequenziamento e metriche Salmon. — Trasforma un foglio campioni RNA-seq bulk, un bundle FASTQ e file di riferimento in un bundle di conteggi revisionato QC, ispezionabile e riutilizzabile in Codex. Il plugin Life Sciences NGS Analysis instrada la richiesta, valida gli input e restituisce un report di esecuzione auditabile con MultiQC, matrici Salmon, provenienza e avvertenze esplicite.

Accesso ampliato per organizzazioni affidabili

Stiamo ampliando l’accesso alla serie GPT‑Rosalind per organizzazioni idonee a livello globale. GPT‑Rosalind sarà disponibile in anteprima di ricerca tramite la nostra struttura di distribuzione ad accesso affidabile per organizzazioni che conducono ricerca scientifica legittima con chiaro beneficio pubblico, solida governance e supervisione della sicurezza, e accesso controllato con sicurezza di livello enterprise.

Come parte di questa espansione globale, siamo lieti di contribuire alla missione di Novo Nordisk di portare più rapidamente ai pazienti opzioni terapeutiche innovative, aiutando a scalare la sua ricerca medica con GPT‑Rosalind. Novo Nordisk sfrutta capacità di IA di frontiera per aiutare i ricercatori ad analizzare dataset complessi, scoprire pattern utili e testare ipotesi più rapidamente. La più forte comprensione biologica di GPT‑Rosalind aiuterà i team a collegare evidenze tra letteratura, genomica, trascrittomica, sequenze, strutture e risultati sperimentali, rendendo più facile passare dai dati a decisioni di ricerca più chiare.

«La ricerca nelle scienze della vita è complessa, ricca di dati e interdisciplinare. Per offrire valore significativo ai ricercatori, i modelli di IA avanzati devono essere radicati in dati scientifici affidabili, collegati a strumenti validati e integrati nei flussi di lavoro reali che i ricercatori usano ogni giorno. Siamo soddisfatti della nostra partnership con OpenAI e dell’opportunità di esplorare come GPT‑Rosalind possa supportare approcci più rigorosi e pratici alla scoperta di farmaci».

Mishal Patel, Group Vice President, AI & Digital Innovation, R&D - Novo Nordisk

Ora offriamo anche un’area di lavoro gestita da OpenAI per organizzazioni qualificate senza un account Enterprise.

Richiedi accesso

Cosa viene dopo

GPT‑Rosalind aggiornato è il passo successivo nel nostro impegno più ampio a creare sistemi di IA che aiutino ad accelerare la scoperta scientifica, assicurando che capacità biologiche avanzate siano distribuite con adeguate salvaguardie. Continueremo a migliorare il ragionamento biologico del modello, ampliare il supporto per flussi di ricerca a lungo orizzonte e ricchi di strumenti, e collaborare con organizzazioni qualificate in diverse regioni per valutare l’impatto reale.

Questo significa anche applicare l’IA per le scienze della vita a lavori ad alto impatto e beneficio pubblico, dalla scoperta di farmaci e medicina traslazionale alla salute pubblica, preparazione e biodifesa. Attraverso Rosalind Biodefense e il nostro modello di distribuzione ad accesso affidabile, puntiamo a mettere capacità biologiche di frontiera nelle mani di ricercatori, istituzioni e difensori impegnati a migliorare la salute umana e rafforzare la resilienza sociale.

Continueremo a sviluppare GPT‑Rosalind perché diventi un partner più capace lungo l’intero ciclo della ricerca scientifica, aiutando gli scienziati a passare più rapidamente dalle domande giuste a evidenze più chiare, esperimenti migliori e, infine, nuovi trattamenti per i pazienti.

Continua a leggere

Visualizza tutto

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 è ora il modello preferito in Microsoft 365 Copilot

Prodotto9 lug 2026

GPT-5.6: intelligenza di frontiera che cresce con la tua ambizione

Prodotto9 lug 2026

ChatGPT è ora un partner per il tuo lavoro più ambizioso

Prodotto9 lug 2026