Ir al contenido principal
OpenAI

Presentación de nuevas capacidades para GPT‑Rosalind

Más inteligencia basada en flujos de trabajo científicos reales para el sector de ciencias de la vida.

Presentamos una nueva actualización de modelo para nuestra serie GPT‑Rosalind, diseñada específicamente para la investigación en ciencias de la vida a escala empresarial. Combina las capacidades de programación con agentes y uso de herramientas de GPT‑5.5 con una inteligencia de modelo más sólida en ámbitos clave del descubrimiento de fármacos, como la química médica y la genómica, a la vez que mejora el rendimiento en análisis, diseño y flujos de trabajo experimentales más amplios en ciencias de la vida.

El progreso en ciencias de la vida depende de sintetizar datos y pruebas entre escalas y modalidades: moléculas, genes, rutas y sistemas vivos. En nuestras evaluaciones, el GPT‑Rosalind actualizado muestra amplias mejoras de rendimiento en tareas de investigación de expertos en biología, consultas complejas de química médica, biología cuantitativa y resolución de problemas de laboratorio húmedo.

GPT‑Rosalind ya está disponible en versión preliminar de investigación para organizaciones elegibles de todo el mundo mediante nuestra estructura de implementación con acceso de confianza.

Mejorar el rendimiento en tareas con valor científico

Para medir y mejorar continuamente el impacto real de GPT‑Rosalind, diseñamos LifeSciBench, una evaluación comparativa juzgada externamente por expertos y centrada en aspectos fundamentales de la investigación en ciencias de la vida. A diferencia de las evaluaciones comparativas existentes, que evalúan un único componente del rendimiento del modelo o un dominio biológico de forma aislada, LifeSciBench adopta una visión integral del trabajo con valor científico al extraer tareas de seis áreas de flujo de trabajo centrales para la investigación en ciencias de la vida: gestión de pruebas, análisis, diseño y optimización, razonamiento científico, validación y operaciones, y traducción y comunicación. Usamos esta evaluación comparativa para alinear el progreso con las necesidades y realidades de la investigación en ciencias de la vida.

GPT‑Rosalind lidera el rendimiento en tareas con valor científico identificadas por expertos de la industria y del ámbito académico.

Extraer, conciliar y auditar pruebas científicas de artículos, figuras, tablas y registros experimentales.

Ejemplo de evaluación

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Respuesta candidata

Conclusión clave: tal como se presenta, este paquete no es lo bastante sólido para respaldar la aprobación acelerada basada en la expresión de microdistrofina como punto de acceso sustituto razonablemente probable de predecir beneficio clínico. Un revisor escéptico de la FDA probablemente consideraría que las pruebas de biomarcador, funcionalidad, durabilidad, seguridad y generalizabilidad tienen un respaldo materialmente insuficiente.

Elemento del paquete

Modo de fallo clave

Qué haría falta

Cuantificación por Western blot

MANEX1A se une a un epítopo N-terminal compartido por la distrofina endógena de longitud completa y el transgén de microdistrofina, por lo que el ensayo no distingue claramente el transgén de la distrofina residual/revertante. Cuantificar una microdistrofina de 138 kDa frente a un estándar sano de distrofina de longitud completa también es inválido.

Usar un estándar recombinante de microdistrofina y un método ortogonal que distinga el transgén de la distrofina endógena, como espectrometría de masas dirigida o un ensayo específico de transgén/epítopo.

Inmunofluorescencia

El anticuerpo policlonal C-terminal es poco adecuado porque el constructo de 138 kDa carece del dominio C-terminal. Muchos pacientes con DMD tienen fibras revertantes, y la distrofina revertante puede conservar epítopos C-terminales. Las fibras revertantes pueden expandirse clonalmente con la edad, sesgando la señal IF, especialmente en niños mayores.

Repetir IF con un anticuerpo contra un epítopo presente en el transgén pero ausente de la distrofina revertante. Cuantificar las fibras positivas para transgén por separado de las fibras revertantes.

Validez del punto de acceso sustituto

El paquete confunde la cantidad de proteína con la función clínica. «38 % de la masa proteica de controles sanos» no significa 38 % de función normal de distrofina, porque la microdistrofina está truncada estructuralmente.

Validar empíricamente la relación entre porcentaje de masa de microdistrofina, localización sarcolemal, restauración funcional posterior y beneficio clínico antes de tratar la expresión como punto de acceso sustituto.

Diseño de biopsia

Las biopsias contralaterales pre y postratamiento del vasto lateral introducen variabilidad espacial izquierda-derecha e intramuscular. La progresión de la enfermedad y la sustitución fibrograsa también pueden cambiar la señal normalizada por proteína total.

Estandarizar el sitio de biopsia con referencias anatómicas coherentes, normalizar a proteínas específicas de músculo y medir en paralelo la composición fibrograsa.

Comparador/estadística NSAA

Una cohorte externa de historia natural no es un control concurrente aleatorizado. La elegibilidad del ensayo, los cuidados de apoyo, los efectos de participación, la NSAA basal, el régimen de esteroides, la edad y la clase de exón pueden sesgar la comparación. Una prueba t no apareada no es suficiente. Además, un cambio de +1,4 en NSAA está dentro de la variabilidad test-retest para este grupo de edad.

Realizar un estudio aleatorizado concurrente controlado con placebo o, como mínimo, usar análisis ajustados por NSAA basal, edad, régimen de esteroides, clase de exón y otros factores de confusión.

Confusión por ventana de edad

Los niños de 4–7 años están en una ventana de desarrollo en la que los pacientes ambulatorios con DMD no tratados pueden ganar función motora antes de que predomine el deterioro. Un cambio de NSAA a 48 semanas mezcla ganancia del desarrollo, progresión de la enfermedad y posible efecto del tratamiento.

Usar un control aleatorizado concurrente con estratificación por edad para separar la trayectoria del desarrollo del efecto del tratamiento.

Precedente clínico previo

Las señales funcionales de microdistrofina en estudios abiertos no han predicho de forma fiable el beneficio confirmatorio; el precedente publicado incluye ensayos confirmatorios de terapia génica con microdistrofina que no reprodujeron las mejoras abiertas en NSAA.

No confiar en el cambio de NSAA abierto como respaldo decisivo. Exigir evidencia funcional controlada.

Límites estructurales del constructo

El constructo de 138 kDa elimina las repeticiones de espectrina R16/17, que contienen sitios de unión a nNOS. La pérdida de reclutamiento de nNOS puede deteriorar la simpáticolisis funcional y la protección frente a isquemia durante el ejercicio, creando un techo mecanístico de rescate independiente del nivel de expresión.

Añadir estudios mecanísticos que muestren si este constructo específico restaura la función relevante del complejo asociado a distrofina, la localización de nNOS, la fisiología del ejercicio y la protección muscular.

Durabilidad de AAV

Los genomas vectoriales a las 12 semanas no establecen expresión duradera. Los genomas AAV9 son en gran medida episomas no integradores y pueden disminuir con el tiempo. La persistencia del genoma vectorial no equivale a expresión proteica persistente.

Medir longitudinalmente la expresión proteica del transgén y la durabilidad de biomarcadores funcionales más allá de 12 semanas.

Perfil inmunitario/de seguridad

La transaminitis en 8/12 pacientes es coherente con una respuesta inmunitaria a células transducidas por AAV, pero el mecanismo no está establecido. Un caso de miocarditis es preocupante dado el tropismo cardiaco de AAV9.

Proporcionar monitorización inmunitaria más profunda, caracterización de seguridad hepática/cardiaca y seguimiento cardiaco intensificado.

Selección de pacientes/generalizabilidad

Excluir a pacientes positivos para anticuerpos neutralizantes anti-AAV9 limita la generalizabilidad. Excluir deleciones del exón 44 limita la aplicabilidad a ese subgrupo de DMD. n=12 es demasiado pequeño para caracterizar la seguridad y la eficacia en la población más amplia con DMD.

Ampliar la elegibilidad cuando sea posible o preespecificar análisis estratificados por estado de anticuerpos, genotipo/clase de exón, edad y función basal antes de usar el resultado para respaldar una aprobación amplia.

Conclusión regulatoria: el paquete puede mostrar actividad biológica, pero aún no establece que la expresión medida de microdistrofina sea un sustituto fiable razonablemente probable de predecir beneficio clínico. Las principales brechas son especificidad del ensayo, estándares de cuantificación inválidos, posible confusión por fibras revertantes, falta de control aleatorizado, confusión de NSAA por edad, durabilidad incierta y problemas de seguridad/generalizabilidad no resueltos.

Para cerrar la brecha, el programa necesitaría un diseño clínico controlado y estratificado por edad, con ensayos de expresión específicos de transgén, cuantificación proteica ortogonal, controles de composición tisular, datos longitudinales de durabilidad, ensayos funcionales mecanísticos para el constructo truncado y una monitorización de seguridad más sólida, especialmente hepática y cardiaca.

Criterios y calificaciones de la rúbrica

Criterio
Puntos
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Razonamiento científico más sólido

Química médica

GPT‑Rosalind logra un rendimiento líder en la industria en química médica, un campo centrado en convertir moléculas en fármacos útiles. Diseñamos MedChemBench para reflejar flujos de trabajo realistas de química médica, evaluando la comprensión multimodal de estructuras químicas; la relación estructura-actividad (SAR); la predicción de potencia, toxicidad y absorción, distribución, metabolismo y excreción (ADME) de fármacos; la toma de decisiones de optimización de compuestos líderes con múltiples parámetros; y la retrosíntesis. GPT‑Rosalind supera a GPT‑5.5 en MedChemBench, con un 27,5 % frente a un 25,1 %, y usa un 7,2 % menos de tokens.

GPT‑Rosalind muestra mejor síntesis multimodal y razonamiento mecanístico en química médica.

Genómica y biología cuantitativa

En GeneBench, nuestra evaluación con agentes de análisis integral de largo horizonte en genómica y biología cuantitativa, GPT‑Rosalind usa un 31 % menos de tokens que GPT‑5.5 y logra una exactitud superior, del 21,6 % frente al 20,4 %. GeneBench evalúa el rendimiento con agentes en tareas cuantitativas de largo horizonte: a partir de datos científicos realistas, ¿puede un agente planificar análisis válidos, QC, modelado y correcciones para llegar a respuestas relevantes para la decisión? Los problemas incluidos abarcan varios dominios, como genómica funcional, transcriptómica espacial, proteómica, epigenómica y genética aplicada.

GPT‑Rosalind usa un 31 % menos de tokens que GPT‑5.5 y mejora la exactitud.

Ayudar en el trabajo de laboratorio real

Presentamos una nueva evaluación para probar la capacidad de GPT‑Rosalind de ayudar a científicos que realizan trabajo de laboratorio en el mundo real. LabWorkBench prueba la capacidad del modelo para vincular perturbaciones con resultados experimentales en protocolos reales de laboratorio húmedo usados por científicos, con fines que van desde la resolución de problemas hasta la optimización. Los datos usados por LabWorkBench son propietarios y, por tanto, no están contaminados. GPT‑Rosalind obtiene un 63,2 % frente al 55,8 % de GPT‑5.5, usando un 5,3 % menos de tokens.

En asistencia con protocolos reales de laboratorio húmedo, GPT‑Rosalind muestra mejoras significativas frente a GPT‑5.5 y aumenta la eficiencia de tokens.

Del razonamiento a los flujos de trabajo ejecutados

Creamos los plugins Life Sciences Research(se abre en una ventana nueva) y Life Sciences NGS Analysis(se abre en una ventana nueva) para ampliar la mayor inteligencia de GPT‑Rosalind con una capa práctica de ejecución para flujos de trabajo científicos repetibles. Juntos, estos plugins incorporan recuperación de pruebas con fuentes, interpretación biológica y ejecución bioinformática en la misma área de trabajo, ayudando a los investigadores a conectar pruebas externas con análisis ómicos internos y preservando artefactos y procedencia. Todos los usuarios ya pueden acceder a ambos plugins a través de Codex. Los usuarios empresariales cualificados de GPT‑Rosalind también pueden usar GPT‑Rosalind para impulsar estos plugins.

Para aprovechar mejor Codex como banco de trabajo dinámico para científicos, añadimos visores interactivos para tipos de archivo biológicamente nativos. El conjunto inicial de visores de secuencias, alineamientos y estructuras está diseñado para mantener a los científicos cerca de las pruebas mientras GPT‑Rosalind razona a lo largo de un flujo de trabajo y responde directamente a preguntas de seguimiento usando el visor activo en contexto.

La demostración anterior muestra estas capacidades en acción, orquestadas por GPT‑Rosalind. Seguimos a un científico que investiga una biopsia líquida tumoral para identificar mutaciones y otros cambios moleculares que podrían orientar el tratamiento. El plugin Life Sciences NGS Analysis convierte una revisión de registros de ctDNA procesados en un cuaderno interactivo, mostrando alteraciones recurrentes, llamadas de baja frecuencia y trayectorias de muestras que centran la investigación en KRAS G12C. Desde ahí, el plugin Life Sciences Research añade contexto con fuentes sobre dianas, inhibidores y resistencia, mientras que los visores nativos de secuencias, alineamientos y estructuras permiten al científico inspeccionar directamente el residuo mutante 12, su conservación en la familia RAS y el bolsillo unido al inhibidor. El flujo de trabajo concluye traduciendo esas pruebas en opciones concretas de seguimiento, con cada paso y artefacto disponible para revisión experta.

Una pantalla de ordenador muestra un área de trabajo que indica el uso de un plugin de análisis NGS para explorar datos de mutaciones de ctDNA. La pantalla incluye varios gráficos de barras etiquetados como «Principales histologías detalladas» y «Principales genes alterados por muestras de cfDNA mutado», que muestran datos sobre tipos de cáncer y alteraciones génicas. El texto describe el conjunto de datos, los hallazgos clave y los parámetros de análisis.

Plugin Life Sciences NGS Analysis

QC y anotación de scRNA-seq

Captura de pantalla de un flujo de trabajo bioinformático en pantalla dividida. El panel izquierdo muestra un asistente de IA que resume un análisis de control de calidad completado de secuenciación de ARN unicelular (scRNA-seq), incluidos archivos generados, métricas de QC, visualizaciones UMAP y anotaciones de tipos celulares. El panel derecho muestra un informe «Revisión de QC de scRNA» con histogramas de recuentos totales, genes detectados y porcentaje mitocondrial, junto con gráficos de barras que muestran recuentos apto/no apto de QC y poblaciones celulares filtradas. La interfaz se muestra sobre un fondo degradado azul y verde.

Convierte un paquete de matriz estilo 10x en artefactos unicelulares filtrados por QC, anotaciones y UMAP que puedes inspeccionar y revisar en Codex. El plugin Life Sciences NGS Analysis enruta la solicitud a scrna-seq-qc, elige umbrales de QC a partir de los datos, preserva la procedencia en torno al filtrado y la anotación, y muestra bloqueadores como dependencias faltantes de detección de dobletes.

QC de FASTQ de RNA-seq masivo

Vista de pantalla dividida de un flujo de trabajo de RNA-seq: un asistente de IA resume a la izquierda los resultados completados de control de calidad de RNA-seq masivo, mientras que a la derecha se muestra un informe interactivo MultiQC con estadísticas de secuenciación y métricas Salmon.

Convierte una hoja de muestras de RNA-seq masivo, un paquete FASTQ y archivos de referencia en un paquete de recuentos revisado por QC que puedes inspeccionar y reutilizar en Codex. El plugin Life Sciences NGS Analysis enruta la solicitud, valida las entradas y devuelve un sobre de ejecución auditable con MultiQC, matrices Salmon, procedencia y salvedades explícitas.

Acceso ampliado para organizaciones de confianza

Estamos ampliando el acceso a la serie GPT‑Rosalind a organizaciones elegibles de todo el mundo. GPT‑Rosalind estará disponible en versión preliminar de investigación mediante nuestra estructura de implementación con acceso de confianza para organizaciones que realicen investigación científica legítima con claro beneficio público, tengan una gobernanza sólida y supervisión de seguridad, y dispongan de acceso controlado con seguridad de nivel empresarial.

Como parte de esta expansión global, nos entusiasma ayudar a respaldar la misión de Novo Nordisk de llevar opciones terapéuticas innovadoras a los pacientes más rápido, ayudando a escalar su investigación médica con GPT‑Rosalind. Novo Nordisk aprovecha capacidades de IA de frontera para ayudar a los investigadores a analizar conjuntos de datos complejos, descubrir patrones útiles y probar hipótesis con mayor rapidez. La comprensión biológica más sólida de GPT‑Rosalind ayudará a los equipos a conectar pruebas de literatura, genómica, transcriptómica, secuencias, estructuras y resultados experimentales, facilitando pasar de los datos a decisiones de investigación más claras.

«La investigación en ciencias de la vida es compleja, rica en datos e interdisciplinar. Para aportar valor significativo a los investigadores, los modelos avanzados de IA deben basarse en datos científicos de confianza, estar conectados a herramientas validadas e integrarse en los flujos de trabajo reales que los investigadores usan cada día. Nos complace nuestra colaboración con OpenAI y la oportunidad de explorar cómo GPT‑Rosalind puede apoyar enfoques más rigurosos y prácticos para el descubrimiento de fármacos».

Mishal Patel, vicepresidente de grupo, IA e innovación digital, I+D - Novo Nordisk

Ahora también ofrecemos un Área de trabajo gestionada por OpenAI para organizaciones cualificadas sin una cuenta Enterprise.

Qué viene después

El GPT‑Rosalind actualizado es el siguiente paso en nuestro compromiso más amplio de crear sistemas de IA que ayuden a acelerar el descubrimiento científico, garantizando al mismo tiempo que las capacidades biológicas avanzadas se implementen con salvaguardas adecuadas. Seguiremos mejorando el razonamiento biológico del modelo, ampliando el soporte para flujos de trabajo de investigación de largo horizonte y con uso intensivo de herramientas, y colaborando con organizaciones cualificadas de distintas regiones para evaluar el impacto en el mundo real.

Esto también significa aplicar la IA de ciencias de la vida a trabajos de alto impacto y beneficio público, desde el descubrimiento de fármacos y la medicina traslacional hasta la salud pública, la preparación y la biodefensa. A través de Rosalind Biodefense y nuestro modelo de implementación con acceso de confianza, aspiramos a poner capacidades biológicas de frontera en manos de los investigadores, instituciones y defensores que trabajan para mejorar la salud humana y reforzar la resiliencia social.

Seguiremos desarrollando GPT‑Rosalind para que sea un socio más capaz durante todo el ciclo de vida de la investigación científica, ayudando a los científicos a pasar más rápido de las preguntas adecuadas a pruebas más claras, mejores experimentos y, en última instancia, nuevos tratamientos para los pacientes.