3 de junio de 2026

Presentar nuevas capacidades para GPT‑Rosalind

Más inteligencia basada en flujos de trabajo científicos reales para la industria de ciencias de la vida.

Presentamos una nueva actualización del modelo para nuestra serie GPT‑Rosalind, diseñada específicamente para investigación en ciencias de la vida a escala empresarial. Combina las capacidades de codificación con agentes y uso de herramientas de GPT‑5.5 con una inteligencia de modelo más sólida en dominios centrales del descubrimiento de fármacos, como la química medicinal y la genómica, a la vez que mejora el rendimiento en análisis, diseño y flujos de trabajo experimentales más amplios de ciencias de la vida.

El progreso en ciencias de la vida depende de sintetizar datos y evidencia en distintas escalas y modalidades: moléculas, genes, vías y sistemas vivos. En nuestras evaluaciones, GPT‑Rosalind actualizado muestra mejoras amplias de rendimiento en tareas de investigación de expertos en biología, consultas complejas de química medicinal, biología cuantitativa y solución de problemas de laboratorio húmedo.

GPT‑Rosalind ya está disponible en vista previa de investigación para organizaciones elegibles en todo el mundo mediante nuestra estructura de implementación con acceso confiable.

Mejorar el rendimiento en tareas de valor científico

Para medir y mejorar continuamente el impacto real de GPT‑Rosalind, diseñamos LifeSciBench, un benchmark evaluado externamente por expertos y centrado en aspectos fundamentales de la investigación en ciencias de la vida. A diferencia de los benchmarks existentes que evalúan un solo componente del rendimiento del modelo o un dominio biológico de forma aislada, LifeSciBench adopta una visión integral del trabajo con valor científico al tomar tareas de seis áreas de flujo de trabajo centrales para la investigación en ciencias de la vida: manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, y traducción y comunicación. Usamos este benchmark para alinear el progreso con las necesidades y realidades de la investigación en ciencias de la vida.

GPT‑Rosalind lidera el rendimiento en tareas de valor científico identificadas por expertos de la industria y la academia.

Extraer, conciliar y auditar evidencia científica de artículos, figuras, tablas y registros experimentales.

Ejemplo de Eval

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Respuesta del candidato o la candidata

Conclusión principal: tal como se presenta, este paquete no es lo bastante sólido para respaldar la aprobación acelerada basada en la expresión de microdistrofina como criterio de valoración sustituto razonablemente probable de predecir beneficio clínico. Un revisor escéptico de la FDA probablemente consideraría que la evidencia sobre biomarcador, función, durabilidad, seguridad y generalizabilidad está materialmente insuficientemente respaldada.

Elemento del paquete	Modo clave de falla	Qué se necesitaría
Cuantificación por Western blot	MANEX1A se une a un epítopo N-terminal compartido por la distrofina endógena de longitud completa y el transgén de microdistrofina, por lo que el ensayo no distingue limpiamente el transgén de la distrofina residual/revertante. Cuantificar una microdistrofina de 138 kDa contra un estándar sano de distrofina de longitud completa también es inválido.	Usar un estándar recombinante de microdistrofina y un método ortogonal que distinga el transgén de la distrofina endógena, como espectrometría de masas dirigida o un ensayo específico de transgén/epítopo.
Inmunofluorescencia	El anticuerpo policlonal C-terminal es poco adecuado porque el constructo de 138 kDa carece del dominio C-terminal. Muchos pacientes con DMD tienen fibras revertantes, y la distrofina revertante puede conservar epítopos C-terminales. Las fibras revertantes pueden expandirse clonalmente con la edad, sesgando la señal de IF, especialmente en niños mayores.	Repetir IF con un anticuerpo contra un epítopo presente en el transgén pero ausente de la distrofina revertante. Cuantificar las fibras positivas al transgén por separado de las fibras revertantes.
Validez del criterio de valoración sustituto	El paquete confunde cantidad de proteína con función clínica. “38 % de la masa proteica de controles sanos” no significa 38 % de la función normal de distrofina, porque la microdistrofina está truncada estructuralmente.	Validar empíricamente la relación entre porcentaje de masa de microdistrofina, localización sarcolemal, restauración funcional descendente y beneficio clínico antes de tratar la expresión como criterio de valoración sustituto.
Diseño de biopsias	Las biopsias contralaterales del vasto lateral antes y después del tratamiento introducen variabilidad espacial izquierda-derecha e intramuscular. La progresión de la enfermedad y el reemplazo fibrograso también pueden cambiar la señal normalizada por proteína total.	Estandarizar el sitio de biopsia usando puntos anatómicos constantes, normalizar a proteínas específicas de músculo y medir en paralelo la composición fibrograsa.
Comparador/estadística de NSAA	Una cohorte externa de historia natural no es un control concurrente aleatorizado. La elegibilidad del ensayo, la atención de apoyo, los efectos de participación, la NSAA basal, el régimen de esteroides, la edad y la clase de exón pueden sesgar la comparación. Una prueba t no pareada no es suficiente. Además, un cambio de +1,4 en NSAA está dentro de la variabilidad prueba-reprueba para este grupo etario.	Realizar un estudio aleatorizado concurrente controlado con placebo, o como mínimo usar análisis ajustados que consideren NSAA basal, edad, régimen de esteroides, clase de exón y otros factores de confusión.
Confusión por ventana de edad	Los niños de 4 a 7 años están en una ventana del desarrollo donde los pacientes ambulatorios con DMD no tratados pueden ganar función motora antes de que predomine el deterioro. Un cambio de NSAA a 48 semanas mezcla ganancia del desarrollo, progresión de la enfermedad y posible efecto del tratamiento.	Usar un control aleatorizado concurrente con estratificación por edad para separar la trayectoria del desarrollo del efecto del tratamiento.
Precedente clínico previo	Las señales funcionales de microdistrofina en estudios abiertos no han predicho de forma confiable el beneficio confirmatorio; el precedente publicado incluye ensayos confirmatorios de terapia génica con microdistrofina que no reprodujeron mejoras abiertas de NSAA.	No depender del cambio abierto de NSAA como respaldo decisivo. Exigir evidencia funcional controlada.
Límites estructurales del constructo	El constructo de 138 kDa elimina las repeticiones de espectrina R16/17, que contienen sitios de unión a nNOS. La pérdida de reclutamiento de nNOS puede afectar la simpatólisis funcional y la protección contra isquemia durante el ejercicio, creando un techo mecanístico de rescate independiente del nivel de expresión.	Agregar estudios mecanísticos que muestren si este constructo específico restaura la función relevante del complejo asociado a distrofina, la localización de nNOS, la fisiología del ejercicio y la protección muscular.
Durabilidad de AAV	Los genomas vectoriales a las 12 semanas no establecen expresión durable. Los genomas de AAV9 son en gran medida episomas no integradores y pueden disminuir con el tiempo. La persistencia del genoma vectorial no es lo mismo que la expresión proteica persistente.	Medir longitudinalmente la expresión proteica del transgén y la durabilidad de biomarcadores funcionales más allá de 12 semanas.
Perfil inmunitario/de seguridad	La transaminitis en 8/12 pacientes es consistente con una respuesta inmunitaria a células transducidas por AAV, pero el mecanismo no está establecido. Un caso de miocarditis es preocupante dado el tropismo cardíaco de AAV9.	Proporcionar monitoreo inmunitario más profundo, caracterización de seguridad hepática/cardiaca y seguimiento cardiaco intensificado.
Selección de pacientes/generalizabilidad	Excluir pacientes positivos para anticuerpos neutralizantes anti-AAV9 limita la generalizabilidad. Excluir deleciones del exón 44 limita la aplicabilidad a ese subgrupo de DMD. n=12 es demasiado pequeño para caracterizar seguridad y eficacia en la población DMD más amplia.	Ampliar la elegibilidad cuando sea posible o preespecificar análisis estratificados por estado de anticuerpos, genotipo/clase de exón, edad y función basal antes de usar el resultado para respaldar una aprobación amplia.

Conclusión regulatoria: el paquete puede mostrar actividad biológica, pero aún no establece que la expresión medida de microdistrofina sea un sustituto confiable razonablemente probable de predecir beneficio clínico. Las principales brechas son especificidad del ensayo, estándares de cuantificación inválidos, posible confusión por fibras revertantes, falta de control aleatorizado, confusión de NSAA relacionada con edad, durabilidad incierta y problemas no resueltos de seguridad/generalizabilidad.

Para cerrar la brecha, el programa necesitaría un diseño clínico controlado y estratificado por edad con ensayos de expresión específicos del transgén, cuantificación proteica ortogonal, controles de composición tisular, datos longitudinales de durabilidad, ensayos funcionales mecanísticos para el constructo truncado y monitoreo de seguridad más sólido, especialmente hepático y cardiaco.

Criterios y calificaciones de las rúbricas

Criterio

Puntos

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Razonamiento científico más sólido

Química medicinal

GPT‑Rosalind logra un rendimiento líder en la industria en química medicinal, un campo enfocado en convertir moléculas en fármacos útiles. Diseñamos MedChemBench para reflejar flujos de trabajo realistas de química medicinal, evaluando la comprensión multimodal de estructuras químicas; la relación estructura-actividad (SAR); la predicción de potencia, toxicidad y absorción, distribución, metabolismo y excreción (ADME) de fármacos; la toma de decisiones de optimización de compuestos líderes con múltiples parámetros; y la retrosíntesis. GPT‑Rosalind supera a GPT‑5.5 en MedChemBench, con 27,5 % frente a 25,1 %, usando 7,2 % menos tokens.

GPT‑Rosalind muestra mejor síntesis multimodal y razonamiento mecanístico en química medicinal.

Genómica y biología cuantitativa

En GeneBench, nuestra evaluación con agentes de análisis integral y de largo horizonte en genómica y biología cuantitativa, GPT‑Rosalind usa 31 % menos tokens que GPT‑5.5 y logra mayor exactitud: 21,6 % frente a 20,4 %. GeneBench evalúa el rendimiento con agentes en tareas cuantitativas de largo horizonte: con datos científicos realistas, ¿puede un agente planificar análisis, QC, modelado y correcciones válidos para llegar a respuestas pertinentes para la decisión? Los problemas incluidos abarcan una variedad de dominios, como genómica funcional, transcriptómica espacial, proteómica, epigenómica y genética aplicada.

GPT‑Rosalind usa 31 % menos tokens que GPT‑5.5 y mejora la exactitud.

Ayudar en el trabajo de laboratorio real

Presentamos una nueva evaluación para probar la capacidad de GPT‑Rosalind de ayudar a científicos que realizan trabajo de laboratorio en el mundo real. LabWorkBench prueba la capacidad del modelo para vincular perturbaciones con resultados experimentales en protocolos reales de laboratorio húmedo usados por científicos, con fines que van desde la solución de problemas hasta la optimización. Los datos usados por LabWorkBench son propietarios y, por lo tanto, no están contaminados. GPT‑Rosalind obtiene 63,2 % frente al 55,8 % de GPT‑5.5, usando 5,3 % menos tokens.

En asistencia con protocolos reales de laboratorio húmedo, GPT‑Rosalind muestra mejoras significativas frente a GPT‑5.5 y aumenta la eficiencia de tokens.

Del razonamiento a flujos de trabajo ejecutados

Creamos los plugins Life Sciences Research⁠(se abre en una nueva ventana) y Life Sciences NGS Analysis⁠(se abre en una nueva ventana) para ampliar la mayor inteligencia de GPT‑Rosalind con una capa de ejecución práctica para flujos de trabajo científicos repetibles. Juntos, estos plugins integran recuperación de evidencia con fuentes, interpretación biológica y ejecución bioinformática en el mismo Espacio de trabajo, lo que ayuda a los investigadores a conectar evidencia externa con análisis ómicos internos y preservar artefactos y procedencia. Todos los usuarios ahora pueden acceder a ambos plugins mediante Codex. Los usuarios empresariales calificados de GPT‑Rosalind también pueden usar GPT‑Rosalind para impulsar estos plugins.

Para aprovechar mejor Codex como un banco de trabajo dinámico para científicos, agregamos visores interactivos para tipos de archivos nativos de biología. El conjunto inicial de visores de secuencias, alineamientos y estructuras está diseñado para mantener a los científicos cerca de la evidencia mientras GPT‑Rosalind razona a través de un flujo de trabajo y responde directamente preguntas de seguimiento usando el visor activo en contexto.

La demostración anterior muestra estas capacidades en acción, orquestadas por GPT‑Rosalind. Seguimos a un científico que investiga una biopsia líquida tumoral para identificar mutaciones y otros cambios moleculares que podrían orientar el tratamiento. El plugin Life Sciences NGS Analysis convierte una revisión de registros de ctDNA procesados en un notebook interactivo, mostrando alteraciones recurrentes, llamadas de baja frecuencia y trayectorias de muestras que enfocan la investigación en KRAS G12C. A partir de ahí, el plugin Life Sciences Research agrega contexto con fuentes sobre la diana, el inhibidor y la resistencia, mientras que los visores nativos de secuencia, alineamiento y estructura permiten al científico inspeccionar directamente el residuo mutante 12, su conservación en la familia RAS y el bolsillo unido al inhibidor. El flujo de trabajo concluye traduciendo esa evidencia en opciones concretas de seguimiento, con cada paso y artefacto disponible para revisión de expertos.

Una pantalla de computadora muestra un Espacio de trabajo que indica el uso de un plugin de NGS Analysis para explorar datos de mutaciones de ctDNA. La pantalla incluye varios gráficos de barras etiquetados “Principales histologías detalladas” y “Principales genes alterados por muestras de cfDNA mutado”, que muestran datos sobre tipos de cáncer y alteraciones génicas. El texto describe el conjunto de datos, los hallazgos clave y los parámetros de análisis. — Plugin Life Sciences NGS Analysis

QC y anotación de scRNA-seq

Captura de pantalla de un flujo de trabajo bioinformático en pantalla dividida. El panel izquierdo muestra un asistente de IA que resume un análisis completado de control de calidad de secuenciación de RNA unicelular (scRNA-seq), incluidos archivos generados, métricas de QC, visualizaciones UMAP y anotaciones de tipos celulares. El panel derecho muestra un informe “Revisión de QC de scRNA” con histogramas de conteos totales, genes detectados y porcentaje mitocondrial, junto con gráficos de barras de conteos de aprobación/rechazo de QC y poblaciones celulares filtradas. La interfaz se muestra sobre un fondo degradado azul y verde. — Convierte un paquete de matriz estilo 10x en artefactos unicelulares filtrados por QC, anotaciones y UMAP que puedes inspeccionar y revisar en Codex. El plugin Life Sciences NGS Analysis enruta la solicitud a scrna-seq-qc, elige umbrales de QC a partir de los datos, preserva la procedencia del filtrado y la anotación, y expone bloqueadores como dependencias faltantes de detección de dobletes.

QC de FASTQ de RNA-seq masivo

Vista de pantalla dividida de un flujo de trabajo de RNA-seq: a la izquierda, un asistente de IA resume resultados completados de control de calidad de RNA-seq masivo, mientras a la derecha se muestra un informe interactivo de MultiQC con estadísticas de secuenciación y métricas de Salmon. — Convierte una hoja de muestras de RNA-seq masivo, un paquete FASTQ y archivos de referencia en un paquete de conteos revisado por QC que puedes inspeccionar y reutilizar en Codex. El plugin Life Sciences NGS Analysis enruta la solicitud, valida las entradas y devuelve un sobre de ejecución auditable con MultiQC, matrices Salmon, procedencia y advertencias explícitas.

Acceso ampliado para organizaciones confiables

Estamos ampliando el acceso a la serie GPT‑Rosalind para organizaciones elegibles en todo el mundo. GPT‑Rosalind estará disponible en vista previa de investigación mediante nuestra estructura de implementación con acceso confiable para organizaciones que realizan investigación científica legítima con claro beneficio público, cuentan con gobernanza sólida y supervisión de seguridad, y tienen acceso controlado con seguridad de nivel empresarial.

Como parte de esta expansión global, nos entusiasma ayudar a respaldar la misión de Novo Nordisk de llevar opciones terapéuticas innovadoras a los pacientes más rápido, ayudando a escalar su investigación médica con GPT‑Rosalind. Novo Nordisk está aprovechando capacidades de IA de frontera para ayudar a los investigadores a analizar conjuntos de datos complejos, descubrir patrones útiles y probar hipótesis con mayor rapidez. La comprensión biológica más sólida de GPT‑Rosalind ayudará a los equipos a conectar evidencia de literatura, genómica, transcriptómica, secuencias, estructuras y resultados experimentales, facilitando pasar de datos a decisiones de investigación más claras.

“La investigación en ciencias de la vida es compleja, rica en datos e interdisciplinaria. Para ofrecer valor significativo a los investigadores, los modelos avanzados de IA deben basarse en datos científicos confiables, conectarse con herramientas validadas e integrarse en los flujos de trabajo reales que los investigadores usan todos los días. Nos complace nuestra colaboración con OpenAI y la oportunidad de explorar cómo GPT‑Rosalind puede respaldar enfoques más rigurosos y prácticos para el descubrimiento de fármacos”.

Mishal Patel, vicepresidente de grupo, IA e innovación digital, I+D - Novo Nordisk

Ahora también ofrecemos un Espacio de trabajo administrado por OpenAI para organizaciones calificadas sin cuenta Enterprise.

Solicitar acceso

Qué sigue

GPT‑Rosalind actualizado es el siguiente paso en nuestro compromiso más amplio de crear sistemas de IA que puedan ayudar a acelerar el descubrimiento científico y garantizar que las capacidades biológicas avanzadas se implementen con salvaguardas adecuadas. Seguiremos mejorando el razonamiento biológico del modelo, ampliando el soporte para flujos de trabajo de investigación con muchas herramientas y de largo horizonte, y trabajando con organizaciones calificadas en distintas regiones para evaluar el impacto real.

Esto también implica aplicar IA de ciencias de la vida a trabajos de alto impacto y beneficio público, desde el descubrimiento de fármacos y la medicina traslacional hasta la salud pública, la preparación y la biodefensa. Mediante Rosalind Biodefense y nuestro modelo de implementación con acceso confiable, buscamos poner capacidades biológicas de frontera en manos de investigadores, instituciones y defensores que trabajan para mejorar la salud humana y fortalecer la resiliencia social.

Seguiremos desarrollando GPT‑Rosalind para que se convierta en un socio más capaz en todo el ciclo de vida de la investigación científica, ayudando a los científicos a avanzar más rápido desde las preguntas correctas hasta evidencia más clara, mejores experimentos y, en última instancia, nuevos tratamientos para los pacientes.

Sigue leyendo

Ver todos

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 ya es el modelo preferido en Microsoft 365 Copilot

Producto9 jul 2026

GPT-5.6: inteligencia de vanguardia que escala con tu ambición

Producto9 jul 2026

ChatGPT ahora es un aliado para tu trabajo más ambicioso

Producto9 jul 2026