Mejorar la inteligencia de salud en ChatGPT
GPT‑5.5 Instant lleva inteligencia de salud de frontera a más personas, impulsada por avances en nuestros modelos y por evaluaciones dirigidas por médicos.
La salud es una de las formas más significativas en que las personas usan ChatGPT. Cada semana, más de 230 millones de personas recurren a ChatGPT para obtener ayuda con preguntas sobre salud y bienestar: interpretar información de salud, comprender resultados de laboratorio, prepararse para citas médicas, orientarse con el seguro, desarrollar hábitos más saludables y decidir qué preguntar después.
Con GPT‑5.5 Instant, estamos viendo un avance sustancial en la forma en que el modelo maneja las preguntas de salud, con mejoras para reconocer cuándo podría necesitarse atención urgente, pedir contexto relevante, explicar la incertidumbre y hacer que la información compleja sea más fácil de entender. En nuestras evaluaciones de salud más exigentes, GPT‑5.5 Instant ahora se desempeña a un nivel comparable al de nuestros modelos Thinking de frontera. Como está disponible para usuarios gratuitos en ChatGPT, más personas pueden beneficiarse de estas mejoras. Eso puede traducirse en información de salud más fácil de entender, mejores preguntas para hacer y próximos pasos claros.
Ese progreso refleja tanto avances en las capacidades del modelo como el trabajo liderado por médicos detrás de nuestras evaluaciones de salud. En todos nuestros esfuerzos, una red global de médicos ayuda a definir qué significa una respuesta “buena” en situaciones de salud del mundo real, revisando ejemplos de respuestas del modelo, describiendo el comportamiento ideal e identificando modos de falla. Trabajar con médicos nos da una forma de medir el progreso en salud y mejorar cómo responde ChatGPT con el tiempo.
En salud, progresar significa ofrecer respuestas precisas, comprensibles y basadas en buen criterio: reconocer cuándo se necesita más contexto, explicar la incertidumbre sin exagerar la confianza y ayudar a las personas a entender cuándo buscar atención médica.
Para medir ese progreso, usamos evaluaciones específicas de salud, incluidas HealthBench y HealthBench Professional. Estas evaluaciones usan conversaciones de salud realistas y rúbricas escritas por médicos para evaluar cualidades como precisión, seguridad, comunicación, conciencia del contexto, exhaustividad y escalamiento adecuado.
GPT‑5.5 Instant alcanza un rendimiento en salud similar al de nuestros modelos de frontera más recientes en un agregado de evaluaciones de salud, incluida HealthBench Professional, con una mejora sustancial respecto de GPT‑5.3 Instant. 5.5 Instant (lanzado en mayo de 2026) y 5.3 Instant (lanzado en marzo de 2026) están disponibles para todos los usuarios gratuitos de ChatGPT (sujetos a límites), y usamos los precios de la API para calcular el costo de 5.4 Thinking y 5.5 Thinking.
Como otra comparación, también pedimos a médicos que redactaran respuestas para conversaciones de salud representativas, con tiempo ilimitado y acceso a internet (pero no a IA). Luego, un panel independiente de médicos comparó estas respuestas escritas por médicos con modelos Instant a lo largo del tiempo, revisando cualidades que importan en interacciones reales, como precisión, comunicación, exhaustividad, seguimiento de instrucciones y utilidad para tomar decisiones de salud, en 3500 respuestas revisadas.
Las respuestas de GPT‑5.5 Instant recibieron calificaciones más altas que las respuestas escritas por médicos y las de modelos anteriores en todas las dimensiones de esta evaluación.
Los médicos calificaron las respuestas de GPT‑5.5 Instant como respuestas con menos modos de falla que las de modelos anteriores y las de médicos. Por ejemplo, GPT 5.5 Instant tuvo menos casos de respuestas que no se adaptaban al contexto local de atención médica, omitían señales de alarma o derivaciones a atención, o no pedían contexto adicional al usuario cuando era necesario, en comparación tanto con modelos anteriores como con médicos.
Dada la escala de uso de nuestros modelos en salud, otra forma de entender las mejoras recientes del modelo es medir el tráfico de producción. Usamos monitores que preservan la privacidad en el tráfico de producción para hacer seguimiento de posibles problemas de factualidad en las respuestas de salud. Según una comparación del tráfico de producción reciente en salud —miles de millones de mensajes por semana—, la tasa de respuestas con al menos un problema de factualidad señalado disminuyó un 71 % en los últimos dos meses.
Comparar respuestas de modelos en distintos momentos frente a preguntas de salud del mundo real muestra cómo ChatGPT ha mejorado en aspectos que importan para la salud: reconocer cuándo una situación puede requerir atención urgente, manejar la incertidumbre con mejor criterio y ofrecer a las personas orientación más clara y útil sobre qué hacer después.
GPT-5.2 Instant
Haz clic en el nombre del modelo para ver respuestas adicionales del modelo.
Este progreso toma forma gracias a médicos que nos ayudan a definir, medir y mejorar las respuestas de salud en ChatGPT.
OpenAI trabaja con una red global de más de 260 médicos en 60 países, 49 idiomas y 26 especialidades médicas. Sus comentarios informan cómo responde ChatGPT a preguntas de salud en una amplia variedad de escenarios, desde preguntas cotidianas de bienestar hasta situaciones clínicas más complejas.
Los médicos revisan ejemplos de respuestas del modelo y evalúan si son precisas, claras, completas, adecuadamente cautelosas y útiles. Ayudan a identificar cuándo una respuesta puede omitir contexto importante, sonar demasiado segura, requerir más claridad sobre los próximos pasos o alentar de forma más directa a una persona a buscar atención médica.
Hasta la fecha, los médicos han revisado más de 700 000 ejemplos de respuestas del modelo que reflejan cómo los profesionales clínicos y los pacientes pueden usar ChatGPT en el mundo real. Cada pocos minutos, un médico revisa una nueva respuesta. Sus comentarios se convierten en rúbricas y criterios de evaluación que ayudan a los investigadores a medir si las respuestas son precisas, seguras, claras, completas, adecuadamente cautelosas y útiles en situaciones de salud del mundo real. Esto nos da una forma más clara de ver en qué están mejorando los modelos y en qué todavía necesitan trabajo.
Este trabajo también respalda el trabajo más amplio de OpenAI en salud, que abarca herramientas que ayudan a las personas a entender mejor la información de salud y orientarse en ella, así como herramientas creadas para profesionales clínicos, como ChatGPT para profesionales clínicos y OpenAI para el sector de la salud, que apoyan a los profesionales médicos en tareas como documentación, investigación y consulta sobre atención.
Mejorar la salud humana será uno de los impactos más personales y tangibles de la IAG. A medida que nuestros modelos siguen mejorando, nuestro objetivo es hacer que ChatGPT sea más preciso, más cuidadoso y más útil en esos momentos, y seguir llevando ese progreso a más personas.


