Ir al contenido principal
OpenAI

5 de septiembre de 2025

InvestigaciónPublicación

Por qué los modelos de lenguaje se inventan cosas

Imagen abstracta con amplios degradados de turquesa, azul y lavanda, que se mezclan en diagonal a lo largo del cuadro en rayas suaves y fluidas.
Cargando…

En OpenAI, trabajamos incansablemente para que los sistemas de IA sean cada vez más útiles y fiables. A pesar de que los modelos de lenguaje son cada vez más competentes, sigue habiendo un problema que resulta difícil de resolver por completo: que se inventan cosas. Nos referimos a los casos en los que un modelo genera con seguridad una respuesta que no es cierta. Nuestro nuevo artículo de investigación(se abre en una ventana nueva) sostiene que los modelos de lenguaje se inventan información porque los procedimientos estándar de entrenamiento y evaluación premian más la elaboración de una conjetura que el reconocimiento de que algo se desconoce.

ChatGPT también se inventa cosas. El GPT‑5 se inventa muchas menos, especialmente cuando razona, pero todavía le sigue pasando. Que los modelos se inventen cosas sigue siendo un reto importante en todos los modelos de lenguaje de gran tamaño, pero estamos trabajando duro para seguir reduciendo ese fenómeno.

¿Qué es la información inventada?

La información inventada son afirmaciones plausibles pero falsas generadas por modelos de lenguaje. Puede aparecer en momentos sorprendentes, incluso en preguntas aparentemente sencillas. Por ejemplo, cuando le preguntamos a un chatbot muy utilizado por el título de la tesis doctoral de Adam Tauman Kalai (uno de los autores de este artículo), nos dio con total seguridad tres respuestas diferentes, pero ninguna de ellas correcta. Cuando le preguntamos por su fecha de nacimiento, nos dio tres fechas diferentes, todas ellas incorrectas. 

Enseñanza para la prueba

Los modelos siguen inventándose cosas en parte porque los métodos de evaluación actuales establecen incentivos erróneos. Aunque las evaluaciones en sí mismas no provocan directamente que el modelo se invente cosas, la mayoría de ellas miden el rendimiento del modelo de una manera que fomenta las conjeturas en lugar de la sinceridad sobre el desconocimiento de un tema.

Hay que imaginarlo como si fuera un examen de opción múltiple. Si no sabes la respuesta pero haces una suposición al azar, es posible que tengas suerte y aciertes. Sin embargo, dejarla en blanco representa un cero asegurado. De igual forma, cuando los modelos se califican únicamente por su precisión, el porcentaje de preguntas que responden correctamente, se les insta a adivinar la respuesta en lugar de decir «no lo sé».

Otro ejemplo: supongamos que se le pregunta a un modelo de lenguaje por el cumpleaños de alguien, pero no lo sabe. Si, para probar, dice «10 de septiembre», tiene una probabilidad entre 365 de acertar. Responder «no lo sé» le garantiza cero puntos. Tras miles de preguntas de prueba, el modelo acaba obteniendo mejores resultados en las tablas de clasificación que un modelo más prudente que admite que no conoce la respuesta.

Para las preguntas en las que hay una única «respuesta correcta», se pueden considerar tres categorías de respuestas: respuestas correctas, errores y abstenciones, en las que el modelo no se arriesga a dar una respuesta. La abstención es una muestra de humildad, uno de los valores fundamentales de OpenAI. La mayoría de las tablas de clasificación priorizan y clasifican los modelos en función de su precisión, pero los errores son peores que las abstenciones. Nuestra hoja de especificaciones del modelo(se abre en una ventana nueva) establece que es mejor indicar que no lo sabe o pedir aclaraciones que proporcionar información que pueda ser incorrecta con convicción. 

Como caso concreto, consideremos la evaluación SimpleQA como ejemplo de la ficha del sistema GPT5(se abre en una ventana nueva).

Métrica

gpt-5-thinking-mini

OpenAI o4-mini

Tasa de abstención
(no se da una respuesta concreta) 

52 %

1 %

Tasa de precisión
(respuesta correcta; cuanto más alta, mejor)

22 %

24 %

Tasa de error
(respuesta incorrecta; cuanto más baja, mejor)

26 %

75 %

Total

100 %

100 %

En términos de precisión, el modelo OpenAI o4-mini más antiguo ofrece un rendimiento ligeramente superior. Sin embargo, su tasa de error (es decir, la tasa de información que se inventa) es significativamente mayor. Conjeturar estratégicamente cuando no está seguro mejora la precisión, pero aumenta los errores y la información que se inventa. 

Al hacer una media de los resultados de decenas de evaluaciones, la mayoría de los puntos de referencia se basan en la métrica de precisión, pero esto implica una falsa dicotomía entre lo correcto y lo incorrecto. En evaluaciones simplistas como SimpleQA, algunos modelos alcanzan una precisión cercana al 100 % y, por lo tanto, no se inventan nada. Sin embargo, en evaluaciones más difíciles y en el uso real, la precisión se limita por debajo del 100 % porque hay algunas preguntas cuya respuesta no se puede determinar por diversas razones, como la falta de información disponible, la limitada capacidad de pensamiento de los modelos pequeños o las ambigüedades que deben aclararse.

No obstante, las tablas de clasificación basadas únicamente en la precisión lideran las listas y las fichas de modelos, lo que motiva a los desarrolladores a crear modelos que realicen conjeturas en lugar de no dar una respuesta. Esa es una de las razones por las que, aunque los modelos sean cada vez más avanzados, siguen pudiendo inventarse cosas y dar respuestas erróneas con convicción, en lugar de reconocer su desconocimiento.

Una mejor forma de calificar las evaluaciones

Existe una solución sencilla: penalizar más los errores cometidos con convicción que el desconocimiento, y otorgar crédito parcial por las expresiones adecuadas de desconocimiento. Sin embargo, esta idea no es nueva. Algunas pruebas estandarizadas llevan mucho tiempo utilizando versiones de puntuación negativa por dar respuestas incorrectas o crédito parcial por dejar preguntas en blanco para desalentar las respuestas al azar. Varios grupos de investigación también han explorado evaluaciones que tienen en cuenta la incertidumbre y la calibración.

Pero nuestro enfoque es distinto. En nuestra opinión, no basta con añadir algunas pruebas nuevas que tengan en cuenta la incertidumbre. Las evaluaciones basadas en la precisión, que se utilizan mucho, deben actualizarse para que su puntuación desaliente las conjeturas. Si las principales tablas de clasificación siguen recompensando las conjeturas correctas, los modelos seguirán aprendiendo que realizarlas es positivo. La corrección de las tablas de clasificación puede ampliar la adopción de técnicas de reducción de información inventada, tanto las recién desarrolladas como las de investigaciones anteriores.

Cómo se inventan la información a partir de la predicción de la palabra siguiente

Ya hemos hablado de por qué es tan difícil que los modelos dejen de inventarse cosas, pero ¿de dónde proceden estas inexactitudes objetivas tan específicas? Al fin y al cabo, los grandes modelos preentrenados rara vez presentan otros tipos de errores, como faltas ortográficas o paréntesis mal utilizados. La diferencia tiene que ver con los tipos de patrones que hay en los datos.

Los modelos de lenguaje aprenden primero mediante el preentrenamiento, un proceso que consiste en predecir la siguiente palabra en grandes cantidades de texto. A diferencia de los problemas tradicionales de aprendizaje automático, no hay etiquetas de «verdadero/falso» asociadas a cada afirmación. El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximarse a la distribución general. 

Es mucho más difícil distinguir las afirmaciones válidas de las no válidas cuando no se dispone de ejemplos etiquetados como no válidos. Pero, incluso con etiquetas, algunos errores son inevitables. Para entender por qué, consideremos una analogía más sencilla. En el reconocimiento de imágenes, si millones de fotos de gatos y perros se etiquetan como «gato» o «perro», los algoritmos pueden aprender a clasificarlas de forma fiable. Pero imagina que, en lugar de eso, etiquetaras cada foto por la fecha de nacimiento de la mascota. Dado que las fechas de nacimiento son siempre aleatorias, esta tarea siempre produciría errores, por muy avanzado que fuera el algoritmo.

El mismo principio se aplica al preentrenamiento. La ortografía y los paréntesis siguen patrones coherentes, por lo que los errores en estos aspectos desaparecen con la escala. Sin embargo, los hechos arbitrarios de baja frecuencia, como el cumpleaños de una mascota, no pueden predecirse solo a partir de patrones y, por lo tanto, provocan que el modelo se invente la información. En nuestro análisis explicamos qué tipos de información inventada deberían surgir de la predicción de la siguiente palabra. Lo ideal sería que las etapas posteriores al preentrenamiento la eliminaran, pero esto no se consigue del todo por las razones descritas en la sección anterior. 

Conclusiones

Esperamos que el enfoque estadístico de nuestro artículo aclare la naturaleza de la información inventada y refute algunos conceptos erróneos comunes:

  • Alegación: La información inventada se eliminará mejorando la precisión, ya que un modelo 100 % preciso nunca se inventa información.

    Conclusión:
    La precisión nunca alcanzará el 100 % porque, independientemente del tamaño del modelo y de las capacidades de búsqueda y razonamiento, algunas preguntas del mundo real son intrínsecamente imposibles de responder. 
  • Alegación: Es inevitable que los modelos se inventen información.

    Conclusión:
    No es cierto, porque los modelos de lenguaje pueden no dar una respuesta cuando no están seguros.
  • Alegación: Evitar que se inventen información requiere un grado de inteligencia que solo se puede alcanzar con modelos más grandes.

    Conclusión:
    Puede ser más fácil para un modelo pequeño conocer sus límites. Por ejemplo, cuando se le pide que responda a una pregunta en maorí, un modelo pequeño que no sabe nada de maorí puede decir simplemente «no lo sé», mientras que un modelo que sabe un poco de maorí tiene que determinar su nivel de confianza. Como se explica en el artículo, estar «calibrado» requiere mucho menos cálculo que ser preciso.
  • Alegación: Que los modelos se inventen cosas es un fallo misterioso de los modelos de lenguaje modernos.

    Conclusión:
    Entendemos los mecanismos estadísticos a través de los cuales los modelos inventan información y se les recompensa por ello en las evaluaciones.
  • Alegación: Para medir la información inventada, solo necesitamos una buena evaluación de la información inventada.

    Conclusión:
    Se han publicado evaluaciones de la información que se inventan los modelos. Sin embargo, una buena evaluación de la información inventada tiene poco efecto frente a cientos de evaluaciones tradicionales basadas en la precisión que penalizan la humildad y premian las conjeturas. En su lugar, todas las métricas de evaluación primarias deben reelaborarse para premiar las expresiones de incertidumbre.

Nuestros últimos modelos presentan índices de información inventada más bajos, y seguimos trabajando duro para seguir reduciendo los índices de errores seguros generados por nuestros modelos de lenguaje.

Colaboradores del anuncio

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel y Johannes Heidecke