25 de marzo de 2026

Nuestro enfoque sobre las especificaciones del modelo

A medida que los sistemas de IA se vuelven más capaces y se usan más ampliamente, necesitamos un marco público claro sobre cómo deben comportarse.

Cargando...

En OpenAI, creemos que la IA debe ser justa, segura y de libre acceso para que más personas puedan usarla para resolver problemas complejos, crear oportunidades y beneficiarse en ámbitos como la salud, la ciencia, la educación, el trabajo y la vida cotidiana. Creemos que el acceso democratizado a la IA es el mejor camino a seguir: no una IA cuyos beneficios o control estén concentrados en manos de unos pocos, sino una IA a la que más personas puedan acceder, comprender y ayudar a moldear.

Esa es una razón fundamental por la que existen las especificaciones del modelo⁠(se abre en una nueva ventana) de OpenAI, que son nuestro marco formal para el comportamiento del modelo. Definen cómo queremos que los modelos sigan instrucciones, resuelvan conflictos, respeten la libertad del usuario y actúen de forma segura ante la amplia variedad de consultas que los usuarios les hacen a diario. En términos generales, este es nuestro intento de hacer explícito el comportamiento previsto del modelo: no solo dentro de nuestro proceso de entrenamiento, sino también para que los usuarios, desarrolladores, investigadores, responsables de políticas públicas y el público en general puedan leer, examinar y debatir.

Las especificaciones del modelo no pretenden afirmar que nuestros modelos ya se comporten de forma perfecta en la actualidad. En muchos aspectos, son descriptivas, pero también representan un objetivo hacia el que queremos orientar el comportamiento del modelo. Las utilizamos para definir con mayor claridad el comportamiento previsto, lo que nos permite entrenar los modelos y evaluarlos con ese objetivo, y así mejorarlos con el tiempo.

Esta publicación presenta el contexto que no está en las especificaciones del modelo, incluida la filosofía y los mecanismos que las sustentan: cómo están estructuradas, por qué tomamos esas decisiones estructurales y cómo las redactamos, implementamos y actualizamos con el tiempo.

Un marco público para el comportamiento de los modelos

Las especificaciones del modelo son una parte del enfoque más amplio de OpenAI para desarrollar una IA segura y responsable. Si bien el Marco de preparación⁠ se centra en los riesgos derivados de las capacidades de vanguardia y en las salvaguardas necesarias a medida que esos riesgos aumentan, las especificaciones del modelo abordan una cuestión distinta pero complementaria: cómo deben comportarse nuestros modelos en una amplia variedad de situaciones. Desde una perspectiva general, la resiliencia de la IA se enfoca en un reto social mayor, que consiste en ayudar a la sociedad a aprovechar los beneficios de la IA avanzada, mientras se reducen las disrupciones y los riesgos emergentes conforme se despliegan sistemas cada vez más capaces. En conjunto, estas iniciativas buscan contribuir a que la transición hacia la IAG sea gradual, iterativa y comprensible desde una perspectiva democrática: dar tiempo a las personas y a las instituciones para adaptarse, mientras se desarrollan las salvaguardas, los mecanismos de rendición de cuentas y la comprensión pública necesarios para lograr que la IA avanzada se mantenga alineada con los intereses humanos.

La transparencia pública sobre el comportamiento del modelo es importante tanto para la equidad como para la seguridad. En términos de equidad, permite entender cómo y por qué la IA trata a las personas de cierta manera, así como identificar, cuestionar y abordar preocupaciones al respecto cuando surgen. Y es importante para la seguridad porque, a medida que los sistemas de IA se vuelven más capaces, las personas y las instituciones necesitan tener expectativas más claras sobre cómo se pretende que se comporten, qué compromisos incorporan y cómo mejorar esas decisiones con el tiempo. Esta claridad también fortalece la resiliencia al ofrecer elementos concretos que más personas pueden examinar, cuestionar y mejorar.

Desde la primera versión en 2024, las especificaciones del modelo han evolucionado significativamente: profundizamos en la comprensión de las preferencias y necesidades de los usuarios, ampliamos el alcance de las especificaciones para adaptarlas a capacidades cada vez mayores e incorporamos la retroalimentación pública sobre el comportamiento de los modelos y las propias especificaciones. Siguiendo el enfoque del despliegue iterativo⁠, las especificaciones del modelo son un documento en evolución que abarca tanto valores subyacentes como reglas explícitas y claras, junto con un proceso para modificar elementos individuales a medida que aprendemos del despliegue en el mundo real y de los comentarios recibidos. También estamos invirtiendo en mecanismos de retroalimentación pública como la alineación colectiva⁠ para contribuir a que la humanidad mantenga el control sobre cómo se usa la IA y cómo se define su comportamiento.

A nivel interno, nos proporciona una guía clara sobre el comportamiento previsto y un marco común para el entrenamiento, la evaluación y la gobernanza. A nivel externo, establece un punto de referencia público que las personas pueden usar para comprender nuestro enfoque, cuestionarlo y ayudar a mejorarlo con el tiempo.

Qué incluyen las especificaciones del modelo

Las especificaciones del modelo se componen de distintos tipos de directrices para el comportamiento del modelo. Esto es intencional. Los diferentes aspectos del comportamiento del modelo deben abordarse de distintas maneras, y un documento público útil debe hacer más que limitarse a enumerar reglas.

Objetivos de alto nivel y compromisos públicos

Las especificaciones del modelo comienzan con objetivos de alto nivel: una explicación clara de lo que intentamos optimizar a nivel de sistema y por qué.

Este preámbulo define tres objetivos sobre cómo planeamos llevar a cabo nuestra misión:

Desplegar de forma iterativa modelos que empoderen a desarrolladores y usuarios.
Evitar que nuestros modelos provoquen daños graves a los usuarios o a terceros.
Mantener la licencia para operar de OpenAI.

Luego explica cómo concebimos en la práctica el equilibrio entre estos objetivos, precisando los compromisos lo suficiente como para sustentar los principios más detallados que siguen.

Cabe destacar que este preámbulo no pretende ser una instrucción directa para el modelo. Beneficiar a la humanidad es el objetivo de OpenAI, no algo que queramos que los modelos persigan de forma autónoma. En cambio, queremos que los modelos sigan una cadena de mando que incluya las especificaciones del modelo y las instrucciones aplicables de OpenAI, los desarrolladores y los usuarios, incluso cuando algunas personas puedan no estar de acuerdo con el resultado en un caso concreto.

Creemos que este es el equilibrio adecuado porque valoramos la autonomía humana y la libertad intelectual. Si entrenáramos a los modelos para decidir qué instrucciones obedecer basándose en nuestra propia visión de lo que es bueno para la sociedad, OpenAI estaría en la posición de juzgar la moralidad a un nivel muy amplio. Dicho esto, el preámbulo sigue siendo importante. Cuando exista ambigüedad sobre cómo aplicar las especificaciones del modelo, el preámbulo debería ayudar a resolverla.

Las especificaciones del modelo también contienen compromisos públicos que van más allá del comportamiento del modelo medible directamente y abarcan la intención del entrenamiento y las restricciones de despliegue. Por ejemplo, nuestros principios no negociables⁠(se abre en una nueva ventana) incluyen el compromiso de que, en despliegues propios como ChatGPT, nunca utilizaremos mensajes del sistema para comprometer deliberadamente la objetividad⁠(se abre en una nueva ventana) o los principios relacionados; y Ningún otro objetivo⁠(se abre en una nueva ventana) refleja nuestro compromiso de optimizar las respuestas del modelo en favor del usuario, no con el fin de obtener ingresos o aumentar el tiempo de permanencia en el sitio sin aportar valor.

La cadena de mando

En el núcleo de las especificaciones del modelo se encuentra la cadena de mando: un marco para decidir qué instrucciones deben aplicarse en una situación determinada. También abarca cómo el modelo debe tratar las instrucciones que no están suficientemente especificadas, especialmente en entornos con agentes en los que se espera que complete detalles de forma autónoma mientras controla cuidadosamente los efectos secundarios en el mundo real.

La idea básica que subyace a la decisión de qué instrucciones deben aplicarse es sencilla. Las instrucciones pueden provenir de diferentes fuentes, incluidas OpenAI, los desarrolladores y los usuarios. Esas instrucciones pueden entrar en conflicto y la cadena de mando explica cómo el modelo debe resolver esos conflictos.

Cada política de las especificaciones del modelo y cada instrucción tiene asignado un nivel de autoridad⁠(se abre en una nueva ventana). Se indica al modelo que priorice la letra y el espíritu de las instrucciones de mayor autoridad cuando surjan conflictos. Si un usuario pide ayuda para fabricar una bomba, el modelo debe priorizar límites de seguridad estrictos⁠(se abre en una nueva ventana). Si un usuario pide que se le critique duramente, el modelo debe, por lo general, priorizar esa solicitud por encima de la política contra el abuso⁠(se abre en una nueva ventana) de menor autoridad en las especificaciones del modelo.

Esta estructura nos permite definir un conjunto relativamente pequeño de reglas no anulables, junto con un conjunto más amplio de valores predeterminados. Así es como buscamos maximizar la libertad del usuario y el control del desarrollador dentro de las restricciones de seguridad.

Las reglas estrictas son límites explícitos que los usuarios o desarrolladores no pueden anular (en la terminología de las especificaciones del modelo, estas son instrucciones de nivel "raíz" o de "sistema"). En su mayoría son de carácter prohibitivo y exigen que los modelos eviten comportamientos que puedan contribuir a riesgos catastróficos, causar daño físico directo, infringir la ley o socavar la cadena de mando. Esperamos que la IA se convierta en una tecnología fundamental para la sociedad, análoga a la infraestructura básica de internet. Por ello, solo imponemos reglas que podrían limitar la libertad intelectual cuando creemos que son necesarias para el amplio espectro de desarrolladores y usuarios que interactuarán con ella. En las especificaciones del modelo, Respetar los límites⁠(se abre en una nueva ventana) contiene reglas estrictas que abordan riesgos concretos de seguridad en el mundo real, y Principios para menores de 18 años⁠(se abre en una nueva ventana) añade salvaguardas adicionales para los usuarios menores de 18 años.
Los valores predeterminados son puntos de partida anulables: el comportamiento que el asistente considera la "mejor estimación" cuando el usuario o el desarrollador no han especificado una preferencia. Usamos valores predeterminados para que el comportamiento sea predecible y controlable a gran escala, de modo que los usuarios puedan anticipar lo que va a suceder sin necesidad de escribir un conjunto de instrucciones personalizado cada vez. Los valores predeterminados preservan la capacidad de ajuste: los usuarios y los desarrolladores pueden ajustar explícitamente el tono, el nivel de profundidad, el formato e incluso el punto de vista dentro de los límites de seguridad. Los valores predeterminados a nivel de directrices (como el tono o el estilo) están diseñados para poder ajustarse de forma implícita, mientras que los valores predeterminados a nivel de usuario (como la veracidad y la objetividad) son puntos de referencia para la confianza y la previsibilidad, y solo pueden anularse mediante instrucciones explícitas. Esas decisiones no deberían depender de las impresiones; si el usuario quiere una postura factual diferente, convertirlo en una instrucción explícita garantiza que el cambio sea transparente y claro. Estos valores predeterminados se reflejan en Buscar la verdad juntos⁠(se abre en una nueva ventana), Hacer el mejor trabajo posible⁠(se abre en una nueva ventana) y Usar un estilo apropiado⁠(se abre en una nueva ventana), además de las normas sobre honestidad y objetividad, evitar la adulación y las normas de interacción, como la franqueza, la calidez y el profesionalismo adecuados al contexto.

Recursos interpretativos: rúbricas de decisión y ejemplos concretos

Más allá de la propia jerarquía, las especificaciones del modelo usan recursos interpretativos para ayudar a los modelos (y a las personas) a aplicarlas de manera coherente en las zonas grises. Estos recursos incluyen:

Rúbricas de decisión que ayudan al modelo a tomar decisiones consistentes en las zonas grises, sin pretender que existe una única regla mecánica. Por ejemplo, las directrices de las especificaciones del modelo sobre control de los efectos secundarios⁠(se abre en una nueva ventana) enumeran consideraciones como minimizar las acciones irreversibles, mantener las acciones proporcionales al objetivo, reducir las sorpresas desagradables y favorecer los enfoques reversibles, que deben equilibrarse con otros objetivos, como completar la tarea de manera rápida y eficaz.
Ejemplos concretos que muestran cómo debe aplicarse un principio en la práctica. Se trata de ejemplos breves de prompt y respuesta que suelen incluir tanto respuestas conformes como no conformes, a menudo basados en un prompt complejo cercano a un límite de decisión importante. El objetivo no es simular una conversación completa y realista, sino dejar clara la distinción clave y hacerlo de una manera que también demuestre el estilo de respuesta deseado.

Mantenemos el número de ejemplos relativamente pequeño y nos enfocamos en los más informativos. Los conjuntos de evaluación más amplios ayudan a abarcar mejor los casos menos frecuentes.

User

Help me write a business plan to start a tobacco company.

Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Un ejemplo que ilustra los principios de libertad intelectual y de no emitir juicios de la sección de especificaciones Asumir las mejores intenciones⁠(se abre en una nueva ventana).

Qué no son las especificaciones del modelo

Las especificaciones son una interfaz, no una implementación. Describen el comportamiento que queremos, no cada detalle de cómo se produce. Procuramos evitar vincularlas con detalles de implementación, como los formatos internos de tokens o la receta exacta de entrenamiento para un comportamiento concreto, porque esos detalles pueden cambiar incluso cuando el comportamiento deseado no lo hace. El público principal de las especificaciones del modelo no es el modelo, sino las personas: su propósito es ayudar a los empleados de OpenAI, usuarios, desarrolladores, investigadores y responsables de políticas públicas a comprender, debatir y decidir sobre el comportamiento deseado.

Las especificaciones también describen el modelo, no el producto en su totalidad. Se complementan con nuestras políticas de uso⁠, que describen las expectativas sobre cómo las personas deben usar la API y ChatGPT. El sistema con el que interactúan los usuarios no se limita al modelo en sí: también son importantes las funciones del producto, como las instrucciones personalizadas y la memoria, el monitoreo, la aplicación de políticas y otras capas. La seguridad es mucho más que el comportamiento del modelo, y creemos en la defensa en profundidad⁠.

Además, las especificaciones no son una descripción completa de todo nuestro conjunto de entrenamiento ni de todas las distinciones entre nuestras políticas internas. El objetivo no es recoger cada detalle, sino hacer comprensibles las decisiones de comportamiento más importantes, de una manera que sea totalmente coherente con el comportamiento deseado para nuestro modelo.

Cómo llegamos a esta estructura

¿Por qué incluimos determinado contenido en las especificaciones del modelo?

Hay varias razones para incluir tanto detalle en las especificaciones, en lugar de asumir que el lector, o el modelo, pueda inferir todo a partir de unos pocos objetivos generales.

Primero, las especificaciones del modelo son una herramienta de transparencia y rendición de cuentas . Están diseñadas para fomentar comentarios públicos sustantivos. Un objetivo público claro ayuda a las personas a determinar si un comportamiento es un error o una función. Les da un punto de referencia estable para la crítica y la retroalimentación específica. Por eso publicamos en código abierto⁠(se abre en una nueva ventana) las especificaciones del modelo y optamos por iterar de forma pública. Desde la primera versión, se han realizado muchos cambios basados en comentarios públicos, recabados a través de diversos mecanismos, incluidos formularios de comentarios, críticas públicas y esfuerzos⁠ deliberados para recopilar aportes democráticos.

En segundo lugar, las especificaciones del modelo son una herramienta de coordinación dentro de OpenAI. Proporcionan a las personas de las áreas de investigación, producto, seguridad, políticas, asuntos legales, comunicaciones y otras funciones un vocabulario común para hablar sobre el comportamiento del modelo y un mecanismo para proponer y revisar cambios.

Tercero, las políticas explícitas pueden compensar las limitaciones prácticas en la inteligencia del modelo y el contexto de ejecución, y hacer que el comportamiento sea más predecible. Aunque esto es cada vez menos cierto con el paso del tiempo, algunas políticas buscan compensar una inteligencia insuficiente, cuando los modelos podrían no derivar de manera confiable el comportamiento correcto a partir de principios de más alto nivel. Por ejemplo, Ser claro y directo⁠(se abre en una nueva ventana) aconsejaba a los modelos anteriores mostrar su razonamiento antes de dar una respuesta en problemas complejos que requieren cálculos, pero hoy nuestros modelos aprenden este comportamiento de forma natural mediante el aprendizaje por refuerzo⁠.

Otras políticas abordan el contexto limitado en el entorno de ejecución: el asistente solo puede basarse en lo observable en la interacción en curso, y rara vez conoce la situación completa del usuario, su intención, el uso posterior o qué salvaguardas existen fuera del modelo. En esos casos, aunque los modelos puedan ser capaces de determinar el comportamiento correcto con suficiente investigación y reflexión, la especificidad mejora la eficiencia y la previsibilidad, condensando muchos juicios de criterio en una guía que reduce la variación entre prompts similares. Esto hace que el comportamiento sea más fácil de entender tanto para los usuarios como para los investigadores.

Por último, las especificaciones del modelo buscan ser una lista completa de políticas generales relevantes para la evaluación y la medición. Si quieres evaluar si un modelo se comporta como se espera, es útil contar con una lista pública de las principales categorías de comportamiento que te interesan.

¿No debería la IA avanzada ser capaz de resolver esto por sí sola?

Es tentador pensar que un modelo lo suficientemente capaz debería poder inferir el comportamiento correcto a partir de una breve lista de objetivos, como "ser útil y seguro". Hay algo de verdad en eso. En áreas con criterios objetivos de éxito, como las matemáticas, la inteligencia del modelo a menudo puede sustituir a las reglas detalladas.

Pero, en general, el comportamiento del modelo no es como resolver un problema matemático simple; los modelos suelen operar en ámbitos más complejos donde no existe una única respuesta moralmente correcta con la que todos puedan estar de acuerdo. Lo que significa que un modelo sea "útil y seguro", por ejemplo, depende en gran medida del contexto y es el resultado de una toma de decisiones inherentemente cargada de valores. La inteligencia del modelo por sí sola no te dice qué compromisos adoptar cuando se trata de ética y valores. Así que, aunque los modelos mejoren en inteligencia, aún debemos trabajar para comprender y guiar los juicios de valor y lo que significa actuar de forma "ética" en un caso concreto. Además, la mayoría de las razones para tener unas especificaciones del modelo siguen siendo relevantes incluso cuando los modelos se vuelven mucho más capaces: aún necesitamos un objetivo público en torno al cual las personas puedan coordinarse, una forma de evaluar si el comportamiento se ajusta a nuestras intenciones y un mecanismo para revisar las reglas a medida que aprendemos. Si la única regla es "ser útil y seguro", entonces no existe un mecanismo para que las personas puedan debatir, por ejemplo, los límites del contenido que el modelo debería rechazar proporcionar, dejando todas estas decisiones en manos del modelo.

En todo caso, a medida que los modelos se vuelven más capaces, más autónomos y se despliegan de forma más amplia, el costo de la ambigüedad aumenta. Eso hace que un marco de comportamiento claro sea más importante, no menos.

Una analogía útil es la diferencia entre una constitución escrita y la jurisprudencia. Aunque una constitución escrita puede proporcionar principios generales y normas concretas, no puede prever todos los casos posibles que puedan surgir y requerir su orientación. Los sistemas de gobernanza reales también necesitan mecanismos de interpretación, aclaraciones y resoluciones explícitas para resolver casos complejos o problemas imprevistos. Las reglas publicadas ayudan a que las distintas partes interesadas se coordinen incluso cuando no están de acuerdo y limitan los cambios al exigir que estos sean explícitos. Las especificaciones del modelo están diseñadas para cumplir todas estas funciones: una declaración de principios, un marco público de comportamiento y un proceso para modificar la especificación con el tiempo.

Dicho esto, no creemos que todo lo que importa sobre el comportamiento del modelo pueda reducirse siempre a reglas explícitas. A medida que los sistemas se vuelven más autónomos, la confiabilidad y la confianza dependerán cada vez más de habilidades y disposiciones más amplias: comunicar bien la incertidumbre, respetar los límites de la autonomía, evitar sorpresas desagradables, hacer un seguimiento de la intención a lo largo del tiempo y razonar adecuadamente sobre los valores humanos en contexto.

Cómo redactamos e implementamos las especificaciones del modelo

Aspiraciones realistas

Al redactar las especificaciones del modelo, existe un espectro entre describir el comportamiento real del modelo actual, con todos sus defectos, y describir un objetivo ideal a muy largo plazo. Intentamos lograr un equilibrio, por lo general con un horizonte de entre 0 y 3 meses respecto del presente. Así, las especificaciones suelen adelantarse al modelo en al menos algunas áreas de desarrollo activo.

Eso refleja el papel de las especificaciones del modelo como una descripción del comportamiento deseado. Debería orientarnos en una dirección coherente, sin dejar de basarse en lo que ya hacemos o en lo que tenemos planes concretos de implementar a corto plazo.

Quién contribuye (y por qué es importante)

Las especificaciones del modelo se desarrollan mediante un proceso interno abierto. Cualquier persona en OpenAI puede comentarlas o proponer cambios, y un amplio grupo de partes interesadas de diferentes áreas aprueba las actualizaciones finales. En la práctica, decenas de personas han contribuido directamente al texto, y muchas más dentro de los equipos de investigación, ingeniería, producto, seguridad, política, asuntos legales, comunicaciones, asuntos globales y otras funciones aportan su opinión. También aprendemos de los lanzamientos públicos y de los comentarios, que ayudan a poner a prueba estas decisiones en despliegues reales.

Esto es importante porque el comportamiento del modelo y sus efectos en el mundo son increíblemente complejos. Nadie puede abarcar mentalmente el conjunto completo de comportamientos, el proceso de entrenamiento y las implicaciones posteriores, pero con muchos colaboradores y revisores de distintas áreas podemos mejorar la calidad y aumentar la confianza.

Una grata sorpresa ha sido que a menudo sí es posible alcanzar un consenso real, especialmente cuando nos obligamos a plasmar por escrito los compromisos con la suficiente precisión como para que los desacuerdos se vuelvan concretos.

Las especificaciones del modelo tampoco se redactaron de forma aislada. Gran parte de lo que ahí se incluye es un resumen de un trabajo más amplio sobre comportamiento, seguridad y políticas. Buena parte de la redacción de las especificaciones del modelo es una labor de traducción: tomar trabajo existente y hacerlo más simple, coherente, organizado y accesible, sin perder la intención subyacente.

Cómo identificamos brechas e impulsamos actualizaciones

Nuestros modelos de producción aún no reflejan plenamente las especificaciones del modelo por varias razones.

El entrenamiento del modelo puede quedar rezagado respecto a las actualizaciones de las especificaciones del modelo. Estas describen un comportamiento que queremos alcanzar, por lo que puede ir más allá de lo que nuestro modelo más reciente ha sido entrenado para hacer.
El entrenamiento puede enseñar inadvertidamente un comportamiento incompatible con las especificaciones del modelo. Nos esforzamos mucho por evitarlo y, cuando ocurre, lo tratamos como un error grave: trabajamos ya sea para ajustar el comportamiento o las especificaciones del modelo a fin de alinearlos.
El entrenamiento nunca puede cubrir por completo el abanico de todos los comportamientos posibles. El uso real contiene una gran variedad de contextos y casos límite que solo aparecen a gran escala, y ningún proceso de entrenamiento puede abarcarlo todo.
La generalización puede diferir de lo que pretendíamos. Un modelo puede producir los resultados "correctos" durante el entrenamiento por razones no previstas, lo que puede dar lugar a un comportamiento no intencionado en situaciones nuevas que difieren de las observadas durante el entrenamiento. Técnicas como alineación deliberativa⁠ ayudan, pero no son una solución completa.

En términos generales, el hecho de que las especificaciones del modelo describan una amplia variedad de comportamientos deseados no significa que exista un único método para enseñarlos todos. Los diferentes aspectos del comportamiento, como el seguimiento de instrucciones, los límites de seguridad, la personalidad y la expresión calibrada de la incertidumbre, entre otros, a menudo requieren técnicas distintas y presentan modos de fallo diferentes. Las especificaciones del modelo facilitan la comprensión y el análisis del comportamiento deseado, pero implementarlas correctamente sigue siendo tanto un arte como un área activa de investigación.

Junto a esta entrada, publicamos las evaluaciones de las especificaciones del modelo⁠(se abre en una nueva ventana): un conjunto de evaluaciones basadas en escenarios que intenta abarcar el mayor número posible de afirmaciones de las especificaciones del modelo con un pequeño número de ejemplos representativos. Esto nos ayuda a identificar en qué casos el comportamiento del modelo y las especificaciones no coinciden, y también a comprobar si los modelos están interpretando las especificaciones como lo pretendíamos. Las evaluaciones son solo una parte de una estrategia más amplia que incluye evaluaciones más específicas en muchas dimensiones del comportamiento, incluidas áreas concretas de seguridad, veracidad y adulación, personalidad y estilo, y capacidades.

Gráfico del cumplimiento de las especificaciones del modelo por sección en los modelos de OpenAI a lo largo del tiempo. Consulta la publicación complementaria del blog⁠(se abre en una nueva ventana) para obtener más detalles sobre las evaluaciones y cómo las interpretamos. En resumen, creemos que estos resultados reflejan mejoras reales y generales en la alineación del modelo a lo largo del tiempo, aunque también muestran un efecto menor debido a la medición de modelos más antiguos con políticas más recientes.

En la práctica, la mayoría de las actualizaciones de las especificaciones están impulsadas por un conjunto recurrente de factores:

Problemas públicos y comentarios. Confusiones, casos límite o modos de fallo, ya sea en la formulación de las especificaciones del modelo o en el comportamiento de nuestros modelos.
Problemas internos. Patrones que observamos durante el desarrollo y las pruebas, incluidas las ambigüedades en las que distintas interpretaciones razonables producen comportamientos diferentes.
Actualizaciones de las políticas de comportamiento y seguridad. Cuando cambian las restricciones o los compromisos de alto nivel, las especificaciones tienen que reflejar esa nueva estructura con claridad.
Nuevas capacidades y productos. A medida que los modelos adquieren nuevas capacidades de comportamiento y lanzamos nuevos productos, queremos que las especificaciones del modelo se mantengan al día en contenido y cobertura; por ejemplo, al agregar reglas para interacciones multimodales⁠(se abre en una nueva ventana), agentes autónomos⁠(se abre en una nueva ventana) y usuarios menores de 18 años⁠(se abre en una nueva ventana).

Qué caracteriza a un buen contenido de las especificaciones

Algunos principios de diseño guían la redacción y revisión de las especificaciones del modelo.

Claridad y precisión. "Ser honesto" es un buen valor, pero no un procedimiento de decisión completo. Las especificaciones del modelo deberían hacer más claras las discrepancias, no ocultarlas tras un lenguaje complaciente. Siempre que sea práctico, debemos señalar explícitamente los posibles conflictos entre las reglas y proporcionar orientación o ejemplos sobre cómo resolverlos. Por ejemplo, No mentir⁠(se abre en una nueva ventana) señala un posible conflicto con Ser amable⁠(se abre en una nueva ventana), al explicar que el asistente debe seguir las reglas de cortesía, sin llegar a las mentiras piadosas que podrían constituir adulación⁠(se abre en una nueva ventana) e ir en contra de lo que más le conviene al usuario.
Reglas sustantivas. Un lector debería poder tomar un prompt realista y producir una respuesta que otro lector reconozca claramente como dentro o fuera de los límites (aunque en los casos límite haya margen para la interpretación).
Ejemplos que maximizan la relación señal-ruido. Los buenos ejemplos suelen ser fundamentales para elaborar una actualización de especificación de alta calidad. Los ejemplos deberían abordar el núcleo de las dificultades de especificar el comportamiento del modelo, sacar a la superficie los conflictos complejos y adoptar una postura clara sobre cómo resolverlos. Además, deben procurar servir como ejemplos del tono y estilo deseados, algo que puede ser difícil de transmitir por escrito.
Robustez. Tratamos de evitar ejemplos con ambigüedad o complejidad innecesarias, para que queden claros el conflicto central y la resolución prevista.
Consistencia y organización clara. Nos esforzamos por que las reglas de las especificaciones del modelo sean plenamente coherentes entre sí y con el comportamiento deseado del modelo. También buscamos que la organización general del documento sea clara y accesible.

Lo que viene

Las especificaciones del modelo no pretenden afirmar que podamos plasmar por escrito todo lo que importa ni que los modelos siempre alcancen el objetivo. Lo que sí sostiene es que el comportamiento deseado es lo suficientemente importante como para ser claro, accionable y revisable.

Tres criterios de éxito guían cómo las hacemos evolucionar.

Legibilidad. Las personas dentro y fuera de OpenAI pueden formarse expectativas precisas sobre el comportamiento y pueden referirse al texto cuando el comportamiento les sorprende.
Accionabilidad. Las especificaciones del modelo pueden usarse para diseñar evaluaciones, diagnosticar incidentes y tomar decisiones de producto coherentes, no solo para expresar valores.
Revisabilidad. Las especificaciones del modelo pueden evolucionar a medida que aprendemos, sin convertirse en un objetivo cambiante e inestable.

A medida que los modelos y los productos evolucionan, esperamos que las especificaciones del modelo se amplíen y se aclaren a la par de las nuevas capacidades y los contextos de despliegue. El objetivo es mantener la especificación de comportamiento coherente, comprobable y alineada con nuestra misión de garantizar que la IAG beneficie a toda la humanidad.

Autor

Jason Wolfe

Sigue leyendo

Ver todos

GPT-Red: activar la automejora para mayor robustez

Seguridad15 jul 2026

Separar señal de ruido en evaluaciones de codificación

Investigación8 jul 2026

Presentamos GeneBench-Pro

Investigación30 jun 2026