Compartimos las últimas especificaciones del modelo
Hemos actualizado las especificaciones del modelo a partir de comentarios externos y de nuestras investigaciones continuas para orientar el comportamiento deseado del modelo.
Estamos compartiendo una actualización importante de las especificaciones del modelo, un documento que define cómo queremos que se comporten nuestros modelos de IA. Esta actualización refuerza nuestro compromiso con la personalización, la transparencia y la libertad intelectual de explorar, analizar y desarrollar con IA sin restricciones arbitrarias, y a la vez garantizar que se mantengan los límites para reducir el riesgo de daños reales. Se basa en los fundamentos que presentamos el pasado mes de mayo, a partir de nuestra experiencia de aplicación en contextos variados, desde la investigación sobre alineamiento hasta el servicio a usuarios de todo el mundo.
También estamos compartiendo algunos resultados preliminares sobre la adherencia del modelo a los principios de las especificaciones en una amplia variedad de escenarios. Estos hallazgos ponen de relieve los avances logrados a lo largo del tiempo, así como las áreas en las que aún podemos mejorar. Las especificaciones del modelo, al igual que nuestros modelos, seguirán evolucionando a medida que las apliquemos, las compartamos y escuchemos los comentarios de las partes interesadas. Para fomentar su uso generalizado y la colaboración, liberamos esta versión de las especificaciones en el dominio público mediante una licencia Creative Commons CC0. Esto significa que desarrolladores e investigadores pueden utilizarla, adaptarla y basarse en ellas libremente en su propio trabajo.
El objetivo de OpenAI es crear modelos que sean útiles, seguros y estén alineados con las necesidades de los usuarios y los desarrolladores, mientras avanzamos en nuestra misión de garantizar que la inteligencia artificial general beneficie a toda la humanidad. Para lograr este objetivo, debemos implementar modelos de forma iterativa que empoderen a los desarrolladores y a los usuarios, al mismo tiempo que evitamos que nuestros modelos provoquen daños graves a estos o a terceros, y mantenemos la licencia de OpenAI para operar.
Estos objetivos a veces pueden entrar en conflicto, por lo que las especificaciones del modelo equilibran las compensaciones entre ellos al indicarle al modelo que siga una cadena de mandoclaramente definida, junto con principios adicionales que establecen límites y comportamientos predeterminados para diversos escenarios. Este marco prioriza la capacidad de control de los usuarios y los desarrolladores, manteniéndose dentro de límites claros y bien definidos:
- Cadena de mando: Define cómo el modelo prioriza las instrucciones de las siguientes entidades, en este orden: primero OpenAI, después los desarrolladores que crean productos o servicios basados en el modelo, y por último los usuarios finales. La mayor parte de las especificaciones son lineamientos que consideramos útiles en muchos casos, pero que pueden ser invalidados por usuarios y desarrolladores. Esto les permite personalizar por completo el comportamiento del modelo dentro de los límites establecidos por las reglas a nivel de plataforma.
- Buscar la verdad en equipo A semejanza de un asistente humano de gran integridad, nuestros modelos deben empoderar a los usuarios para que tomen las decisiones que consideren mejores. Esto implica un equilibrio cuidadoso entre (1) evitar influir en los usuarios con una agenda, optando por la objetividad de forma predeterminada, y manteniendo la disposición a explorar cualquier tema desde cualquier perspectiva, y (2) esforzarse por comprender los objetivos del usuario, aclarar supuestos y detalles inciertos, y ofrecer comentarios críticos cuando sea apropiado. Esto responde a solicitudes que hemos recibido y sobre las que hemos implementado mejoras.
- Hacer el mejor trabajo posible: Establece estándares básicos de competencia, incluyendo la precisión fáctica, la creatividad y el uso programático.
- Mantenerse dentro de los límites: Explica cómo el modelo equilibra la autonomía del usuario con medidas preventivas para evitar facilitar daños o abusos. Esta nueva versión está concebida para ser integral y cubrir plenamente todas las razones por las que queremos que nuestros modelos rechacen solicitudes de usuarios o desarrolladores.
- Ser accesible: Describe el estilo conversacional predeterminado del modelo, que es cálido, empático y servicial, y la manera en que este estilo puede adaptarse.
- Utilizar un estilo apropiado: Proporciona una guía predeterminada sobre el formato y la forma de entrega. Ya sea mediante listas con viñetas bien organizadas, fragmentos de código concisos o una conversación por voz, nuestro objetivo es garantizar la claridad y la usabilidad.
Las especificaciones actualizadas del modelo abrazan la libertad intelectual de manera explícita. Sostienen la idea de que la IA debe empoderar a las personas para que exploren, debatan y creen sin restricciones arbitrarias, sin importar cuán desafiante o controvertido sea el tema. En un mundo donde las herramientas de IA están moldeando cada vez más el discurso, el libre intercambio de información y puntos de vista es indispensable para el progreso y la innovación.
Esta filosofía está incorporada en las secciones tituladas "Mantenerse dentro de los límites" y "Buscar la verdad en equipo". Por ejemplo, si bien el modelo jamás debería proporcionar instrucciones detalladas para fabricar una bomba o violar la privacidad de las personas, se lo alienta a brindar respuestas prudentes a cuestiones políticas o culturales sensibles, sin abogar por ninguna agenda en particular. En esencia, reforzamos el principio de que toda idea puede debatirse, siempre y cuando el modelo no cause un daño grave al usuario o a otras personas (por ejemplo, llevar a cabo actos de terrorismo).
Para comprender mejor el desempeño en la vida real, comenzamos a reunir un conjunto desafiante de solicitudes diseñadas para evaluar qué tan bien los modelos se adhieren a cada principio de las especificaciones del modelo. Dichas solicitudes se crearon mediante una combinación de contenido generado por el modelo y revisión de expertos humanos, asegurando la cobertura tanto de escenarios típicos como de otros más complejos.
Los resultados preliminares muestran mejoras significativas en la adherencia del modelo a las especificaciones, en comparación con el mejor sistema que teníamos en mayo pasado. Si bien una parte de esta diferencia puede atribuirse a las actualizaciones de políticas, creemos que la mayor parte se debe a un mejor alineamiento. Aunque el progreso es alentador, reconocemos que aún hay un margen importante para crecer.
Vemos esto como el comienzo de un proceso continuo. Tenemos pensado seguir ampliando nuestro conjunto de desafíos con nuevos ejemplos, en especial casos revelados a partir del uso en la vida real, que nuestros modelos y las especificaciones del modelo aún no logran abordar por completo.
Al delinear esta versión de las especificaciones del modelo, incorporamos comentarios sobre la primera versión, así como aprendizajes obtenidos de la investigación sobre alineamiento y de implementaciones en la vida real. En adelante, queremos incorporar un aporte mucho mayor por parte del público. Para desarrollar procesos con ese fin, hemos estado llevando a cabo estudios piloto con cerca de 1 000 personas, quienes revisaron el comportamiento del modelo, propusieron reglas y compartieron sus ideas. Si bien estos estudios aún no reflejan perspectivas amplias, las primeras impresiones informaron directamente algunas modificaciones. Reconocemos que se trata de un proceso continuo e iterativo, y seguimos comprometidos con aprender y perfeccionar nuestro enfoque.
Estamos dedicando esta nueva versión de las especificaciones del modelo al dominio público mediante una licencia de Creative Commons CC0. Esto significa que desarrolladores e investigadores pueden utilizarla, adaptarla o basarse en ellas libremente en su propio trabajo. También estamos liberando las solicitudes de evaluación que se utilizaron más arriba, y tenemos la intención de seguir publicando más código, artefactos y herramientas para la evaluación de las especificaciones y el alineamiento en el futuro.
Puedes encontrar estas solicitudes y la fuente de las especificaciones del modelo en un nuevo repositorio de GitHub(se abre en una nueva ventana), donde planeamos publicar regularmente nuevas versiones de las especificaciones del modelo a partir de ahora.
A medida que nuestros sistemas de IA avanzan, continuaremos iterando sobre estos principios, invitando a la comunidad a compartir sus comentarios y divulgando abiertamente nuestros avances. En adelante, no publicaremos entradas en el blog por cada actualización de las especificaciones del modelo. En su lugar, siempre podrás encontrar y seguir las actualizaciones más recientes en model-spec.openai.com(se abre en una nueva ventana).
Nuestro objetivo es habilitar continuamente nuevos casos de uso de manera segura, haciendo que nuestro enfoque evolucione guiado por la investigación y la innovación constantes. El papel cada vez mayor de la IA en nuestra vida cotidiana hace que el aprendizaje continuo, el perfeccionamiento y el compromiso abierto sean esenciales. Este enfoque refleja no solo lo que hemos aprendido hasta ahora, sino también nuestra convicción de que el alineamiento de la IA es un viaje permanente: un viaje en el que esperamos que te unas a nosotros. Si tienes comentarios sobre estas especificaciones, puedes compartirlosaquí.