12 de septiembre de 2024

Descubre OpenAI o1‑preview

Una nueva serie de modelos con capacidad de razonamiento para resolver problemas difíciles. Ya disponible.

Cargando…

Actualizado el 17 de septiembre de 2024: actualmente, los límites se han ajustado a 50 preguntas a la semana para o1‑preview y 50 preguntas al día para o1‑mini.

Hemos desarrollado una nueva serie de modelos de IA diseñados para que piensen durante más tiempo antes de responder. Pueden razonar al realizar tareas complejas y también pueden resolver problemas más difíciles sobre ciencia, programación y matemáticas, en comparación con modelos anteriores.

En la actualidad, estamos lanzando el primer modelo de esta serie en ChatGPT y nuestra API. Esta versión es una vista previa y se esperan mejoras y actualizaciones con regularidad. Junto a este lanzamiento, también incluimos evaluaciones para la próxima actualización, que está en proceso de desarrollo.

¿Cómo funciona?

Hemos entrenado a estos modelos para que se tomen más tiempo para pensar los problemas antes de responder, tal como haría una persona. Gracias al entrenamiento, aprenden a refinar su proceso de razonamiento, prueban estrategias diferentes e incluso reconocen sus propios errores.

En nuestras pruebas, la próxima actualización del modelo ofrece resultados similares a los de estudiantes de doctorado al presentarles problemas sobre física, química y biología. También hemos detectado un rendimiento extraordinario en matemáticas y programación. En un examen para acceder a la Olimpiada Internacional de Matemáticas (OIM), GPT‑4o solo respondió correctamente un 13 % de los problemas, mientras que el modelo de razonamiento obtuvo una puntuación del 83 %. Sus capacidades para programar se evaluaron en concursos y alcanzaron el percentil 89 del concurso Codeforces. Puedes encontrar más información sobre esto en nuestra publicación de investigación técnica.

Como se trata de las primeras versiones del modelo, todavía no dispone de muchas de las funcionalidades prácticas que incluye ChatGPT, como buscar información en la web y subir documentos o imágenes. En muchos casos comunes, GPT‑4o mejorará sus capacidades en un futuro próximo.

Sin embargo, para tareas de razonamiento más complejas, este modelo ya supone un avance significativo y sienta un nuevo precedente en cuanto a las capacidades de la IA. Por este motivo, hemos decidido reiniciar el contador y denominar esta serie OpenAI o1.

Seguridad

Como parte del desarrollo de estos nuevos modelos, hemos ideado un nuevo enfoque de entrenamiento en seguridad que refuerza sus capacidades de razonamiento para que se adhieran a las directrices de alineación y seguridad. Al ser capaces de razonar sobre nuestras normas de seguridad en contexto, las pueden aplicar de forma más eficiente.

Una forma con la que medimos la seguridad es comprobando cómo de bien el modelo sigue respetando las normas de seguridad cuando un usuario intenta infringirlas (lo que se conoce como jailbreak). En una de nuestras pruebas de jailbreak más difíciles, GPT‑4o obtuvo una puntuación de 22 (en una escala de 0 a 100), mientras que el modelo o1‑preview obtuvo un 84. Puedes encontrar más información sobre esto en la tarjeta del sistema y en nuestra publicación de investigación.

Para estar a la altura de las nuevas capacidades de estos modelos, hemos reforzado nuestros esfuerzos en seguridad y gobernanza interna, además de la colaboración con el gobierno federal. Esto implica llevar a cabo pruebas y evaluaciones rigurosas con nuestro marco de preparación⁠(se abre en una ventana nueva), un equipo rojo de primera y procesos de revisión a nivel de dirección, lo que incluye a nuestro Comité de Seguridad.

Para avanzar en nuestro compromiso con la seguridad de la IA, hemos formalizado acuerdos con los institutos de seguridad de la IA en los Estados Unidos y el Reino Unido, y ya hemos empezado a poner en funcionamiento dichos acuerdos, que incluyen el acceso anticipado a una versión de investigación de este modelo. Este ha sido un primer paso importante en nuestra colaboración que nos ha ayudado a establecer un procedimiento para investigar, evaluar y hacer pruebas en los modelos futuros, tanto antes como después del lanzamiento oficial.

¿A quién va dirigido?

Estas capacidades de razonamiento avanzadas pueden ser especialmente útiles si necesitas resolver problemas complejos sobre ciencia, programación, matemáticas o campos similares. Por ejemplo, los investigadores clínicos pueden usar o1 para anotar datos sobre la secuenciación de células; los físicos, para generar fórmulas matemáticas complejas necesarias en óptica cuántica; y los desarrolladores de cualquier campo, para crear y ejecutar flujos de trabajo de múltiples pasos.

OpenAI o1-mini

La serie o1 destaca a la hora de generar y depurar código complejo de forma precisa. Para ofrecer una solución más eficiente para los desarrolladores, también presentamos OpenAI o1‑mini, un modelo de razonamiento más rápido y económico, y especialmente útil para programar. Como se trata de un modelo más reducido, o1‑mini es un 80 % más barato que o1‑preview, lo que lo convierte en un modelo potente y rentable para aplicaciones que requieren razonamiento pero no necesitan un amplio conocimiento general.

¿Cómo funciona OpenAI o1?

Los usuarios de ChatGPT Plus y Team tendrán acceso a los modelos o1 en ChatGPT desde hoy. Tanto o1‑preview como o1‑mini pueden seleccionarse manualmente en el selector de modelos, y al principio los límites semanales serán de 30 mensajes para o1‑preview y 50 para o1‑mini. Estamos trabajando para aumentar estos límites y permitir que ChatGPT elija automáticamente el modelo adecuado para un prompt dado.

Imagen del nuevo menú desplegable de ChatGPT que muestra la nueva opción «o1-preview» sobre un fondo abstracto azul y amarillo.

Los usuarios de ChatGPT Enterprise y Edu obtendrán acceso a ambos modelos a principios de la semana que viene.

Los desarrolladores elegibles para usar el nivel 5 de la API⁠(se abre en una ventana nueva) pueden empezar a crear prototipos con ambos modelos en la API desde hoy, con un límite de 20 RPM. Estamos trabajando para aumentar estos límites después de las pruebas adicionales. Actualmente, la API para estos modelos no incluye las funciones de llamada, streaming, ayuda para mensajes del sistema ni otras funcionalidades. Para empezar, echa un vistazo a la documentación de la API⁠(se abre en una ventana nueva).

También tenemos pensado ofrecer acceso a o1‑mini a todos los usuarios gratuitos de ChatGPT.

¿Cuáles son las perspectivas de futuro?

Esta versión es una de las primeras vistas previas de estos modelos con capacidad de razonamiento en ChatGPT y la API. Además de las actualizaciones del modelo, esperamos añadir las funciones de búsqueda y carga de documentos e imágenes, así como de otras funciones que harán esta versión más útil y práctica para todos sus usuarios.

También tenemos pensado seguir desarrollando y presentando modelos de nuestra serie GPT, además de la nueva serie OpenAI o1.

Autores

OpenAI