12 de septiembre de 2024

Presentamos OpenAI o1‑preview

Una nueva serie de modelos de razonamiento para resolver problemas difíciles. Disponible ahora.

Cargando...

Actualizado el 17 de septiembre de 2024: los límites son ahora 50 consultas a la semana para o1‑preview y 50 consultas al día para o1‑mini.

Hemos desarrollado una nueva serie de modelos de IA diseñados para que dediquen más tiempo a pensar antes de responder. Pueden razonar a través de tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencias, programación y matemáticas.

Hoy estamos lanzando la primera de estas series en ChatGPT y en nuestra API. Este es un avance y esperamos actualizaciones y mejorar de forma regular. Junto con este lanzamiento, también estamos incluyendo evaluaciones para la siguiente actualización, la cual se encuentra actualmente en desarrollo.

¿Cómo funciona?

Entrenamos estos modelos para que pasen más tiempo pensando en los problemas antes de que respondan, igual que una persona lo haría. A través del entrenamiento, los modelos aprenden a refinar su proceso de pensamiento, prueban diferentes estrategias y reconocen sus errores.

En nuestras pruebas, la siguiente actualización del modelo tiene un rendimiento similar al de estudiantes de doctorado en tareas de referencia desafiantes en física, química y biología. También descubrimos que sobresale en matemáticas y programación. En un examen de calificación para la Olimpiada Internacional de Matemáticas (IMO, por sus siglas en inglés), GPT‑4o resolvió correctamente solo el 13 % de los problemas, mientras que el modelo de razonamiento obtuvo una calificación de 83 %. Sus capacidades de programación se evaluaron en concursos y alcanzaron el percentil 89 en competencias de Codeforces. Puedes leer más sobre esto en nuestra publicación de investigación técnica.

Como uno de los primeros modelos, aún no cuenta con muchas de las funciones que hacen que ChatGPT sea útil, como navegar en Internet por la información y cargar archivos e imágenes. Para muchos casos comunes, GPT‑4o será más capaz en el corto plazo.

Pero para tareas de razonamiento complejas, este es un avance significativo y representa un nuevo nivel en las capacidades de la IA. Dado lo anterior, estamos reiniciando el contador al número 1 y llamando a esta serie o1 de OpenAI.

Seguridad

Como parte del desarrollo de estos nuevos modelos, hemos diseñado un nuevo método de entrenamiento en seguridad que aprovecha sus capacidades de razonamiento para hacer que cumplan los lineamientos de seguridad y alineación. Al ser capaz de razonar sobre nuestras reglas de seguridad dentro de un contexto, el modelo puede aplicarlas de forma más efectiva.

Una manera en la que medimos la seguridad es probando qué tan bien nuestro modelo sigue sus reglas de seguridad si un usuario trata de eludirlas (conocido como “jailbreaking”). En una de nuestras pruebas de jailbreaking más difíciles, GPT‑4o tuvo una calificación de 22 (en una escala del 0 al 100), mientras que nuestro modelo o1‑preview tuvo una calificación de 84. Puedes leer más sobre esto en la tarjeta del sistema y en nuestra publicación de investigación.

Para ajustarnos a las nuevas capacidades de estos modelos, hemos reforzado nuestro trabajo en seguridad, gobernanza interna y la colaboración con el gobierno federal. Esto incluye pruebas y evaluaciones rigurosas utilizando nuestro Marco de Preparación⁠(se abre en una nueva ventana), el mejor proceso de equipo rojo en su clase y procesos de revisión a nivel directivo, incluyendo nuestro Comité de Seguridad y Protección.

Para avanzar en nuestro compromiso con la seguridad de la IA, recientemente formalizamos acuerdos con los EE. UU. y el Reino Unido. Institutos de Seguridad de la IA. Hemos empezado a poner en práctica estos acuerdos, incluyendo el brindar a los institutos acceso anticipado a una versión de investigación de este modelo. Este fue un primer paso importante en nuestra colaboración, ayudando a establecer un proceso para la investigación, evaluación y pruebas de futuros modelos antes y después de su lanzamiento al público.

¿Para quién es?

Estas capacidades de razonamiento mejoradas pueden ser particularmente útiles si te enfrentas a problemas complejos en ciencias, programación, matemáticas y ámbitos similares. Por ejemplo, o1 puede ser utilizado por investigadores en salud para comentar sobre los datos de secuenciación celular, por físicos para generar fórmulas matemáticas complejas necesarias para la óptica cuántica y por desarrolladores en todos los campos para construir y ejecutar flujos de trabajo con múltiples pasos.

OpenAI o1-mini

La serie o1 sobresale en la generación y corrección precisas de códigos complejos. Para ofrecer una solución más eficiente para desarrolladores, también estamos lanzando o1‑mini de OpenAI, un modelo de razonamiento más rápido y económico que es particularmente efectivo en programación. Un modelo más pequeño, o1‑mini es 80 % más económico que o1‑preview, convirtiéndolo en un modelo poderoso y rentable para aplicaciones que requieren de razonamiento pero no de un conocimiento amplio del mundo.

¿Cómo usar o1 de OpenAI?

Los usuarios de ChatGPT Plus y Team podrán acceder a los modelos o1 en ChatGPT a partir de hoy. Tanto o1‑preview como o1‑mini pueden seleccionarse de forma manual en el selector de modelo y, después del lanzamiento, los límites semanales serán de 30 mensajes para o1‑preview y 50 para o1‑mini. Estamos trabajando para aumentar dichos límites y permitir que ChatGPT elija automáticamente el modelo indicado para una instrucción determinada.

Una imagen del nuevo menú desplegable de ChatGPT que muestra la opción del nuevo modelo “o1-preview” sobre un fondo abstracto en colores amarillo y azul brillantes

Los usuarios de ChatGPT Enterprise y Edu tendrán acceso a ambos modelos a partir de la próxima semana.

Los desarrolladores elegibles para el nivel 5 de uso de la API⁠(se abre en una nueva ventana) pueden empezar a hacer prototipos con ambos modelos en la API hoy mismo, con un límite de 20 RPM. Estamos trabajando para incrementar estos límites después de realizar pruebas adicionales. Actualmente, la API para estos modelos no incluye la llamada de funciones, streaming, soporte para mensajes del sistema, además de otras funciones. Para empezar, consulta la documentación de la API⁠(se abre en una nueva ventana).

También planeamos dar acceso a o1‑mini a todos los usuarios gratuitos de ChatGPT.

¿Qué sigue?

Este es un primer avance de estos nuevos modelos de razonamiento en ChatGPT y la API. Además de las actualizaciones de los modelos, esperamos agregar las funciones de navegación, carga de archivos e imágenes y otras más, para hacerlos más útiles para todas las personas.

También planeamos seguir desarrollando y lanzando modelos en nuestra serie GPT, además de la nueva serie o1 de OpenAI.

Autores

OpenAI