15 de diciembre de 2022

Un nuevo y mejorado modelo de integraciones

A soft-focus landscape painting depicting a green foreground, a pastel pink and beige field, and distant hills beneath a bright pink and light blue sky.

Cargando…

El nuevo modelo, text-embedding-ada-002, sustituye a cinco modelos diferentes para la búsqueda de texto, la similitud de texto y la búsqueda de código. Asimismo, supera a nuestro anterior modelo más capaz, Davinci, en la mayoría de las tareas, mientras que su precio es un 99,8 % inferior.

Las integraciones son representaciones numéricas de conceptos convertidas en secuencias de números que ayudan a los ordenadores a comprender más fácilmente las relaciones entre esos conceptos. Desde el lanzamiento inicial⁠ del endpoint /embeddings⁠(se abre en una ventana nueva) de OpenAI, muchas aplicaciones han incorporado las integraciones para personalizar, recomendar y buscar contenidos.

Cargando...

Puedes consultar el endpoint /embeddings⁠(se abre en una ventana nueva) para el nuevo modelo con dos líneas de código usando nuestra librería de Python de OpenAI⁠(se abre en una ventana nueva), tal y como se hacía con los modelos anteriores:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Mejoras del modelo

Un mejor rendimiento. text-embedding-ada-002 supera a todos los modelos de integración más antiguos en las tareas de búsqueda de texto, búsqueda de código y similitud de las frases. Además, obtiene un rendimiento similar en la clasificación de textos. Para cada categoría de tareas, evaluamos los modelos en los conjuntos de datos que se han utilizado en las integraciones anteriores⁠(se abre en una ventana nueva).

Modelo	Rendimiento
`text-embedding-ada-002`	53,3
`text-search-davinci-*-001`	52,8
`text-search-curie-*-001`	50,9
`text-search-babbage-*-001`	50,4
`text-search-ada-*-001`	49,0

Conjunto de datos: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Unificación de funciones. Hemos simplificado de manera significativa la interfaz del endpoint /embeddings⁠(se abre en una ventana nueva) al fusionar los cinco modelos diferentes que mostramos anteriormente (text-similarity, text-search-query, text-search-doc, code-search-text y code-search-code) en un único modelo nuevo. Este modelo único ofrece un mejor rendimiento que nuestros modelos de integración anteriores en diferentes pruebas comparativas de búsqueda de texto, similitud de frases y búsqueda de código.

Contexto más largo. La longitud del contexto del nuevo modelo se multiplica por cuatro, de 2048 a 8192. Esto hace que trabajar con documentos largos sea más cómodo.

Integración de menor tamaño. Las nuevas integraciones solo tienen 1536 dimensiones, una octava parte del tamaño de las integraciones de davinci-001, lo que las hace más rentables a la hora de trabajar con bases de datos vectoriales.

Precio reducido. Hemos reducido el precio de los nuevos modelos de integración en un 90 % en comparación con los antiguos modelos del mismo tamaño. El nuevo modelo obtiene un rendimiento mejor o similar al de los antiguos modelos Davinci a un precio un 99,8 % inferior.

Además, en general, el nuevo modelo de integración es mucho más potente a la hora de procesar el lenguaje natural y las tareas de programación. Tenemos curiosidad por ver cómo lo usarán nuestros clientes para crear aplicaciones aún más eficaces en sus respectivos campos.

Limitaciones

El nuevo modelo text-embedding-ada-002 no supera al modelo text-similarity-davinci-001 en la prueba comparativa de clasificación de sondeo lineal de SentEval. Para aquellas tareas que requieren el entrenamiento de una capa lineal ligera además de los vectores de integración para la predicción de la clasificación, recomendamos comparar el nuevo modelo con text-similarity-davinci-001 y elegir el modelo que te ofrezca un rendimiento óptimo.

Consulta la sección Limitaciones y riesgos⁠(se abre en una ventana nueva) de la documentación de las integraciones para conocer las limitaciones generales de nuestros modelos de integración.

Ejemplos de la API de integración en acción

Kalendar AI⁠(se abre en una ventana nueva) es un producto para fomentar las ventas que usa las integraciones para hacer coincidir el discurso de venta adecuado con los clientes adecuados a partir de un conjunto de datos que incluye 340 millones de perfiles. Esta automatización aprovecha la similitud entre las integraciones de los perfiles de los clientes y los discursos de venta para clasificar las coincidencias más adecuadas. Con esto, se elimina entre un 40 % y un 56 % de los objetivos no deseados en comparación con su antiguo enfoque.

Notion⁠(se abre en una ventana nueva), la empresa de espacios de trabajo online, usará las nuevas integraciones de OpenAI para mejorar las búsquedas de Notion y superar los sistemas actuales de concordancia de palabras clave.

Leer la documentación(se abre en una ventana nueva)

Autores

Ryan Greene, Ted Sanders, Lilian Weng y Arvind Neelakantan

Un nuevo y mejorado modelo de integraciones

Mejoras del modelo

Limitaciones

Ejemplos de la API de integración en acción

Autores

Artículos relacionados