15 de diciembre de 2022

Modelo de integración nuevo y mejorado

A soft-focus landscape painting depicting a green foreground, a pastel pink and beige field, and distant hills beneath a bright pink and light blue sky.

Cargando...

El nuevo modelo, text-embedding-ada-002, reemplaza a cinco modelos separados para búsqueda de texto, similitud de texto y búsqueda de código y consigue mejores resultados que nuestro modelo previo más competente, Davinci, en la mayoría de las tareas, mientras está valuado un 99,8 % más bajo.

Las integraciones son representaciones numéricas de conceptos convertidos en secuencias de números, lo que facilita a las computadoras comprender las relaciones entre dichos conceptos. Desde el lanzamiento inicial⁠ del punto final de OpenAI /embeddings⁠(se abre en una nueva ventana), muchas aplicaciones han incorporado integraciones para personalizar, recomendar y buscar contenido.

Cargando...

Puedes consultar el punto final /embeddings⁠(se abre en una nueva ventana) para el nuevo modelo con dos líneas de código usando nuestra Biblioteca de Python de OpenAI⁠(se abre en una nueva ventana), al igual que lo hacías con modelos previos:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Mejoras de modelos

Rendimiento más sólido. text-embedding-ada-002 consigue mejores resultados de todos los modelos de integración antiguos sobre búsqueda de texto, búsqueda de código y tareas de similitud de oraciones así como obtiene un rendimiento comparable en clasificación de texto. Para cada categoría de tarea, evaluamos los modelos en los conjuntos de datos usados en integraciones anteriores⁠(se abre en una nueva ventana).

Modelo	Rendimiento
`text-embedding-ada-002`	53.3
`text-search-davinci-*-001`	52.8
`text-search-curie-*-001`	50.9
`text-search-babbage-*-001`	50.4
`text-search-ada-*-001`	49.0

Conjunto de datos: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Unificación de capacidades. Hemos simplificado significativamente la interfaz del punto final /embeddings⁠(se abre en una nueva ventana) al fusionar los cinco modelos separados que se muestran anteriormente (text-similarity, text-search-query, text-search-doc, code-search-text y code-search-code) en un nuevo modelo único. Esta única representación se desempeña mejor que nuestros modelos de integración previos a lo largo de un conjunto diverso de puntos de referencia de búsqueda de texto, similitud de oraciones y búsqueda de código.

Contexto más largo. La longitud de contexto del nuevo modelo aumentó en un factor de cuatro, de 2048 a 8192, lo que hace que sea más conveniente para trabajar con documentos largos.

Tamaño de integración más pequeño. Las nuevas integraciones solo tienen 1536 dimensiones, un octavo el tamaño de las integraciones de davinci-001, lo que hace que las nuevas integraciones sean más rentables en el trabajo con bases de datos de vectores.

Precio reducido. Redujimos el precio de los nuevos modelos de integración en un 90 % en comparación con los modelos antiguos del mismo tamaño. El nuevo modelo logra un rendimiento mejor o similar que los antiguos modelos Davinci a un precio un 99,8 % más bajo.

En general, el nuevo modelo de integración es una herramienta mucho más potente para el procesamiento de lenguaje natural y tareas de códigos. Estamos emocionados de ver cómo nuestros clientes la usarán para crear aplicaciones incluso más competentes en sus respectivos campos.

Limitaciones

El nuevo modelo text-embedding-ada-002 no está consiguiendo mejores resultados que text-similarity-davinci-001 en el punto de referencia de clasificación de indagación lineal SentEval. Para tareas que requieren capacitar una capa lineal liviana encima de vectores de integración para predicción de clasificación, sugerimos comparar el nuevo modelo con text-similarity-davinci-001 y seleccionar qué modelo da un rendimiento óptimo.

Comprueba la sección de Limitaciones y riesgos⁠(se abre en una nueva ventana) en la documentación de integraciones para limitaciones generales de nuestros modelos de integración.

Ejemplos de API de integraciones en acción

Kalendar AI⁠(se abre en una nueva ventana) es un producto con alcance de ventas que usa integraciones para dar el discurso de ventas adecuado a los clientes adecuados a partir de un conjunto de datos que contiene 340 millones de perfiles. Esta automatización depende de una similitud entre integraciones de perfiles de clientes y discursos de venta para clasificar las coincidencias más adecuadas, lo que elimina entre un 40 y 56 % de objetivos no deseados en comparación con su enfoque previo.

Notion⁠(se abre en una nueva ventana), la empresa de espacio de trabajo en línea, usará las nuevas integraciones de OpenAI para mejorar la búsqueda en Notion más allá de los sistemas de coincidencia por palabra clave de la actualidad.

Leer documentación(se abre en una nueva ventana)

Autores

Ryan Greene, Ted Sanders, Lilian Weng y Arvind Neelakantan

Modelo de integración nuevo y mejorado

Mejoras de modelos

Limitaciones

Ejemplos de API de integraciones en acción

Autores

Artículos relacionados