7 de mayo de 2024

Nuestro enfoque hacia los datos y la IA

Cargando...

La IA debe ampliar las oportunidades de todos. Al usar nuevas maneras para transformar la información, los sistemas de IA nos permiten resolver problemas y expresarnos. Hoy, nuestras herramientas de IA como ChatGPT se usan en todo el mundo para ayudar a los agricultores de Kenya e India a aumentar la producción de sus cultivos (Digital Green⁠), a los investigadores a acelerar el descubrimiento de fármacos (Moderna⁠), a los gobiernos a respaldar a su mano de obra (Estado de Pennsylvania⁠(se abre en una nueva ventana)), a los educadores a potenciar⁠ el aprendizaje de los estudiantes y a la gente con discapacidades visuales a moverse en nuestro mundo (Be My Eyes⁠). Las herramientas de IA como DALL·E⁠ y Sora⁠ (actualmente en investigación preliminar) están empoderando⁠ a los creativos, desde aspirantes a artistas hasta cineastas⁠.

Nuestra misión es beneficiar a toda la humanidad. Esto incluye no solo a nuestros usuarios, sino también a creadores y editores. Aunque creemos que los precedentes legales y la sólida política pública permiten el uso justo del aprendizaje, también sentimos que es importante contribuir al desarrollo de un contrato social con beneficios más amplios para el contenido en la era de la IA.

Creemos que los sistemas de IA deben beneficiar y respetar las opciones de los creadores y propietarios de contenido. Mejoramos constantemente nuestros sistemas líderes en la industria para reflejar las preferencias de los propietarios de contenido, y nos dedicamos a crear productos y modelos de negocio que impulsen ecosistemas dinámicos para creadores y editores.

No somos escritores, artistas ni periodistas profesionales, y tampoco son esas nuestras líneas de trabajo. Nos enfocamos en desarrollar herramientas que permitan a esos profesionales crear y lograr más. Con este fin, escuchamos y trabajamos estrechamente con los miembros de dichas comunidades y esperamos con interés nuestros continuos diálogos. Hoy estamos compartiendo más sobre quiénes somos y hacia dónde nos dirigimos.

Respetamos las opciones de los creadores y propietarios de contenido en IA

Hace décadas, se introdujo el estándar robots.txt y el ecosistema de internet lo adoptó voluntariamente para que los editores web indicaran qué partes de los sitios web podían usar los rastreadores.

El verano pasado, OpenAI lideró el uso de permisos de rastreadores web para IA, lo que permite a los editores expresar sus preferencias sobre el uso de su contenido en IA. Tomamos en cuenta estas señales cada vez que entrenamos un nuevo modelo.

Dicho esto, comprendemos que son soluciones incompletas, ya que muchos creadores no controlan los sitios web donde puede aparecer su contenido y que el contenido a menudo se cita, revisa, mezcla, republica y usa como inspiración en múltiples dominios. Necesitamos una solución eficaz y escalable para que los propietarios de contenido expresen sus preferencias respecto al uso de su material en los sistemas de IA.

Creamos Media Manager para que los propietarios de contenido puedan administrar la manera en que se usa su trabajo en IA

OpenAI está desarrollando Media Manager, una herramienta que permitirá a creadores y propietarios de contenido indicarnos qué les pertenece y especificar cómo desean que su trabajo se incluya o excluya de la investigación y entrenamiento de aprendizaje automático. Con el tiempo, planeamos incorporar más opciones y características.

Esto requiere investigación de primer nivel del aprendizaje automático, para crear una herramienta innovadora que nos permita identificar texto, imágenes, audio y video con derechos de autor proveniente de distintas fuentes y reflejar las preferencias del creador.

En el desarrollo de Media Manager, colaboramos con creadores, propietarios de contenido y reguladores. Nuestra meta es implementar la herramienta para el año 2025 y esperamos que establezca un estándar en la industria de la IA.

Creamos productos que beneficien a usuarios, creadores y editores en un ecosistema dinámico

Actualmente, vivimos en una economía donde los anunciantes están por sobre los usuarios y la cantidad, por sobre la calidad. Nuestro propósito es usar la IA para cambiar esta situación: empoderar a los creadores y editores y mejorar la experiencia del usuario.

Constantemente mejoramos nuestros productos para que sean motores de descubrimiento más útiles. Recientemente mejoramos los vínculos a fuentes en ChatGPT⁠(se abre en una nueva ventana) para que los usuarios tengan un mejor contexto y los editores web encuentren nuevas maneras de conectarse con el público.

Además, trabajamos junto a socios para exhibir su contenido en nuestros productos y aumentar su conexión con los lectores. Hemos anunciado asociaciones con editores de noticias mundiales de Financial Times⁠ a Le Monde⁠, PRISA Media⁠, Axel Springer⁠ y más, para mostrar su contenido en ChatGPT y enriquecer la experiencia del usuario en temas noticiosos. Pronto veremos más innovación. Este contenido también se puede usar para entrenar a ChatGPT de modo que muestre mejor a los usuarios el contenido relevante del editor y así optimizar nuestras herramientas para las redacciones.

Nuestras asociaciones han sido creadas para beneficiar a los socios y sus usuarios, al aumentar la utilidad de nuestros modelos para sus empleados, clientes y comunidades. A fin de potenciar los recursos educativos, nos hemos asociado con las organizaciones sin fines de lucro Khan Academy⁠ yExamSolutions⁠(se abre en una nueva ventana), esta última en el Reino Unido, para mejorar el desempeño matemático de nuestro modelo y así acelerar su capacidad de ampliar el acceso a tutorías personalizadas con IA en su plataforma.

Nuestros modelos base y cómo los creamos

Diseñamos nuestros modelos de IA como máquinas que aprenden, no bases de datos

Los modelos de IA aprenden de las relaciones entre la información para crear algo nuevo, no almacenan datos como en una base de datos. Cuando entrenamos modelos de lenguaje, tomamos millones de billones de palabras y le pedimos a la computadora que elabore una ecuación que describa de la mejor manera la relación entre las palabras y el proceso subyacente que las produce. Una vez terminado el proceso de entrenamiento, el modelo de IA no mantiene el acceso a los datos analizados para el entrenamiento. ChatGPT es como un profesor que ha aprendido de muchos estudios anteriores y puede explicar las cosas porque aprendió la relación entre los conceptos, pero que no almacena los materiales en su cabeza.

Nuestros modelos están diseñados para ayudarnos a generar nuevos contenidos e ideas, no para repetir o “regurgitar” información. Los modelos de IA pueden establecer hechos que son de dominio público. Si en raras ocasiones un modelo repite involuntariamente contenido expresivo, es una falla del proceso de aprendizaje automático. Es más probable que esta falla ocurra con contenido que aparece frecuentemente en los conjuntos de datos de entrenamiento, como contenido incluido en muchos sitios web públicos distintos, porque se citan habitualmente. A fin de evitar repeticiones, usamos técnicas de vanguardia durante el entrenamiento y en los resultados, para nuestra API o ChatGPT, y mejoramos constantemente con investigación y desarrollo permanentes.

Utilizamos datos amplios y diversos para crear la mejor IA para todos

Deseamos que nuestros modelos de IA aprendan de tantos idiomas, culturas, sujetos e industrias como sea posible para que beneficien a la mayor cantidad de personas. Mientras más diversos sean los conjuntos de datos, más diversos serán también los conocimientos, la comprensión y el idioma de los modelos, como una persona que ha sido expuesta a una amplia gama de perspectivas y experiencias culturales, y la IA podrá ayudar a una mayor cantidad de personas y países en forma segura.

Cada generación nueva de modelos base se entrena desde cero en un nuevo conjunto de datos. Mejoramos constantemente nuestra arquitectura y aumentamos la escala y diversidad de los conjuntos de datos mucho más allá que nuestros modelos anteriores. A diferencia de grandes empresas en el campo de la IA, no tenemos un cuerpo de datos enorme recopilado durante décadas. Nos basamos principalmente en información pública disponible para enseñar a nuestros modelos cómo ser útiles.

Entrenamos a nuestros modelos por medio de:

Determinados datos disponibles para el público, principalmente de conjuntos de datos de aprendizaje automático estándar de la industria y rastreadores web, de manera similar a los motores de búsqueda. Excluimos las fuentes que sabemos que tienen muros de pago, agregan principalmente información de identificación personal, tienen contenido que infringe nuestras políticas o han optado por no participar.
Datos privados de socios de datos⁠. Establecemos asociaciones para acceder a contenido no disponible para el público, como archivos y metadata. Nuestros socios van desde una importante biblioteca privada de videos e imágenes para entrenar a Sora, hasta el Gobierno de Islandia⁠ para ayudar a preservar su idioma nativo. No buscamos asociaciones pagadas para obtener solo información disponible públicamente.
Revisiones humanas de entrenadores de IA, miembros del equipo rojo, empleados y usuarios cuya configuración de control de datos permite mejoras de modelos.

Nos preocupamos de limitar el procesamiento de información personal y confidencial, y entrenamos a nuestros modelos para que no entreguen información privada o confidencial sobre las personas. Usamos una serie de técnicas para procesar los datos de modo que se utilicen en forma segura en el entrenamiento, y cada vez empleamos más modelos de IA para limpiar, preparar y generar datos.

No utilizamos los datos empresariales de nuestros clientes, incluyendo datos de ChatGPT Team, ChatGPT Enterprise o nuestra plataforma API, para entrenar ningún modelo. Los usuarios de ChatGPT Free y Plus pueden controlar si contribuyen a futuras mejoras de los modelos en su configuración⁠(se abre en una nueva ventana).

Nos asociamos para el desarrollo

La IA evoluciona rápidamente y sabemos que no podemos lograr nuestras metas sin ayuda. Estamos comprometidos a colaborar con creadores y editores, formar asociaciones de beneficio mutuo, apoyar ecosistemas saludables y explorar nuevos modelos económicos. Agradecemos a los usuarios y socios por trabajar con nosotros en estos temas importantes.

Autores

OpenAI