7 de mayo de 2024

Nuestro enfoque en cuanto a datos y la IA

Cargando…

La IA debería ampliar las oportunidades para todos. Al transformar la información de nuevas maneras, los sistemas de IA nos ayudan a resolver problemas y expresarnos. Hoy en día, nuestras herramientas de IA, como ChatGPT, se utilizan en todo el mundo para ayudar a los agricultores de Kenia y de la India a incrementar el rendimiento de sus cultivos (Digital Green⁠⁠), a los investigadores a acelerar el desarrollo de fármacos (Moderna⁠⁠), a los gobiernos a respaldar a su personal (estado de Pensilvania⁠(se abre en una ventana nueva)⁠), a los docentes a promover⁠⁠ el aprendizaje de los estudiantes y a las personas con discapacidad visual a desenvolverse en el mundo (Be My Eyes⁠⁠). Las herramientas de IA como DALL·E⁠⁠ y Sora⁠⁠ (actualmente en fase preliminar de investigación) están capacitando⁠⁠ a las personas creativas, desde artistas en ciernes hasta cineastas⁠⁠.

Nuestra misión consiste en beneficiar a toda la humanidad, lo que no abarca solo a nuestros usuarios, sino también a creadores y editores. Aunque creemos que los precedentes legales y las políticas públicas sólidas hacen que el aprendizaje sea un uso justo, también creemos que es importante contribuir al desarrollo de un contrato social ampliamente beneficioso para el contenido en la era de la IA.

Creemos que los sistemas de IA deberían beneficiar y respetar las elecciones de los creadores y propietarios de contenido. Además, mejoramos constantemente nuestros sistemas pioneros para reflejar las preferencias de los propietarios de contenido y estamos comprometidos con crear productos y modelos comerciales para impulsar ecosistemas dinámicos para creadores y editores.

No somos escritores, artistas ni periodistas profesionales, ni formamos parte de esos sectores. En OpenAI nos centramos en crear herramientas para ayudar a estas profesiones a crear y lograr más. Para ello, escuchamos a los miembros de estas comunidades, colaboramos estrechamente con ellos y siempre estamos dispuestos a entablar un diálogo. Hoy, vamos a compartir más sobre dónde nos encontramos y hacia dónde nos dirigimos.

Respetamos las elecciones de los creadores y propietarios de contenido en materia de IA

Hace años, el estándar robots.txt se introdujo y se adoptó voluntariamente en el ecosistema de internet para que los editores web indicaran a qué partes de los sitios web podían acceder los rastreadores web.

El verano pasado, OpenAI fue pionera en el uso de permisos de rastreadores web para IA, lo que permitió a los editores web expresar sus preferencias sobre el uso de su contenido en la IA. Tenemos estas preferencias en cuenta cada vez que entrenamos un nuevo modelo.

Dicho esto, somos conscientes de que estas soluciones no son perfectas, ya que muchos creadores no controlan los sitios web donde aparece su contenido y, con frecuencia, este se cita, se revisa, se combina con otros contenidos, se vuelve a publicar y se utiliza a modo de inspiración en diversos dominios. Necesitamos una solución eficaz y escalable para que los propietarios de contenido expresen sus preferencias sobre el uso de su contenido en los sistemas de IA.

Creamos Media Manager para que los propietarios de contenido puedan administrar cómo se utilizan sus obras en la IA

OpenAI está desarrollando Media Manager, una herramienta que permitirá a los creadores y propietarios de contenido decirnos qué es propiedad suya y especificar cómo quieren que sus obras se incluyan o excluyan de la investigación y el entrenamiento del aprendizaje automático. Con el tiempo, prevemos introducir opciones y funciones adicionales.

Para ello, será necesario realizar investigaciones pioneras sobre el aprendizaje automático para crear una herramienta vanguardista que nos ayude a identificar textos, imágenes, audio y vídeos protegidos por derechos de autor en múltiples fuentes y reflejar las preferencias de los creadores.

Asimismo, estamos colaborando con creadores, propietarios de contenido y reguladores durante el desarrollo de Media Manager. Queremos implantar la herramienta para 2025 y esperamos que se convierta en una referencia para todo el sector de la IA.

Creamos productos que benefician a los usuarios, creadores y editores en un ecosistema dinámico

Hoy en día, vivimos en una economía de la atención creada para los anunciantes más que para los usuarios, en la que la cantidad es más importante que la calidad. Nuestra ambición es utilizar la IA para cambiar esto: queremos empoderar a los creadores y editores, además de mejorar la experiencia del usuario.

Nos esforzamos constantemente por hacer que nuestros productos sean motores de descubrimiento más útiles. Recientemente mejoramos los enlaces de origen en ChatGPT⁠(se abre en una ventana nueva) para brindar un mejor contexto a los usuarios y nuevas formas de conectarse con nuestro público a los editores web.

Además, colaboramos con socios para mostrar su contenido en nuestros productos y mejorar su conexión con los lectores. Hemos anunciado asociaciones con medios de comunicación internacionales, desde Financial Times⁠⁠ hasta Le Monde⁠⁠, Prisa Media⁠⁠ y Axel Springer⁠⁠, entre otros, que les permitirán mostrar su contenido en ChatGPT y enriquecer la experiencia del usuario al leer las noticias. Hay más innovaciones en camino. Este contenido también se puede utilizar para entrenar a ChatGPT para que muestre mejor el contenido pertinente del editor a los usuarios y mejorar nuestras herramientas para las salas de redacción.

Nuestras asociaciones pretenden beneficiar a los socios y sus usuarios, haciendo que nuestros modelos sean más útiles para sus empleados, clientes y comunidades. En cuanto a recursos educativos, nos hemos asociado con las organizaciones sin fines de lucro Khan Academy⁠⁠ y ExamSolutions⁠(se abre en una ventana nueva)⁠, con sede en el Reino Unido, con el fin de mejorar el rendimiento matemático de nuestro modelo, lo que acelera su capacidad de ampliar el acceso a tutorías de IA personalizadas en su plataforma.

Comprender nuestros modelos básicos y cómo los construimos

Diseñamos nuestros modelos de IA para que sean máquinas de aprendizaje, no bases de datos

Los modelos de IA aprenden de las relaciones en la información para crear algo nuevo; no se limitan a almacenar datos como si fueran una base de datos. Cuando entrenamos modelos de lenguaje, tomamos billones de palabras y le pedimos a un ordenador que genere una ecuación que describa mejor la relación entre las palabras y el proceso subyacente que las ha producido. Una vez finalizado el proceso de entrenamiento, el modelo de IA no conserva el acceso a los datos analizados durante el entrenamiento. Podríamos decir que ChatGPT es un profesor que ha aprendido mucho a partir de sus estudios y puede explicar cosas porque comprende las relaciones entre conceptos, pero no almacena los materiales en su cabeza.

Nuestros modelos están diseñados para ayudarnos a generar nuevos contenidos e ideas, no para repetir o emular contenido. Asimismo, los modelos de IA pueden exponer datos que son de dominio público. Si en raras ocasiones un modelo repite inadvertidamente contenido expresivo, se trata de un fallo del proceso de aprendizaje automático. Es más probable que esto suceda con contenido que aparece con frecuencia en conjuntos de datos de entrenamiento, como contenido que se muestra en muchos sitios web públicos diferentes debido a que se cita con frecuencia. Para evitar repeticiones, empleamos técnicas de última generación durante el entrenamiento y la generación de resultados de nuestra API o ChatGPT, y mejoramos constantemente nuestros productos mediante la investigación y el desarrollo continuos.

Utilizamos una gran cantidad de datos diversos para crear la mejor IA para todo el mundo

Queremos que nuestros modelos de IA aprendan de tantos idiomas, culturas, temas y sectores como puedan, para beneficiar a la mayor cantidad de personas posible. Cuanto más diversos son los conjuntos de datos, más diversos se vuelven los conocimientos, la comprensión y los lenguajes de los modelos ―como una persona que ha estado expuesta a una gran variedad de perspectivas y experiencias culturales―, y a más personas y países puede atender la IA de manera segura.

Cada nueva generación de modelos básicos se entrena desde cero con un nuevo conjunto de datos. Para ello, mejoramos constantemente nuestra arquitectura y aumentamos la escala y diversidad de nuestros conjuntos de datos significativamente más allá de nuestros modelos anteriores. A diferencia de las mayores empresas en el campo de la IA, no contamos con un gran corpus de datos recopilados durante décadas. Dependemos principalmente de la información disponible públicamente para enseñar a nuestros modelos a ser útiles.

Entrenamos nuestros modelos usando el siguiente contenido:

Una selección de datos disponibles públicamente, en su mayoría recopilados de conjuntos de datos de aprendizaje automático y rastreos web estándar, similares a los motores de búsqueda. Excluimos fuentes que sabemos que tienen barreras de pago, información de identificación personal agregada o contenido que viole nuestras políticas, así como fuentes que hayan optado por no participar.
Datos pertenecientes a nuestras asociaciones de datos⁠⁠. Nos asociamos para acceder a contenido que no está disponible públicamente, como archivos y metadatos. Nuestros socios van desde una importante videoteca privada de imágenes y vídeos para entrenar a Sora hasta el Gobierno de Islandia⁠⁠, a quien ayudamos a conservar sus idiomas nativos. No buscamos asociaciones pagadas para obtener información disponible públicamente.
Utilizamos los comentarios de entrenadores de IA, miembros del equipo rojo de ciberseguridad, empleados y usuarios humanos cuyas configuraciones de control de datos permiten mejorar el modelo.

Nos preocupamos de reducir el procesamiento de datos personales y sensibles, y entrenamos a nuestros modelos para que no proporcionen información privada ni sensible sobre las personas. Utilizamos una serie de técnicas para tratar los datos sin procesar y usarlos de forma segura en el entrenamiento. Además, empleamos cada vez más modelos de IA para ayudarnos a limpiar, preparar y generar datos.

No utilizamos los datos empresariales de nuestros clientes para entrenar nuestros modelos, incluidos datos de ChatGPT Team, ChatGPT Enterprise y nuestra plataforma API. Los usuarios de ChatGPT Free y Plus pueden seleccionar si desean contribuir a mejorar el modelo en el menú de configuración⁠⁠(se abre en una ventana nueva).

Creamos en colaboración

La IA evoluciona rápidamente y sabemos que nuestros objetivos no se pueden lograr solos. Estamos comprometidos con colaborar con creadores y editores, crear asociaciones mutuamente beneficiosas, respaldar ecosistemas saludables y explorar nuevos modelos económicos. Por último, agradecemos a nuestros usuarios y socios su colaboración en estos importantes temas.

Autores

OpenAI