8 de enero de 2024

OpenAI y la prensa

OpenAI respalda el periodismo, se asocia con medios de comunicación y considera que la demanda del New York Times carece de fundamento.

Ilustración: Justin Jay Wang × DALL·E

Cargando…

El objetivo de OpenAI es desarrollar soluciones de IA que ayuden a las personas⁠(se abre en una ventana nueva) a resolver problemas complejos. Nuestra tecnología se usa en todo el mundo para mejorar el día a día⁠(se abre en una ventana nueva) de la sociedad. Es más: millones de desarrolladores y más del 92 % de las empresas de la lista Fortune 500 confían en nuestros productos.

Pese a no estar de acuerdo con el contenido de la demanda impuesta por The New York Times, creemos que esta es una oportunidad única para aclarar cuál es nuestra misión, cuáles son nuestras motivaciones y qué tecnología usamos para desarrollar nuestros productos. Podríamos resumir nuestra postura en torno a cuatro aspectos:

Colaboramos con los medios de comunicación para expandir nuevos horizontes.
Entrenar nuestros modelos con el contenido público de dichos medios constituye un uso legítimo. Aun así, ofrecemos un proceso de exclusión voluntaria.
La «regurgitación» es un error muy poco común que nos esforzamos por erradicar.
The New York Times solo explica una parte de la historia.

1. Colaboramos con los medios de comunicación para expandir nuevos horizontes

En OpenAI tenemos muy en cuenta a los medios de comunicación en el diseño de nuestros productos. De hecho, nos hemos reunido con distintas agencias —así como con organizaciones líderes en el sector, como News/Media Alliance— para sopesar oportunidades, abordar inquietudes y proponer soluciones. Nuestra voluntad es aprender, informar, escuchar las críticas y adaptarnos.

Entre nuestros objetivos están promover un ecosistema informativo saludable, ser un socio constructivo y generar oportunidades que beneficien a ambas partes. En este sentido, nos hemos asociado con varios medios de comunicación para alcanzar los objetivos siguientes:

Desplegar nuestros productos para ayudar a periodistas y editores con tareas que requieren mucho tiempo, como analizar registros públicos extensos y traducir artículos.
Entrenar nuestros modelos de IA con documentación histórica que no está al alcance del gran público para que tengan más contexto sobre nuestra sociedad.
Presentar contenido en tiempo real en ChatGPT, con su debida acreditación, para que los editores de noticias tengan otras formas de conectar con los lectores.

Nuestras primeras colaboraciones con Associated Press⁠(se abre en una ventana nueva), Axel Springer⁠(se abre en una ventana nueva), American Journalism Project⁠(se abre en una ventana nueva) y NYU⁠(se abre en una ventana nueva) son un buen ejemplo de la praxis de OpenAI.

2. Entrenar nuestros modelos con el contenido público de dichos medios constituye un uso legítimo. Aun así, ofrecemos un proceso de exclusión voluntaria

Entrenar modelos de IA a partir de materiales de consulta pública en internet constituye un uso legítimo y ampliamente respaldado por alianzas bien consolidadas y de larga trayectoria. Consideramos que es un principio justo para los creadores, necesario para la innovación y fundamental para promover la competitividad en los Estados Unidos.

Al margen de esto, consideramos que ser buenos ciudadanos es más importante que ejercer nuestros derechos legales. Por esta razón, hemos sido los primeros en plantear a los editores un sencillo proceso⁠(se abre en una ventana nueva) de exclusión voluntaria (al que The New York Times se acogió en agosto de 2023) con el fin de evitar que nuestras herramientas accedan a sus webs.

3. La «regurgitación» es un error muy poco común que nos esforzamos por erradicar

Hemos diseñado y entrenado nuestros modelos para aprender conceptos con el fin de aplicarlos en la resolución de nuevos problemas⁠.

La memorización de contenido es un error muy poco frecuente que tiene lugar durante la fase de entrenamiento y que nos esforzamos por erradicar por completo. Suele producirse cuando un contenido en concreto aparece más de una vez en los datos empleados para el entrenamiento; por ejemplo, si aparecen fragmentos del mismo artículo en varias web de consulta pública. Por eso hemos implementado medidas para reducir la memorización involuntaria y evitar el plagio en los resultados de los modelos. Asimismo, instamos a nuestros usuarios a actuar de forma responsable: manipular intencionadamente nuestros modelos para reproducir contenido palabra por palabra no se atiene al uso adecuado de nuestra tecnología y contraviene nuestras condiciones de uso.

Así como las personas nos formamos para aprender a resolver los problemas que se nos plantean por primera vez, el objetivo es entrenar nuestros modelos de IA con información lo más extensa y variada posible, procedente de idiomas, culturas y sectores distintos. Puesto que los modelos aprenden del vasto conjunto del conocimiento humano, cualquier sector —incluido el de la comunicación— constituye una ínfima parte del conjunto de datos que empleamos para su entrenamiento. En la misma línea, cualquier fuente de datos —incluido The New York Times— no tiene apenas peso para los propios fines del entrenamiento.

4. The New York Times solo explica una parte de la historia

Hasta el último contacto que mantuvimos el 19 de diciembre, las negociaciones con The New York Times parecían avanzar de forma constructiva. Ambas partes parecíamos interesadas en presentar los artículos de The New York Times en ChatGPT en tiempo real, y con su debida acreditación, para beneficio mutuo. La publicación, por su parte, conseguiría así una nueva forma de conectar con sus lectores y de captar lectores nuevos, y nuestros usuarios tendrían acceso a sus contenidos. Ya habíamos avanzado a The New York Times que, como es el caso de cualquier otra fuente, sus contenidos apenas tenían repercusión en el entrenamiento de nuestros modelos actuales y que tampoco la tendría en el futuro. Aun así, el 27 de diciembre nos demandaron, información que conocimos por el propio diario The New York Times. Supuso una sorpresa y una decepción para nosotros.

Durante el proceso, alegaron que habían observado que el modelo replicaba sus contenidos de forma ocasional, pero se negaron reiteradamente a compartir ejemplos, a pesar de comprometernos a investigar y enmendar los problemas. Hemos demostrado que nos tomamos muy en serio estas observaciones. Sin ir más lejos, en julio de 2023 retiramos una función de ChatGPT⁠(se abre en una ventana nueva) justo después de conocer que podía reproducir contenido en tiempo real de forma no intencionada.

Curiosamente, las reproducciones a las que alude The New York Times proceden de artículos antiguos que han aparecido en varios⁠(se abre en una ventana nueva) sitios⁠(se abre en una ventana nueva) web⁠(se abre en una ventana nueva) de terceros⁠(se abre en una ventana nueva). Al parecer, manipularon intencionadamente los prompts, incluyendo fragmentos largos de artículos para que el modelo los reprodujera. Incluso procediendo de esta forma, nuestros modelos no suelen comportarse como apunta The New York Times, lo que sugiere que bien dieron instrucciones al modelo para que regurgitara el contenido, bien seleccionaron cuidadosamente sus ejemplos de entre infinidad de intentos.

Pese a sus alegaciones, este uso indebido no representa ni una actividad habitual ni está permitida a los usuarios, y desde luego no sustituye en ningún caso al propio The New York Times. Independientemente del curso que tome esta demanda, seguiremos esforzándonos por que nuestros sistemas sean más resistentes a cualquier ataque que tenga la intención de hacerlos reproducir los datos ingeridos durante el entrenamiento, y ya hemos hecho grandes avances en nuestros modelos más recientes.

Consideramos que la demanda de The New York Times carece de fundamento. Aun así, confiamos en poder entablar de nuevo una asociación constructiva con The New York Times que ponga en valor su trayectoria, que abarca hitos tan importantes como haber informado de la primera red neuronal⁠(se abre en una ventana nueva) que se creó hace más de 60 años o defender las libertades que promueve la Primera Enmienda.

Seguiremos trabajando con los medios de comunicación para ofrecerles más recursos que les permitan ejercer su profesión con rigor aprovechando el potencial transformador de la IA.

Autor

OpenAI