8 de gener del 2024

OpenAI i el periodisme

Donem suport al periodisme, col·laborem amb organitzacions de notícies i creiem que la demanda de The New York Times no té fonament.

Il·lustració: Justin Jay Wang × DALL·E

S'està carregant…

El nostre objectiu és desenvolupar eines d’IA que empoderin les persones⁠(s'obre en una finestra nova) per resoldre problemes que d’altra manera quedarien fora del seu abast. Persones d’arreu del món ja utilitzen la nostra tecnologia per millorar la seva vida quotidiana⁠(s'obre en una finestra nova). Avui, milions de desenvolupadors i més del 92 % de les empreses de la llista Fortune 500 construeixen sobre els nostres productes.

Tot i que discrepem de les afirmacions de la demanda de The New York Times, la considerem una oportunitat per aclarir el nostre negoci, la nostra intenció i com construïm la nostra tecnologia. La nostra posició es pot resumir en aquests quatre punts, que desenvolupem a continuació:

Col·laborem amb organitzacions de notícies i estem creant noves oportunitats
L’entrenament és un ús legítim, però oferim exclusió voluntària perquè és el correcte
La «reproducció» és un error poc freqüent que estem treballant per reduir a zero
The New York Times no explica tota la història

1. Col·laborem amb organitzacions de notícies i estem creant noves oportunitats

Treballem intensament en el procés de disseny de la nostra tecnologia per donar suport a les organitzacions de notícies. Ens hem reunit amb desenes d’elles, així com amb organitzacions líders del sector com la News/Media Alliance, per explorar oportunitats, debatre les seves inquietuds i aportar solucions. El nostre objectiu és aprendre, informar, escoltar els comentaris i adaptar-nos.

Els nostres objectius són donar suport a un ecosistema informatiu saludable, ser un bon soci i crear oportunitats mútuament beneficioses. Amb això en ment, hem impulsat col·laboracions amb organitzacions de notícies per assolir aquests objectius:

Desplegar els nostres productes per beneficiar i donar suport a periodistes i editors, ajudant en tasques que consumeixen molt de temps, com analitzar grans volums de registres públics i traduir històries.
Ensenyar als nostres models d’IA sobre el món entrenant-los amb contingut històric addicional que no està disponible públicament.
Mostrar contingut en temps real amb atribució a ChatGPT, oferint noves maneres perquè els editors de notícies connectin amb els lectors.

Les nostres primeres col·laboracions amb l’Associated Press⁠(s'obre en una finestra nova), Axel Springer⁠(s'obre en una finestra nova), l’American Journalism Project⁠(s'obre en una finestra nova) i la NYU⁠(s'obre en una finestra nova) ofereixen una idea del nostre enfocament.

2. L’entrenament és un ús legítim, però oferim exclusió voluntària perquè és el correcte

Entrenar models d’IA amb materials d’internet disponibles públicament és un ús legítim, tal com ho avalen precedents de llarga trajectòria i àmpliament acceptats. Considerem que aquest principi és just per als creadors, necessari per als innovadors i crític per a la competitivitat dels EUA.

Dit això, el dret legal ens importa menys que ser bons ciutadans. Hem liderat el sector de la IA oferint un procés⁠(s'obre en una finestra nova) senzill d’exclusió voluntària per als editors (que The New York Times va adoptar l’agost de 2023) per evitar que les nostres eines accedeixin als seus llocs.

3. La «reproducció» és un error poc freqüent que estem treballant per reduir a zero

Els nostres models es van dissenyar i entrenar per aprendre conceptes i poder aplicar-los a problemes nous⁠.

La memorització és una fallada poc freqüent del procés d’aprenentatge en què continuem avançant, però és més habitual quan un contingut concret apareix més d’una vegada a les dades d’entrenament, com ara si parts d’aquest contingut apareixen en molts llocs web públics diferents. Per això, disposem de mesures per limitar la memorització involuntària i evitar la reproducció en les sortides del model. També esperem que els nostres usuaris actuïn de manera responsable; manipular intencionadament els nostres models perquè reprodueixin contingut no és un ús apropiat de la nostra tecnologia i contravé les nostres condicions d'ús.

De la mateixa manera que els humans reben una educació àmplia per aprendre a resoldre problemes nous, volem que els nostres models d’IA observin l’abast de la informació del món, incloent-hi totes les llengües, cultures i indústries. Com que els models aprenen de l’enorme agregat de coneixement humà, qualsevol sector concret —incloses les notícies— és una petita fracció del conjunt de dades d’entrenament, i qualsevol font de dades concreta —inclòs The New York Times— no és significativa per a l’aprenentatge previst del model.

4. The New York Times no explica tota la història

Semblava que les nostres converses amb The New York Times avançaven de manera constructiva fins a la nostra última comunicació del 19 de desembre. Les negociacions se centraven en una col·laboració d’alt valor sobre la visualització en temps real amb atribució a ChatGPT, en què The New York Times obtindria una nova manera de connectar amb els seus lectors actuals i nous, i els nostres usuaris obtindrien accés als seus reportatges. Havíem explicat a The New York Times que, com qualsevol font única, el seu contingut no contribuïa de manera significativa a l’entrenament dels nostres models actuals i tampoc no tindria prou impacte per a l’entrenament futur. La seva demanda del 27 de desembre —de la qual vam tenir coneixement llegint The New York Times— ens va sorprendre i decebre.

Pel camí, van esmentar que havien vist alguna reproducció del seu contingut, però van rebutjar repetidament compartir cap exemple, malgrat el nostre compromís d’investigar i corregir qualsevol problema. Hem demostrat com de seriosament ens prenem aquesta prioritat, com ara al juliol, quan vam retirar una funció de ChatGPT⁠(s'obre en una finestra nova) immediatament després de saber que podia reproduir contingut en temps real de maneres no desitjades.

Curiosament, les reproduccions que The New York Times va induir semblen provenir d’articles de fa anys que s’han difós en diversos⁠(s'obre en una finestra nova) llocs⁠(s'obre en una finestra nova) web⁠(s'obre en una finestra nova) de tercers⁠(s'obre en una finestra nova). Sembla que van manipular intencionadament les indicacions, sovint incloent-hi extractes llargs d’articles, per aconseguir que el nostre model ho reproduís. Fins i tot quan s’utilitzen aquestes indicacions, els nostres models no solen comportar-se de la manera que The New York Times insinua, cosa que suggereix que o bé van donar instruccions al model perquè reproduís el contingut o bé van triar esbiaixadament els seus exemples d’entre molts intents.

Malgrat les seves afirmacions, aquest ús indegut no és una activitat habitual ni permesa dels usuaris, i no substitueix The New York Times. En qualsevol cas, continuem fent els nostres sistemes més resistents als atacs adversaris destinats a reproduir dades d’entrenament, i ja hem avançat molt en els nostres models més recents.

Considerem que la demanda de The New York Times no té fonament. Tot i així, esperem una col·laboració constructiva amb The New York Times i respectem la seva llarga història, que inclou haver informat sobre la primera xarxa neuronal funcional⁠(s'obre en una finestra nova) fa més de 60 anys i haver defensat les llibertats de la Primera Esmena.

Esperem continuar col·laborant amb organitzacions de notícies, ajudant a potenciar la seva capacitat de produir periodisme de qualitat fent realitat el potencial transformador de la IA.

Autor

OpenAI

Articles relacionats

Veure-ho tot

Disrupting malicious uses of AI by state-affiliated threat actors

Seguretat14 de febr. del 2024

Building an early warning system for LLM-aided biological threat creation

Publicació31 de gen. del 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Seguretat16 de gen. del 2024