Salta al contingut principal
OpenAI

31 de gener del 2023

Producte

New AI classifier for indicating AI-written text

Nou classificador d’IA per indicar text escrit per IA
S'està carregant…

Des del 20 de juliol de 2023, el classificador d’IA ja no està disponible a causa del seu baix nivell de precisió. Estem treballant per incorporar comentaris i actualment investiguem tècniques de procedència més eficaces per al text, i ens hem compromès a desenvolupar i implementar mecanismes que permetin als usuaris entendre si el contingut d’àudio o visual ha estat generat per IA.

Hem entrenat un classificador per distingir entre text escrit per una persona i text escrit per IA de diversos proveïdors. Tot i que és impossible detectar de manera fiable tot el text escrit per IA, creiem que uns bons classificadors poden informar sobre mesures per mitigar les afirmacions falses que un text generat per IA ha estat escrit per una persona: per exemple, la realització de campanyes automatitzades de desinformació, l’ús d’eines d’IA per cometre frau acadèmic i la presentació d’un xatbot d’IA com a persona.

El nostre classificador no és del tot fiable. A les nostres avaluacions sobre un «conjunt de prova» de textos en anglès, el nostre classificador identifica correctament el 26% del text escrit per IA (veritables positius) com a «probablement escrit per IA», mentre que etiqueta incorrectament el text escrit per humans com a escrit per IA el 9% de les vegades (falsos positius). La fiabilitat del nostre classificador sol millorar a mesura que augmenta la longitud del text d’entrada. En comparació amb el nostre classificador publicat anteriorment(s'obre en una finestra nova), aquest nou classificador és significativament més fiable en textos de sistemes d’IA més recents.

Fem públic aquest classificador per obtenir comentaris sobre si eines imperfectes com aquesta són útils. El nostre treball sobre la detecció de text generat per IA continuarà, i esperem compartir mètodes millorats en el futur.

Proveu vosaltres mateixos el nostre classificador gratuït, encara en fase de desenvolupament:

Limitacions

El nostre classificador té diverses limitacions importants. No s’ha d’utilitzar com a eina principal per prendre decisions, sinó com a complement d’altres mètodes per determinar l’origen d’un text.

  1. El classificador és molt poc fiable en textos curts (de menys de 1.000 caràcters). Fins i tot els textos més llargs de vegades són etiquetats incorrectament pel classificador.
  2. De vegades, el text escrit per humans serà etiquetat incorrectament però amb confiança pel nostre classificador com a escrit per IA.
  3. Recomanem utilitzar el classificador només per a text en anglès. El seu rendiment és significativament pitjor en altres llengües i no és fiable amb codi.
  4. El text molt previsible no es pot identificar de manera fiable. Per exemple, és impossible predir si una llista dels primers 1.000 nombres primers va ser escrita per IA o per humans, perquè la resposta correcta sempre és la mateixa.
  5. El text escrit per IA es pot editar per evitar el classificador. Classificadors com el nostre es poden actualitzar i reentrenar a partir d’atacs reeixits, però no és clar si la detecció té avantatge a llarg termini.
  6. Se sap que els classificadors basats en xarxes neuronals estan mal calibrats fora de les seves dades d’entrenament. Per a entrades molt diferents del text del nostre conjunt d’entrenament, el classificador de vegades mostra una confiança extrema en una predicció errònia.

Entrenament del classificador

El nostre classificador és un model de llenguatge ajustat finament sobre un conjunt de dades de parelles de text escrit per humans i text escrit per IA sobre el mateix tema. Vam recopilar aquest conjunt de dades a partir de diverses fonts que creiem que estan escrites per humans, com ara les dades de preentrenament i demostracions humanes sobre indicacions enviades a InstructGPT. Vam dividir cada text en una indicació i una resposta. A partir d’aquestes indicacions vam generar respostes de diversos models de llenguatge diferents entrenats per nosaltres i per altres organitzacions. Per a la nostra aplicació web, ajustem el llindar de confiança per mantenir baixa la taxa de falsos positius; és a dir, només marquem un text com a probablement escrit per IA si el classificador n’està molt segur.

Impacte en els educadors i crida a participar

Reconeixem que la identificació del text escrit per IA ha estat un punt de debat important entre els educadors, i igualment important és reconèixer els límits i els impactes dels classificadors de text generat per IA a l’aula. Hem desenvolupat un recurs preliminar(s'obre en una finestra nova) sobre l’ús de ChatGPT per a educadors, que exposa alguns dels usos i les limitacions i consideracions associades. Tot i que aquest recurs se centra en els educadors, esperem que el nostre classificador i les eines de classificació associades tinguin un impacte en periodistes, investigadors de la desinformació i la mala informació, i altres grups.

Estem treballant amb educadors dels Estats Units per saber què estan veient a les seves aules i per parlar de les capacitats i limitacions de ChatGPT, i continuarem ampliant la nostra tasca de divulgació a mesura que n’aprenguem més. Aquestes són converses importants, ja que part de la nostra missió és implementar grans models de llenguatge de manera segura, en contacte directe amb les comunitats afectades.

Si aquests problemes us afecten directament (incloent-hi, entre d’altres, professors, administradors, pares, estudiants i proveïdors de serveis educatius), feu-nos arribar comentaris mitjançant aquest formulari(s'obre en una finestra nova). Els comentaris directes sobre el recurs preliminar(s'obre en una finestra nova) són útils, i també agraïm qualsevol recurs que els educadors estiguin desenvolupant o que hagin trobat útil (p. ex., directrius de cursos, actualitzacions del codi d’honor i de polítiques, eines interactives, programes d’alfabetització en IA).

Autors

Jan Hendrik Kirchner, Lama Ahmad, Scott Aaronson i Jan Leike

Col·laboradors

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry