Пређите на главни садржај
OpenAI

31. јануар 2023.

Производ

New AI classifier for indicating AI-written text

Novi AI klasifikator za označavanje teksta koji je napisala AI
Учитавање…

Od 20. jula 2023, AI klasifikator više nije dostupan zbog svoje niske stope tačnosti. Radimo na tome da uključimo povratne informacije i trenutno istražujemo efikasnije tehnike utvrđivanja porekla teksta, a takođe smo se obavezali da razvijemo i primenimo mehanizme koji korisnicima omogućavaju da razumeju da li je audio ili vizuelni sadržaj generisala AI.

Obučili smo klasifikator da razlikuje tekst koji je napisao čovek od teksta koji su napisale AI iz različitih izvora. Iako je nemoguće pouzdano otkriti sav tekst koji je napisala AI, verujemo da dobri klasifikatori mogu pomoći u ublažavanju lažnih tvrdnji da je tekst koji je generisala AI napisao čovek: na primer, vođenje automatizovanih kampanja dezinformisanja, korišćenje AI alata za akademsku nečestitost i predstavljanje AI četbota kao čoveka.

Naš klasifikator nije potpuno pouzdan. U našim evaluacijama na „izazovnom skupu” tekstova na engleskom jeziku, naš klasifikator tačno identifikuje 26% teksta koji je napisala AI (tačni pozitivni rezultati) kao „verovatno napisano od strane AI”, dok tekst koji su napisali ljudi pogrešno označava kao AI-napisan u 9% slučajeva (lažni pozitivni rezultati). Pouzdanost našeg klasifikatora se obično poboljšava kako se povećava dužina ulaznog teksta. U poređenju sa našim prethodno objavljenim klasifikatorom(отвара се у новом прозору), ovaj novi klasifikator je znatno pouzdaniji na tekstu iz novijih AI sistema.

Ovaj klasifikator stavljamo javno na raspolaganje kako bismo dobili povratne informacije o tome da li su nesavršeni alati poput ovog korisni. Naš rad na otkrivanju teksta koji generiše AI će se nastaviti i nadamo se da ćemo u budućnosti podeliti poboljšane metode.

Isprobajte i sami naš besplatni klasifikator koji je još u razvoju:

Ograničenja

Naš klasifikator ima niz važnih ograničenja. Ne treba ga koristiti kao primarni alat za donošenje odluka, već kao dopunu drugim metodama za utvrđivanje izvora određenog teksta.

  1. Klasifikator je veoma nepouzdan za kratke tekstove (ispod 1.000 karaktera). Čak se i duži tekstovi ponekad pogrešno označavaju ovim klasifikatorom.
  2. Ponekad će tekst koji je napisao čovek naš klasifikator pogrešno, ali sa visokim stepenom sigurnosti, označiti kao tekst koji je napisala AI.
  3. Preporučujemo da se klasifikator koristi samo za tekst na engleskom jeziku. Njegov učinak je znatno slabiji na drugim jezicima, a nepouzdan je i za kod.
  4. Tekst koji je veoma predvidljiv ne može se pouzdano identifikovati. Na primer, nemoguće je predvideti da li je spisak prvih 1.000 prostih brojeva napisala AI ili čovek, jer je tačan odgovor uvek isti.
  5. Tekst koji je napisala AI može se izmeniti da bi izbegao klasifikator. Klasifikatori poput našeg mogu se ažurirati i ponovo obučavati na osnovu uspešnih napada, ali nije jasno da li detekcija dugoročno ima prednost.
  6. Poznato je da su klasifikatori zasnovani na neuronskim mrežama loše kalibrisani van svojih podataka za obuku. Za unose koji se veoma razlikuju od tekstova u našem skupu za obuku, klasifikator je ponekad izuzetno siguran u pogrešno predviđanje.

Obučavanje klasifikatora

Naš klasifikator je jezički model fino podešen na skupu podataka koji sadrži parove teksta koji je napisao čovek i teksta koji je napisala AI na istu temu. Ovaj skup podataka prikupili smo iz različitih izvora za koje verujemo da su ih napisali ljudi, kao što su podaci za pretreniranje i ljudske demonstracije na instrukcijama poslatim za InstructGPT. Svaki tekst smo podelili na instrukciju i odgovor. Na osnovu tih instrukcija generisali smo odgovore pomoću različitih jezičkih modela koje smo obučili mi i druge organizacije. Za našu veb-aplikaciju prilagođavamo prag pouzdanosti kako bismo zadržali nisku stopu lažno pozitivnih rezultata; drugim rečima, tekst označavamo kao verovatno AI-napisan samo ako je klasifikator veoma siguran.

Uticaj na nastavnike i poziv za povratne informacije

Svesni smo da je identifikovanje teksta koji je napisala AI važna tema razgovora među prosvetnim radnicima, a podjednako je važno i prepoznati ograničenja i uticaje klasifikatora teksta generisanog pomoću AI u učionici. Razvili smo preliminarni resurs(отвара се у новом прозору) o upotrebi ChatGPT‑a za prosvetne radnike, koji opisuje neke od načina upotrebe, kao i povezana ograničenja i razmatranja. Iako je ovaj resurs usmeren na prosvetne radnike, očekujemo da će naš klasifikator i povezani alati za klasifikaciju uticati i na novinare, istraživače dezinformacija i misinformacija i druge grupe.

Razgovaramo sa prosvetnim radnicima u Sjedinjenim Državama kako bismo saznali šta primećuju u svojim učionicama i kako bismo razgovarali o mogućnostima i ograničenjima ChatGPT‑a, a kako budemo učili, nastavićemo da širimo taj dijalog. Važno je voditi ove razgovore, jer je deo naše misije da velike jezičke modele primenjujemo bezbedno, u neposrednom kontaktu sa zajednicama na koje to utiče.

Ako vas ova pitanja direktno pogađaju (uključujući, ali ne ograničavajući se na nastavnike, administratore, roditelje, učenike i pružaoce obrazovnih usluga), pošaljite nam povratne informacije putem ovog formulara(отвара се у новом прозору). Direktne povratne informacije o preliminarnom resursu(отвара се у новом прозору) su korisne, a dobrodošli su i svi resursi koje prosvetni radnici razvijaju ili su im bili korisni (npr. smernice za kurseve, ažuriranja kodeksa časti i politika, interaktivni alati, programi AI pismenosti).

Autori

Jan Hendrik Kirchner, Lama Ahmad, Scott Aaronson и Jan Leike

Saradnici

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry