31 Januari 2023

New AI classifier for indicating AI-written text

Classifier AI Anyar Kanggo Nuduhake Teks Sing Ditulis AI

Lagi dimuat…

Wiwit 20 Juli 2023, classifier AI wis ora kasedhiya maneh amarga tingkat akurasine kurang. Kita lagi ngupaya nggabungake umpan balik lan saiki lagi nliti teknik provenance sing luwih efektif kanggo teks, lan wis nggawe komitmen kanggo ngembangake lan nerapake mekanisme sing ngidini pangguna mangerteni apa isi audio utawa visual digawe dening AI.

Kita wis nglatih sawijining classifier kanggo mbedakake antarane teks sing ditulis manungsa lan teks sing ditulis AI saka macem-macem panyedhiya. Sanadyan ora mungkin ndeteksi kanthi andal kabeh teks sing ditulis AI, kita yakin classifier sing apik bisa mbantu langkah mitigasi kanggo klaim palsu yen teks sing digawe AI ditulis dening manungsa: contone, nglakokake kampanye misinformasi otomatis⁠, nggunakake piranti AI kanggo kecurangan akademik, lan nampilake chatbot AI kaya-kaya manungsa.

Classifier kita durung sakabehe andal. Ing evaluasi kita marang “challenge set” teks basa Inggris, classifier kita kanthi bener ngenali 26% teks sing ditulis AI (true positives) minangka “kamungkinan ditulis AI,” dene 9% saka wektu salah menehi label teks sing ditulis manungsa minangka ditulis AI (false positives). Keandalan classifier kita biasane mundhak nalika dawa teks input saya gedhe. Dibandhingake karo classifier sing wis dirilis sadurunge⁠(mbukak ing jendhela anyar), classifier anyar iki luwih andal kanthi signifikan kanggo teks saka sistem AI sing luwih anyar.

Kita nggawe classifier iki kasedhiya kanggo publik supaya entuk umpan balik apa piranti sing durung sampurna kaya iki migunani. Pakaryan kita babagan deteksi teks sing digawe AI bakal terus dilanjutake, lan kita ngarepake bisa nuduhake cara sing luwih apik ing mangsa ngarep.

Coba classifier gratis sing isih dikembangake iki dhewe:

Coba classifier(mbukak ing jendhela anyar)

Watesan

Classifier kita nduweni sawetara watesan penting. Iki ora kena digunakake minangka alat utama kanggo nggawe keputusan, nanging minangka pelengkap kanggo cara liya kanggo nemtokake sumber sawijining teks.

Classifier iki banget ora andal kanggo teks cekak (ing ngisor 1.000 karakter). Malah teks sing luwih dawa uga kadhang kala diwenehi label sing salah dening classifier.
Kadhang kala teks sing ditulis manungsa bakal salah nanging kanthi yakin diwenehi label minangka ditulis AI dening classifier kita.
Kita nyaranake nggunakake classifier iki mung kanggo teks basa Inggris. Kinerjane luwih ala kanthi signifikan ing basa liya lan ora andal kanggo kode.
Teks sing gampang banget diprediksi ora bisa diidentifikasi kanthi andal. Contone, ora mungkin prédhiksi apa dhaptar 1.000 angka prima pisanan ditulis AI utawa manungsa, amarga jawaban sing bener mesthi padha.
Teks sing ditulis AI bisa disunting kanggo ngindhari classifier. Classifier kaya duweke kita bisa dianyari lan dilatih maneh adhedhasar serangan sing kasil, nanging durung cetha apa deteksi nduweni kauntungan ing jangka panjang.
Classifier adhedhasar jaringan saraf dikenal kurang apik kalibrasine ing njaba data latihe. Kanggo input sing beda banget saka teks ing set latihan kita, classifier kadhang kala banget yakin marang prédhiksi sing salah.

Ngulat classifier

Classifier kita yaiku model basa sing di-fine-tune nganggo dataset pasangan teks sing ditulis manungsa lan teks sing ditulis AI babagan topik sing padha. Kita ngumpulake dataset iki saka macem-macem sumber sing kita yakini ditulis dening manungsa, kayata data pretraining lan demonstrasi manungsa ing prompt sing dikirim menyang InstructGPT⁠. Saben teks kita bagi dadi prompt lan respons. Saka prompt iki kita ngasilake respons saka macem-macem model basa sing dilatih dening kita lan organisasi liyane. Kanggo aplikasi web kita, kita nyetel ambang kapercayan supaya tingkat false positive tetep endhek; tegese, kita mung menehi tandha teks minangka kamungkinan ditulis AI yen classifier pancen yakin banget.

Dampak tumrap pendidik lan ajakan menehi masukan

Kita ngerti yen ngenali teks sing ditulis AI wis dadi topik diskusi penting ing kalangan pendidik, lan sing padha pentinge yaiku ngakoni watesan lan dampak classifier teks sing digawe AI ing ruang kelas. Kita wis ngembangake sumber awal⁠(mbukak ing jendhela anyar) babagan panggunaan ChatGPT kanggo para pendidik, sing njlentrehake sawetara panggunaan uga watesan lan pertimbangan sing gegandhengan. Sanadyan sumber iki fokus kanggo pendidik, kita ngarepake classifier kita lan piranti classifier sing gegandhengan bakal nduweni dampak tumrap jurnalis, peneliti mis/dis-informasi, lan klompok liyane.

Kita lagi sesambungan karo para pendidik ing Amerika Serikat kanggo sinau apa sing dheweke deleng ing ruang kelas lan kanggo ngrembug kapabilitas lan watesan ChatGPT, lan kita bakal terus nggedhekake jangkauan iki sakwise kita sinau luwih akeh. Iki obrolan-obrolan penting amarga bagean saka misi kita yaiku nyebarake model basa gedhe kanthi aman, kanthi kontak langsung karo komunitas sing kena dampak.

Yen sampeyan kena dampak langsung saka masalah iki (kalebu nanging ora winates kanggo guru, administrator, wong tuwa, siswa, lan panyedhiya layanan pendidikan), tulung wenehana umpan balik nganggo formulir iki⁠(mbukak ing jendhela anyar). Umpan balik langsung babagan sumber awal⁠(mbukak ing jendhela anyar) migunani, lan kita uga nampani sumber daya apa wae sing lagi dikembangake para pendidik utawa sing wis ditemokake migunani (umpamane pedoman mata kuliah, kode etik lan pembaruan kabijakan, piranti interaktif, program literasi AI).

Panulis

Jan Hendrik Kirchner, Lama Ahmad, Scott Aaronson, Jan Leike

Kontributor

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry