New AI classifier for indicating AI-written text

Mill-20 ta’ Lulju 2023, il-klassifikatur tal-IA m’għadux disponibbli minħabba r-rata baxxa ta’ preċiżjoni tiegħu. Qed naħdmu biex ninkorporaw il-feedback u bħalissa qed nirriċerkaw tekniki ta’ provenjenza aktar effettivi għat-test, u ħadna impenn li niżviluppaw u nħaddmu mekkaniżmi li jippermettu lill-utenti jifhmu jekk kontenut awdjo jew viżiv huwiex iġġenerat mill-IA.
Ħarrġna klassifikatur biex jiddistingwi bejn test miktub minn bniedem u test miktub minn IA minn varjetà ta’ fornituri. Filwaqt li huwa impossibbli li jinstab b’mod affidabbli t-test kollu miktub mill-IA, nemmnu li klassifikaturi tajbin jistgħu jinfurmaw mitigazzjonijiet għal pretensjonijiet foloz li test iġġenerat mill-IA nkiteb minn bniedem: pereżempju, it-tmexxija ta’ kampanji awtomatizzati ta’ diżinformazzjoni, l-użu ta’ għodod tal-IA għal diżonestà akkademika, u l-preżentazzjoni ta’ chatbot tal-IA bħala bniedem.
Il-klassifikatur tagħna mhuwiex kompletament affidabbli. Fl-evalwazzjonijiet tagħna fuq “sett ta’ sfida” ta’ testi bl-Ingliż, il-klassifikatur tagħna jidentifika b’mod korrett 26% tat-test miktub mill-IA (pożittivi veri) bħala “probabbilment miktub mill-IA,” filwaqt li b’mod żbaljat itikketta test miktub minn bniedem bħala miktub mill-IA 9% tal-ħin (pożittivi foloz). L-affidabbiltà tal-klassifikatur tagħna tipikament titjieb hekk kif jiżdied it-tul tat-test tal-input. Meta mqabbel mal-klassifikatur li ħriġna qabel(jinfetaħ f’tieqa ġdida), dan il-klassifikatur il-ġdid huwa ferm aktar affidabbli fuq test minn sistemi tal-IA aktar reċenti.
Qed nagħmlu dan il-klassifikatur disponibbli pubblikament biex niksbu feedback dwar jekk għodod imperfetti bħal din humiex utli. Il-ħidma tagħna fuq l-identifikazzjoni ta’ test iġġenerat mill-IA se tkompli, u nittamaw li naqsmu metodi mtejba fil-futur.
Ipprova int stess il-klassifikatur tagħna bla ħlas li għadu qed jiġi żviluppat:
Il-klassifikatur tagħna għandu numru ta’ limitazzjonijiet importanti. M’għandux jintuża bħala għodda ewlenija għat-teħid ta’ deċiżjonijiet, iżda pjuttost bħala komplement għal metodi oħra biex jiġi ddeterminat is-sors ta’ biċċa test.
- Il-klassifikatur huwa ferm mhux affidabbli fuq testi qosra (taħt l-1,000 karattru). Anke testi itwal xi drabi jiġu ttikkettati b’mod żbaljat mill-klassifikatur.
- Xi drabi test miktub minn bniedem jiġi ttikkettat b’mod żbaljat iżda b’kunfidenza bħala miktub mill-IA mill-klassifikatur tagħna.
- Nirrakkomandaw li l-klassifikatur jintuża biss għal test bl-Ingliż. Il-prestazzjoni tiegħu hija ferm agħar f’lingwi oħra u mhuwiex affidabbli fuq il-kodiċi.
- Test li huwa prevedibbli ħafna ma jistax jiġi identifikat b’mod affidabbli. Pereżempju, huwa impossibbli li wieħed ibassar jekk lista tal-ewwel 1,000 numru prim inkixfitx mill-IA jew mill-bnedmin, għax it-tweġiba korretta hija dejjem l-istess.
- Test miktub mill-IA jista’ jiġi editjat biex jevita l-klassifikatur. Klassifikaturi bħal tagħna jistgħu jiġu aġġornati u mħarrġa mill-ġdid abbażi ta’ attakki li rnexxew, iżda mhuwiex ċar jekk l-identifikazzjoni għandhiex vantaġġ fit-tul.
- Klassifikaturi bbażati fuq netwerks newrali huma magħrufa li jkunu kalibrati ħażin barra mid-data tat-taħriġ tagħhom. Għal inputs li huma differenti ħafna mit-test fis-sett ta’ taħriġ tagħna, il-klassifikatur xi drabi jkun kunfidenti ħafna f’previżjoni żbaljata.
Il-klassifikatur tagħna huwa mudell tal-lingwa rfinat fuq dataset ta’ pari ta’ test miktub minn bniedem u test miktub mill-IA fuq l-istess suġġett. Ġbarna dan id-dataset minn varjetà ta’ sorsi li nemmnu li nkitbu mill-bnedmin, bħad-data ta’ pretraining u dimostrazzjonijiet umani fuq prompts sottomessi lil InstructGPT. Qsamna kull test fi prompt u tweġiba. Fuq dawn il-prompts iġġenerajna tweġibiet minn varjetà ta’ mudelli tal-lingwa differenti mħarrġa minna u minn organizzazzjonijiet oħra. Għall-web app tagħna, naġġustaw il-limitu tal-kunfidenza biex inżommu baxxa r-rata ta’ pożittivi foloz; fi kliem ieħor, nimmarkaw test bħala probabbilment miktub mill-IA biss jekk il-klassifikatur ikun kunfidenti ħafna.
Nirrikonoxxu li l-identifikazzjoni ta’ test miktub mill-IA kienet punt importanti ta’ diskussjoni fost l-edukaturi, u daqstant ieħor importanti huwa li jiġu rikonoxxuti l-limiti u l-impatti tal-klassifikaturi ta’ test iġġenerat mill-IA fil-klassi. Żviluppajna riżorsa preliminari(jinfetaħ f’tieqa ġdida) dwar l-użu ta’ ChatGPT għall-edukaturi, li tiddeskrivi xi wħud mill-użi kif ukoll il-limitazzjonijiet u l-kunsiderazzjonijiet marbuta magħhom. Filwaqt li din ir-riżorsa hija ffukata fuq l-edukaturi, nistennew li l-klassifikatur tagħna u l-għodod relatati tal-klassifikatur ikollhom impatt fuq il-ġurnalisti, ir-riċerkaturi tal-miż/disinformazzjoni, u gruppi oħra.
Qed ninvolvu edukaturi fl-Istati Uniti biex nitgħallmu x’qed jaraw fil-klassijiet tagħhom u biex niddiskutu l-kapaċitajiet u l-limitazzjonijiet ta’ ChatGPT, u se nkomplu nwessgħu l-ħidma tagħna ta’ outreach hekk kif nitgħallmu. Dawn huma konversazzjonijiet importanti li rridu jkollna peress li parti mill-missjoni tagħna hija li nħaddmu mudelli kbar tal-lingwa b’mod sikur, f’kuntatt dirett mal-komunitajiet affettwati.
Jekk inti milqut direttament minn dawn il-kwistjonijiet (inklużi iżda mhux limitati għal għalliema, amministraturi, ġenituri, studenti, u fornituri ta’ servizzi edukattivi), jekk jogħġbok agħtina feedback billi tuża din il-formola(jinfetaħ f’tieqa ġdida). Feedback dirett dwar ir-riżorsa preliminari(jinfetaħ f’tieqa ġdida) huwa utli, u nilqgħu wkoll kwalunkwe riżorsa li l-edukaturi qed jiżviluppaw jew sabu utli (eż., linji gwida tal-kors, aġġornamenti għall-kodiċi tal-unur u l-politiki, għodod interattivi, programmi ta’ litteriżmu fl-IA).
Awturi
Kontributuri
Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry


