Pomažemo programerima stvarati sigurnija AI iskustva za tinejdžere
Predstavljamo skup pravila o sigurnosti tinejdžera oblikovanih kao upit za gpt-oss-safeguard
Danas objavljujemo sigurnosna pravila temeljena na upitima(otvara se u novom prozoru) kako bismo razvojnim programerima pomogli stvoriti zaštitu primjerenu dobi za tinejdžere. Osmišljene za rad s našim sigurnosnim modelom s otvorenim parametrima, gpt-oss-safeguard(otvara se u novom prozoru), ova pravila pojednostavljuju način na koji razvojni inženjeri sigurnosne zahtjeve pretvaraju u upotrebljive klasifikatore za sustave u stvarnim uvjetima.
Objavili smo modele s otvorenim težinama kako bismo demokratizirali pristup moćnoj umjetnoj inteligenciji i podržali široke inovacije. Istodobno vjerujemo da sigurnost i inovacije idu ruku pod ruku te da bi razvojni programeri trebali imati pristup sposobnim modelima, kao i alatima i pravilima za njihovu sigurnu i odgovornu primjenu. Ova smo pravila razvili kako bismo podržali razvojne inženjere u njihovim sigurnosnim nastojanjima da zaštite mlade korisnike, uz doprinos pouzdanih vanjskih organizacija, uključujući Common Sense Media(otvara se u novom prozoru) i everyone.ai(otvara se u novom prozoru).
Svjesni smo da tinejdžeri i odrasli imaju različite potrebe te da tinejdžerima trebaju dodatne zaštitne mjere. Ta su pravila osmišljena kako bi razvojnim inženjerima pomogla uzeti u obzir te razlike i stvorili okruženja koja osnažuju i koja su primjerena mlađim korisnicima.
Već se dugo zalažemo za razvoj umjetne inteligencije koja proširuje mogućnosti za mlade i istodobno ih štiti. U sklopu ovog rada ažurirali smo našu Specifikaciju modela(otvara se u novom prozoru)— smjernice koje definiraju predviđeno ponašanje OpenAI-jevih modela — kako bismo uključili Načela za mlađe od 18 godina(otvara se u novom prozoru) te uveli zaštitne mjere na razini proizvoda, kao što su roditeljski nadzor i predviđanje dobi, kako bismo bolje zaštitili mlađe korisnike. Također smo pozvali na zaštitne mjere na razini cijele industrije kroz naš Plan sigurnosti za tinejdžere.
Današnje izdanje nadovezuje se na te temelje. Ova sigurnosna pravila stavljamo na raspolaganje razvojnim programerima kako bismo im pružili podršku u primjeni sigurnosnih mjera za zaštitu tinejdžera i pomogli u demokratizaciji pristupa u ekosustavu otvorenih modela.
Iako sigurnosni klasifikatori poput gpt-oss-safeguard mogu otkriti štetan sadržaj, ovise o jasnim definicijama što taj sadržaj jest. U praksi, jedan od najvećih izazova s kojima se razvojni inženjeri suočavaju jest definiranje pravila koja precizno obuhvaćaju rizike specifične za tinejdžere i koja se mogu dosljedno primjenjivati u stvarnim sustavima.
Čak i iskusni timovi često imaju poteškoća s prevođenjem sigurnosnih ciljeva visoke razine u precizna, operativna pravila, osobito zato što to zahtijeva stručnost u predmetnom području i duboko znanje o umjetnoj inteligenciji. To može dovesti do praznina u zaštiti, nedosljedne provedbe ili preširokog filtriranja. Jasna i dobro definirana pravila ključan su temelj učinkovitih sigurnosnih sustava.
Kako bismo odgovorili na ovaj izazov, objavljujemo skup sigurnosnih pravila(otvara se u novom prozoru), prilagođenih uobičajenim rizicima s kojima se suočavaju tinejdžeri i oblikovanih na temelju pažljivog pregleda postojećih istraživanja o jedinstvenim razvojnim razlikama tinejdžera. Ova su pravila oblikovana kao upit koji se može izravno upotrebljavati s gpt-oss-safeguard(otvara se u novom prozoru) i drugim modelima za rasuđivanje, omogućujući programerima da lakše primjenjuju dosljedne sigurnosne standarde u svojim sustavima.
Početno izdanje uključuje pravila koja obuhvaćaju:
- grafički nasilni sadržaj,
- grafički seksualni sadržaj,
- štetne tjelesne ideale i ponašanja,
- opasne aktivnosti i izazove,
- romantičnu ili nasilnu igra uloga,
- dobno ograničenu robu i usluge.
Ta se pravila mogu upotrebljavati za filtriranje sadržaja u stvarnom vremenu, kao i za izvanmrežnu analizu sadržaja koji generiraju korisnici.
Strukturiranjem pravila kao upita programeri ih mogu lakše uklopiti u postojeće tijekove rada, prilagoditi svojim slučajevima upotrebe i iterativno ih poboljšavati tijekom vremena.

U oblikovanju razvoja ovih pravila surađivali smo s vanjskim organizacijama, uključujući Common Sense Media(otvara se u novom prozoru) i everyone.ai(otvara se u novom prozoru). Njihova stručnost pomogla je oblikovati opseg sadržaja koji treba obuhvatiti, ojačati strukturu upita i doraditi rubne slučajeve koje treba uzeti u obzir pri procjeni.
Ovaj rad odražava kontinuirani napor suradnje sa stručnjacima i širim ekosustavom radi unapređenja načina na koji sustavi umjetne inteligencije pružaju podršku mladima.
„Jedan od najvećih nedostataka u području sigurnosti umjetne inteligencije za tinejdžere bio je nedostatak jasnih i operativnih pravila na temelju kojih razvojni inženjeri mogu graditi sustav. Programeri često počinju od nule. Ova pravila temeljena na upitima pomažu uspostaviti smislenu osnovnu razinu sigurnosti u cijelom ekosustavu, a budući da su objavljene kao otvoreni kôd, mogu se s vremenom prilagođavati i poboljšavati. Ohrabruje nas vidjeti da ova vrsta infrastrukture postaje široko dostupna i nadamo se da će potaknuti više zajedničkih polazišta za sigurnost mladih u cijeloj industriji.”
—Robbie Torney, voditelj odjela za AI i digitalne procjene, Common Sense Media
„Napori poput ovoga, kojima se pravila o sigurnosti mladih mogu lakše provesti, vrijedni su jer pomažu pretočiti stručno znanje u smjernice koje se mogu upotrebljavati u stvarnim sustavima. Pravila o sadržaju važan su prvi korak, a ujedno otvaraju vrata širem radu na tome kako ponašanje modela može s vremenom oblikovati rizike relevantne za mlade. Nadahnut ovim radom i vlastitim istraživanjem, everyone.ai(otvara se u novom prozoru) također je izradio početna pravila o ponašanju usmjerena na rizike poput isključivosti i pretjeranog oslanjanja."
—Dr. Mathilde Cerioli, glavna znanstvenica u everyone.AI
Pravila su zamišljena kao početna točka, a ne kao sveobuhvatna ili konačna definicija ili jamstvo sigurnosti tinejdžera. Svaka aplikacija ima jedinstvene rizike, publiku i kontekste, a razvojni inženjeri najbolje razumiju rizike koje njihovi proizvodi i integracije umjetne inteligencije mogu predstavljati. Snažno potičemo razvojne inženjere da prilagode i prošire ova pravila prema svojim specifičnim potrebama te ih kombiniraju s drugim zaštitnim mjerama, poput odluka o dizajnu proizvoda, korisničkih kontrola, transparentnosti prilagođene tinejdžerima, sustava praćenja i promišljenih odgovora primjerenih dobi.
Vjerujemo da je slojevit pristup dubinske obrane ključan za izgradnju sigurnijih AI sustava. Ova se pravila temelje na našem internom iskustvu, ali ne odražavaju u potpunosti opseg internih politika ni zaštitnih mjera OpenAI-ja.
Ova pravila objavljujemo kao otvoreni kôd putem zajednice ROOST Model Community(otvara se u novom prozoru) kako bismo potaknuli suradnju i iteraciju. Da biste doprinijeli, poslali povratne informacije ili podijelili dodatna pravila o sigurnosti tinejdžera, posjetite repozitorij RMC GitHuba.(otvara se u novom prozoru)
Razvojni inženjeri i organizacije mogu prilagoditi ova pravila svojim specifičnim aplikacijama, prevesti ih na različite jezike i proširiti ih tako da obuhvate dodatna područja rizika. S vremenom se nadamo da će to pridonijeti čvršćim i zajedničkim temeljima za provedbu sigurnosnih pravila i politika u sustavima umjetne inteligencije.
Da biste započeli s gpt-oss-safeguardom, preuzmite ga s platforme Hugging Face(otvara se u novom prozoru).


