24. märts 2026

Aitame arendajatel luua teismeliste jaoks turvalisemaid TI kogemusi

Tutvustame gpt-oss-safeguardi jaoks mõeldud viipadeks vormistatud teismeliste ohutuse põhimõtteid

Laadimine…

Täna avaldame viipadel põhinevad ohutuspoliitikad⁠(avaneb uues aknas), et aidata arendajatel luua teismelistele eakohaseid kaitsemeetmeid. Olles loodud töötama koos meie avatud kaaluga ohutusmudeliga gpt-oss-safeguard⁠(avaneb uues aknas), lihtsustavad need poliitikad seda, kuidas arendajad muudavad ohutusnõuded reaalse maailma süsteemides kasutatavateks klassifikaatoriteks.

Andsime välja avatud kaaluga mudelid, et demokratiseerida juurdepääsu võimsale TI-le ja toetada laiapõhjalist innovatsiooni. Samal ajal usume, et ohutus ja innovatsioon käivad käsikäes ning arendajatel peaks olema juurdepääs võimekatele mudelitele, tööriistadele ja põhimõtetele, mis võimaldavad neid ohutult ja vastutustundlikult kasutusele võtta. Töötasime need põhimõtted välja, et toetada arendajaid nende ohutusalastes jõupingutustes noorte kasutajate kaitsmisel, kaasates sisendit usaldusväärsetelt välistelt organisatsioonidelt, sealhulgas Common Sense Media⁠(avaneb uues aknas) ja everyone.ai⁠(avaneb uues aknas).

Me mõistame, et teismelistel ja täiskasvanutel on erinevad vajadused ning et teismelised vajavad täiendavat kaitset. Need põhimõtted on loodud selleks, et aidata arendajatel nende erinevustega arvestada ning luua kogemusi, mis on nooremate kasutajate jaoks ühtaegu nii jõustavad kui ka sobivad.

Tugineme oma laiemale tööle noorte kaitsmiseks

Me oleme juba pikka aega pühendunud sellise TI loomisele, mis avardab noorte võimalusi, hoides neid samal ajal kaitstud. Selle töö osana uuendasime oma mudeli spetsifikatsiooni⁠(avaneb uues aknas)— suuniseid, mis määratlevad OpenAI mudelite kavandatud käitumise —, et lisada sinna alla 18-aastaste (U18) põhimõtted⁠(avaneb uues aknas), ning võtsime kasutusele tootetasandi kaitsemeetmed, nagu vanemlik järelevalve⁠ ja vanuse ennustamine⁠, et nooremaid kasutajaid paremini kaitsta. Me oleme oma teismeliste turvalisuse kava⁠ kaudu nõudnud ka kogu tööstusharu hõlmavaid kaitsemeetmeid.

Tänane versioon tugineb sellele vundamendile. Me teeme need ohutuspõhimõtted arendajatele kättesaadavaks, et toetada neid teismelistele mõeldud kaitsemeetmete juurutamisel ja aidata demokratiseerida juurdepääsu avatud kaaludega ökosüsteemis.

Teismeliste turvalisuse tõlkimine selgeteks ja kasutatavateks põhimõteteks

Kuigi turvaklassifikaatorid, nagu gpt-oss-safeguard, suudavad tuvastada kahjulikku sisu, sõltuvad need selgetest määratlustest, mis kirjeldavad, mida see sisu endast kujutab. Praktikas on üks suurimaid väljakutseid arendajatele selliste poliitikate määratlemine, mis kajastavad täpselt teismelistele omaseid riske ja mida saab järjepidevalt reaalsetes süsteemides rakendada.

Isegi kogenud meeskondadel on sageli raskusi kõrgetasemeliste ohutuseesmärkide muutmisega täpseteks ja rakendatavateks reegliteks, kuna see nõuab nii valdkonnaekspertiisi kui ka põhjalikke teadmisi TI-st. See võib põhjustada lünki kaitses, ebajärjekindlat jõustamist või liiga laia filtreerimist. Selged ja täpselt määratletud poliitikad on tõhusate turvasüsteemide kriitiline alus.

Arendajate abistamine teismeliste turvalisuse rakendamisel

Selle probleemi lahendamiseks avaldame rea ohutuspõhimõtteid⁠(avaneb uues aknas), mis on kohandatud teismeliste seas levinud riskidele ning mis põhinevad teismeliste ainulaadseid arengulisi eripärasid käsitleva olemasoleva teadustöö põhjalikul analüüsil. Need põhimõtted on struktureeritud viipadeks, mida saab kasutada otse koos mudeliga gpt-oss-safeguard⁠(avaneb uues aknas) ja teiste arutlusmudelitega, võimaldades arendajatel oma süsteemides järjepidevaid ohutusstandardeid hõlpsamalt rakendada.

Esialgne versioon hõlmab põhimõtteid, mis käsitlevad järgnevat.

Graafiline ja vägivaldne sisu
Selgesõnaline seksuaalne sisu
Kahjulikud kehaideaalid ja käitumised
Ohtlikud tegevused ja väljakutsed
Romantiline või vägivaldne rollimäng
Vanusepiiranguga kaubad ja teenused

Neid põhimõtteid saab kasutada sisu reaalajas filtreerimiseks, samuti kasutajate loodud sisu võrguväliseks analüüsiks.

Kui arendajad struktureerivad põhimõtted viipadeks, saavad nad neid hõlpsamalt olemasolevatesse töövoogudesse integreerida, oma kasutusjuhtudele kohandada ja neid aja jooksul täiustada.

Diagramm, mis kujutab teismeliste turvalisuse poliitikakategooriaid ja teismelistega seotud sisu suunamist GPT-OSS-i kaitsesüsteemi, mis sisemise arutluse põhjal poliitikaotsuseid teeb.

Välisekspertide sisendi põhjal välja töötatud

Me tegime koostööd väliste organisatsioonidega, sealhulgas Common Sense Media⁠(avaneb uues aknas) ja everyone.ai⁠(avaneb uues aknas), et aidata kaasa nende põhimõtete väljatöötamisele. Nende asjatundlikkus aitas kujundada käsitletava sisu ulatust, tugevdada viipade struktuuri ning täpsustada erijuhte, mida nende hindamisel arvesse võtta.

See töö peegeldab käimasolevat püüdlust teha koostööd ekspertide ja laiema ökosüsteemiga, et parandada seda, kuidas TI-süsteemid noori toetavad.

„Üks suurimaid lünki teismeliste TI-ohutuses on olnud selgete ja rakendatavate põhimõtete puudumine, millele arendajad tugineda saavad. Sageli alustavad arendajad nullist. Need viipadel põhinevad põhimõtted aitavad kehtestada kogu ökosüsteemis sisuka minimaalse ohutustaseme ning kuna need avaldatakse avatud lähtekoodina, saab neid aja jooksul kohandada ja täiustada. „Meil on hea meel näha, et selline taristu tehakse laialdaselt kättesaadavaks, ning loodame, et see aitab kogu tööstusharus kaasa rohkemate ühiste noorte ohutuse lähtekohtade kujunemisele.”

—Robbie Torney, Common Sense Media TI ja digihindamise juht

„Sellised jõupingutused, mis muudavad noorte turvalisuse põhimõtted praktilisemalt rakendatavaks, on väärtuslikud, sest need aitavad muuta ekspertteadmised juhisteks, mida saab kasutada tegelikes süsteemides. Sisupõhimõtted on oluline esimene samm ning need avavad ka ukse laiemale tööle selle kallal, kuidas mudeli käitumine võib aja jooksul kujundada noortega seotud riske. Sellest tööst ja meie enda uurimistööst inspireerituna on ka everyone.ai⁠(avaneb uues aknas) loonud esialgsed käitumispõhimõtted, mis keskenduvad sellistele riskidele nagu eksklusiivsus ja liigne sõltuvus.“

—Dr. Mathilde Cerioli, everyone.AI teadusjuht

Lähtepunkt, mitte täielik lahendus

Need põhimõtted on mõeldud lähtepunktiks, mitte teismeliste turvalisuse täielikuks või lõplikuks määratluseks ega garantiiks. Igal rakendusel on unikaalsed riskid, sihtrühmad ja kontekstid ning arendajad on parimas positsioonis mõistmaks riske, mida nende tooted ja TI integratsioonid võivad kaasa tuua. Me soovitame tungivalt arendajatel kohandada ja laiendada neid põhimõtteid vastavalt oma konkreetsetele vajadustele ning kombineerida neid muude kaitsemeetmetega, nagu tootedisaini otsused, kasutajapoolsed juhtelemendid, teismelistele arusaadav läbipaistvus, jälgimissüsteemid ja läbimõeldud, eakohased reageerimisviisid.

Me usume, et mitmekihiline sügava kaitse põhine⁠ lähenemisviis on ohutumate TI-süsteemide loomisel hädavajalik. Need põhimõtted tuginevad meie sisemisele kogemusele, kuid need ei kajasta täielikult OpenAI sisemisi poliitikaid ega kaitsemeetmeid.

Tee edasi

Avaldame need eeskirjad avatud lähtekoodina ROOST Model Community⁠(avaneb uues aknas) kaudu, et soodustada koostööd ja iteratsiooni. Panustamiseks, tagasiside andmiseks või täiendavate teismeliste turvalisuse eeskirjade jagamiseks külastage RMC GitHubi varamut.⁠(avaneb uues aknas)

Arendajad ja organisatsioonid saavad kohandada neid põhimõtteid oma konkreetsete rakenduste jaoks, tõlkida need eri keeltesse ning laiendada neid nii, et need hõlmaksid täiendavaid riskivaldkondi. Aja jooksul loodame, et see aitab kaasa tugevama ja ühise aluse loomisele ohutuspõhimõtete rakendamiseks tehisintellekti süsteemides.

Alustamaks gpt-oss-safeguard'iga laadige see alla Hugging Face⁠(avaneb uues aknas)'i kaudu.

Jätka lugemist

Vaata kõiki

GPT-5.5 bio-veapreemia

Ohutus9. juuli 2026

Noorte ohutuse ja võimaluste edendamine üleilmse juhtimise kaudu

Globaalne poliitika2. juuni 2026

Ühine juhend usaldusväärseteks kolmanda osapoole hindamisteks

Ohutus29. mai 2026