2026 m. kovo 24 d.

Pagalba kūrėjams kuriant saugesnes DI patirtis paaugliams

Pristatome paauglių saugos strategijų rinkinį, suformuluotą kaip užklausos, skirtą „gpt-oss-safeguard“

Įkeliama...

Šiandien išleidžiame užklausomis pagrįstas saugos strategijas⁠(atsidaro naujame lange), kad padėtume kūrėjams sukurti amžių atitinkančias apsaugos priemones paaugliams. Sukurtos veikti su mūsų atvirųjų svorių saugos modeliu „gpt-oss-safeguard“⁠(atsidaro naujame lange), šios strategijas palengvina kūrėjams saugos reikalavimų pavertimą tinkamais naudoti klasifikatoriais realiose sistemose.

Atvirųjų svorių modelius išleidome siekdami demokratizuoti prieigą prie galingo DI ir skatinti plataus mąsto inovacijas. Kartu tikime, kad sauga ir inovacijos yra neatsiejamos, o kūrėjai turėtų turėti prieigą prie pajėgių modelių bei priemonių ir strategijų, leidžiančių juos saugiai ir atsakingai diegti. Šias strategijas sukūrėme norėdami padėti kūrėjams užtikrinti jaunųjų naudotojų saugą, atsižvelgdami į patikimų išorės organizacijų, įskaitant „Common Sense Media“⁠(atsidaro naujame lange) ir „everyone.ai“⁠(atsidaro naujame lange), indėlį.

Suprantame, kad paauglių ir suaugusiųjų poreikiai skiriasi, o paaugliams reikia papildomų apsaugos priemonių. Šios strategijas sukurtos padėti kūrėjams atsižvelgti į šiuos skirtumus ir kurti patirtis, kurios ir įgalina, ir yra tinkamos jaunesniems naudotojams.

Plėtojame savo platesnes pastangas apsaugoti jaunimą

Jau seniai esame įsipareigoję kurti DI, kuris atveria daugiau galimybių jaunimui ir kartu užtikrina jų saugumą. Vykdydami šią veiklą atnaujinome modelio specifikaciją⁠(atsidaro naujame lange) – gaires, apibrėžiančias numatytą „OpenAI“ modelių elgseną, – įtraukdami jaunesniems nei 18 metų asmenims skirtus principus⁠(atsidaro naujame lange), ir pristatėme produkto lygmens apsaugos priemones, tokias kaip tėvų kontrolė⁠ bei amžiaus nustatymas⁠, kad geriau apsaugotume jaunesnius naudotojus. Taip pat raginome užtikrinti visos pramonės masto apsaugą pateikdami savo Teen Safety Blueprint⁠ (Paauglių saugos gaires).

Šiandienos leidimas grindžiamas šiuo pagrindu. Padarome šias saugos strategijas prieinamas kūrėjams, kad padėtume jiems diegti paauglių apsaugos priemones ir prisidėtume prie prieigos atvirųjų svorių ekosistemoje demokratizavimo.

Paauglių saugos pavertimas aiškiomis, naudoti tinkamomis strategijomis

Nors saugos klasifikatoriai, tokie kaip „gpt-oss-safeguard“, gali aptikti žalingą turinį, jie priklauso nuo aiškių apibrėžimų, kas tas turinys yra. Praktikoje vienas didžiausių iššūkių, su kuriais susiduria kūrėjai, yra apibrėžti strategijas, kurios tiksliai apimtų specifinę paaugliams kylančią riziką ir galėtų būti nuosekliai taikomos realiose sistemose.

Net patyrusioms komandoms dažnai kyla sunkumų paversti aukšto lygio saugos tikslus tiksliomis, veikiančiomis taisyklėmis, ypač todėl, kad tam reikia ir dalykinių žinių, ir gilaus DI išmanymo. Dėl to gali atsirasti apsaugos spragų, ji gali būti taikoma nenuosekliai arba filtravimas gali būti pernelyg platus. Aiškios, tinkamai apibrėžtos apimties strategijos yra esminis efektyvių saugos sistemų pagrindas.

Pagalba kūrėjams pritaikyti paauglių saugą praktikoje

Siekdami spręsti šį iššūkį, išleidžiame saugos strategijų⁠(atsidaro naujame lange) rinkinį, pritaikytą dažniausiai paauglių patiriamai rizikai ir pagrįstą atidžia esamų tyrimų apie unikalius paauglių raidos skirtumus apžvalga. Šios strategijos suformuluotos kaip užklausos, kurias galima tiesiogiai naudoti su gpt-oss-safeguard⁠(atsidaro naujame lange) ir kitais protavimo modeliais, taip leidžiant kūrėjams lengviau taikyti nuoseklius saugos standartus visose savo sistemose.

Į pradinį leidimą įtrauktos strategijos, apimančios šias sritis:

vaizdus smurtinis turinys;
vaizdus seksualinio pobūdžio turinys;
žalingi kūno idealai ir elgsena;
pavojingos veiklos ir iššūkiai;
romantinis ar smurtinis vaidmenų žaidimas;
amžiaus cenzą turinčios prekės ir paslaugos.

Šias strategijas galima naudoti turiniui filtruoti realiuoju laiku, taip pat naudotojų sugeneruotam turiniui analizuoti atsietuoju režimu.

Suformulavę strategijas kaip užklausas, kūrėjai gali lengviau jas integruoti į esamas darbo eigas, pritaikyti savo naudojimo atvejams ir ilgainiui tobulinti.

Schema, vaizduojanti paauglių saugos strategijos kategorijas ir su paaugliais susijusį turinį, patenkantį į „gpt-oss-safeguard“ sistemą, kuri priima strategijos sprendimus, pagrįstus vidiniu protavimu.

Sukurta atsižvelgiant į išorės ekspertų indėlį

Bendradarbiavome su išorės organizacijomis, įskaitant „Common Sense Media“⁠(atsidaro naujame lange) ir „everyone.ai“⁠(atsidaro naujame lange), pasinaudodami jų įžvalgomis kuriant šias strategijas. Jų patirtis padėjo suformuoti aprėpiamo turinio apimtį, sustiprinti užklausų struktūrą ir patikslinti ribinius atvejus, į kuriuos reikia atsižvelgti atliekant vertinimą.

Tai yra dalis nuolatinių pastangų kartu su ekspertais ir platesne ekosistema gerinti tai, kaip DI sistemos padeda jaunimui.

„Viena didžiausių DI saugos spragų, susijusių su paaugliais, buvo aiškių, veikiančių strategijų, kuriomis kūrėjai galėtų remtis, trūkumas. Dažnai kūrėjams tenka viską pradėti nuo nulio. Šios užklausomis pagrįstos strategijos padeda nustatyti reikšmingą saugos bazę visoje ekosistemoje, o kadangi jos yra atviros visiems, ilgainiui jas galima pritaikyti ir tobulinti. Džiaugiamės matydami, kad tokia infrastruktūra tampa plačiai prieinama, ir tikimės, jog tai paskatins daugiau bendrų jaunimo saugos atskaitos taškų visoje pramonėje.“

– Robbie Torney, „Common Sense Media“ DI ir skaitmeninių vertinimų vadovas

„Tokios pastangos, dėl kurių jaunimo saugos strategijos tampa labiau pritaikomos praktikoje, yra vertingos, nes jos padeda ekspertų žinias paversti gairėmis, kurias galima naudoti realiose sistemose. Turinio strategijos – svarbus pirmasis žingsnis, atveriantis kelią platesniam darbui, susijusiam su tuo, kaip modelio elgsena ilgainiui gali formuoti jaunimui aktualią riziką. Įkvėpta šio darbo ir mūsų pačių tyrimų, „everyone.ai“⁠(atsidaro naujame lange) taip pat sukūrė pradinę elgsenos strategiją, orientuotą į tokią riziką kaip atskirtis ir pernelyg didelis pasikliovimas.“

– Dr. Mathilde Cerioli, „everyone.AI“ vyriausioji mokslininkė

Atskaitos taškas, o ne galutinis sprendimas

Šios strategijos yra tik atskaitos taškas, o ne išsamus ar galutinis paauglių saugos apibrėžimas ar garantija. Kiekviena programa pasižymi unikalia rizika, auditorija ir kontekstu, o kūrėjai geriausiai supranta riziką, kurią gali kelti jų produktai ir DI integracijos. Griežtai raginame kūrėjus pritaikyti ir išplėsti šias strategijas atsižvelgiant į savo poreikius ir derinti jas su kitomis apsaugos priemonėmis, pavyzdžiui, produkto dizaino sprendimais, naudotojų valdikliais, paaugliams pritaikytu skaidrumu, stebėjimo sistemomis bei apgalvotais, amžių atitinkančiais atsakymais.

Tikime, kad giliosios gynybos⁠ (angl. „defense in depth“) metodas, apimantis kelis lygmenis, yra būtinas kuriant saugesnes DI sistemas. Šios strategijos remiasi mūsų vidine patirtimi, tačiau jos neatspindi visos „OpenAI“ vidinių strategijų ar apsaugos priemonių apimties.

Tolesni žingsniai

Šias strategijas išleidžiame kaip atvirąjį šaltinį per bendruomenę ROOST Model Community⁠(atsidaro naujame lange), kad paskatintume bendradarbiavimą ir tobulinimą. Norėdami prisidėti, pateikti atsiliepimų ar pasidalyti papildomomis paauglių saugos strategijomis, apsilankykite RMC „GitHub“ saugykloje.⁠(atsidaro naujame lange)

Kūrėjai ir organizacijos gali pritaikyti šias strategijas savo konkrečioms programoms, išversti jas į skirtingas kalbas ir išplėsti, kad jos apimtų papildomas rizikos sritis. Tikimės, kad ilgainiui tai prisidės prie tvirtesnio ir bendro pagrindo, skirto saugos strategijoms DI sistemose diegti.

Norėdami pradėti naudoti „gpt-oss-safeguard“, atsisiųskite jį iš Hugging Face⁠(atsidaro naujame lange).

Skaityti toliau

Peržiūrėti viską

Sauga ir suderinimas ilgos laiko perspektyvos modelių eroje

Sauga2026-07-20

Why teens deserve access to safe AI — card image

Kodėl paaugliams reikia prieigos prie saugaus DI

Sauga2026-07-16

GPT-Red: atsparumo savitobulinimo atrakinimas

Sauga2026-07-15