24. mars 2026

Að hjálpa forriturum að skapa öruggari gervigreindarupplifanir fyrir unglinga

Við kynnum safn öryggisreglna fyrir unglinga, sett fram sem kvaðningar fyrir gpt-oss-safeguard.

Hleður inn...

Í dag kynnum við kvaðningartengdar öryggisreglur⁠(opnast í nýjum glugga) til að hjálpa forriturum að búa til aldurshæfar varnir fyrir unglinga. Þessar reglur eru hannaðar til að virka með öryggislíkaninu okkar með opnu vægi, gpt-oss-safeguard⁠(opnast í nýjum glugga), og einfalda hvernig forritarar breyta öryggiskröfum í nothæfa flokkara fyrir raunveruleg kerfi.

Við gáfum út opin vigtarlíkön til að lýðræðisvæða aðgang að öflugri gervigreind og styðja við víðtæka nýsköpun. Á sama tíma teljum við að öryggi og nýsköpun fari saman og að forritarar ættu að hafa aðgang að öflugum líkönum sem og þeim verkfærum og reglum sem þarf til að innleiða þau á öruggan og ábyrgan hátt. Við þróuðum þessar reglur til að styðja forritara í öryggisviðleitni þeirra til að vernda unga notendur, með framlagi frá traustum utanaðkomandi samtökum, þar á meðal Common Sense Media⁠(opnast í nýjum glugga) og everyone.ai⁠(opnast í nýjum glugga).

Við gerum okkur grein fyrir því að unglingar og fullorðnir hafa ólíkar þarfir og að unglingar þurfa viðbótarvernd. Þessar reglur eru hannaðar til að hjálpa forriturum að taka mið af þessum mun og skapa upplifanir sem eru bæði eflandi og viðeigandi fyrir yngri notendur.

Með því að byggja á víðtækara starfi okkar til að vernda ungt fólk

Við höfum lengi verið staðráðin í að þróa gervigreind sem eykur tækifæri fyrir ungt fólk, jafnframt því að tryggja öryggi þess. Sem hluta af þessari vinnu uppfærðum við líkanslýsingu okkar⁠(opnast í nýjum glugga)—leiðbeiningarnar sem skilgreina fyrirhugaða hegðun líkana OpenAI—til að fela í sér meginreglur fyrir börn undir 18 ára aldri (U18)⁠(opnast í nýjum glugga) og innleiddum verndarráðstafanir á vörustigi, svo sem foreldraeftirlit⁠ og aldursspá⁠, til að vernda yngri notendur betur. Við höfum einnig hvatt til verndarráðstafana fyrir allan iðnaðinn með öryggisáætlun okkar fyrir unglinga⁠.

Útgáfa dagsins í dag byggir á þeim grunni. Við erum að gera þessar öryggisreglur aðgengilegar forriturum til að styðja þá við innleiðingu öryggisverndar fyrir unglinga og stuðla að lýðræðisvæðingu aðgangs innan vistkerfis opinna líkana.

Að breyta öryggi unglinga í skýrar og nothæfar reglur

Þótt öryggisflokkarar eins og gpt-oss-safeguard geti greint skaðlegt efni, eru þeir háðir skýrum skilgreiningum á því hvað telst til slíks efnis. Í reynd er ein af stærstu áskorununum sem forritarar standa frammi fyrir að skilgreina reglur sem endurspegla áhættu sem er sértæk fyrir unglinga með nákvæmum hætti og sem hægt er að beita með samræmdum hætti í raunverulegum kerfum.

Jafnvel reynd teymi eiga oft í erfiðleikum með að þýða öryggismarkmið á háu stigi yfir í nákvæmar, framkvæmanlegar reglur, sérstaklega þar sem það krefst bæði sérfræðiþekkingar á viðfangsefninu og ítarlegrar þekkingar á gervigreind. Þetta getur leitt til gloppna í vernd, ósamræmdrar framfylgdar eða of víðtækrar síunar. Skýrar og vel afmarkaðar stefnur eru mikilvægur grunnur að árangursríkum öryggiskerfum.

Að hjálpa forriturum að innleiða öryggisráðstafanir fyrir unglinga

Til að takast á við þessa áskorun erum við að gefa út sett af öryggisreglum⁠(opnast í nýjum glugga), sem eru sniðnar að algengum áhættum sem unglingar standa frammi fyrir og byggðar á vandlegri yfirferð yfir fyrirliggjandi rannsóknir á sérstökum þroskamun unglinga. Þessar stefnur eru settar fram sem kvaðning sem hægt er að nota beint með gpt-oss-safeguard⁠(opnast í nýjum glugga) og öðrum rakalíkönum, sem gerir forriturum kleift að innleiða samræmda öryggisstaðla á auðveldari hátt í kerfum sínum.

Fyrsta útgáfan inniheldur reglur sem fjalla um:

Myndrænt ofbeldisefni
Gróft kynferðislegt efni
Skaðlegar líkamsímyndir og hegðun
Hættulegar athafnir og áskoranir
Rómantískan eða ofbeldisfullan hlutverkaleik
Vörur og þjónusta með aldurstakmörkun

Þessar reglur má nota til rauntímasíunar á efni og til greiningar á efni sem notendur búa til án nettengingar.

Með því að setja reglur fram sem kvaðningu geta forritarar auðveldlega samþætt þær við núverandi verkferla, aðlagað þær að sínum notkunartilvikum og betrumbætt þær með tímanum.

Skýringarmynd sem sýnir flokka reglna um öryggi unglinga og efni sem tengist unglingum sem fara inn í öryggiskerfi GPT-OSS, sem skilar stefnuákvörðunum mótuðum af innri rökum.

Þróað með aðkomu utanaðkomandi sérfræðinga

Við unnum í samstarfi við utanaðkomandi stofnanir, þar á meðal Common Sense Media⁠(opnast í nýjum glugga) og everyone.ai⁠(opnast í nýjum glugga), til að upplýsa þróun þessara stefna. Sérfræðiþekking þeirra hjálpaði til við að móta umfang þess efnis sem átti að fjalla um, styrkja uppbyggingu kvaðninganna og fínstilla jaðartilvikin sem hafa þurfti í huga við mat á þeim.

Þessi vinna endurspeglar stöðuga viðleitni til samstarfs við sérfræðinga og víðara vistkerfi til að bæta stuðning gervigreindarkerfa við ungt fólk.

„Eitt stærsta bilið í öryggi gervigreindar fyrir unglinga hefur verið skortur á skýrum og framkvæmanlegum stefnum sem forritarar geta byggt á. Oft byrja forritarar frá grunni. Þessar kvaðningamiðuðu reglur hjálpa til við að setja þýðingarmikið lágmarksviðmið fyrir öryggi um allt vistkerfið og, þar sem þær eru gefnar út sem opinn hugbúnaður, er hægt að aðlaga þær og bæta með tímanum. Það er okkur ánægjuefni að sjá að slíkir innviðir séu gerðir víða aðgengilegir, og við vonum að það verði hvati að fleiri sameiginlegum útgangspunktum fyrir öryggi ungmenna í allri atvinnugreininni.”

—Robbie Torney, yfirmaður gervigreindar og stafrænna matsaðferða hjá Common Sense Media

„Viðleitni sem þessi, sem gerir öryggisreglur fyrir ungmenni meira framkvæmanlegar, er verðmæt vegna þess að hún hjálpar til við að þýða sérfræðiþekkingu yfir í leiðbeiningar sem hægt er að nota í raunverulegum kerfum. Efnisstefnur eru mikilvægt fyrsta skref, og þær opna einnig dyrnar að víðtækara starfi um það hvernig hegðun líkans getur mótað áhættuþætti sem varða ungmenni með tímanum. Innblásin af þessu starfi og okkar eigin rannsóknum hefur everyone.ai⁠(opnast í nýjum glugga) einnig búið til upphaflega hegðunarstefnu sem beinist að áhættu eins og einkarétti og ofurtrausti."

—Dr. Mathilde Cerioli, aðalvísindamaður hjá everyone.AI

Upphafspunktur, ekki fullkomin lausn

Reglurnar eru ætlaðar sem upphafspunktur, ekki sem tæmandi eða endanleg skilgreining eða trygging fyrir öryggi unglinga. Hvert forrit hefur sínar einstöku áhættur, markhópa og samhengi. Forritarar eru í bestu aðstöðu til að skilja þá áhættu sem vörur þeirra og samþættingar við gervigreind kunna að hafa í för með sér. Við hvetjum forritara eindregið til að aðlaga og útvíkka þessar reglur út frá sértækum þörfum sínum og sameina þær við aðrar öryggisráðstafanir, svo sem ákvörðunum um vöruhönnun, notendastýringum, gagnsæi sem er sniðið að unglingum, eftirlitskerfum og ígrunduðum viðbrögðum sem hæfa aldri.

Við teljum að nálgun með lagskiptum varnarlögum⁠ sé nauðsynleg til að byggja öruggari gervigreindarkerfi. Þessar reglur byggja á reynslu okkar innanhúss, en þær endurspegla ekki að fullu innri reglur eða öryggisráðstafanir OpenAI.

Leiðin fram á við

Við erum að gefa þessar reglur út sem opinn kóða í gegnum ROOST líkanasamfélagið⁠(opnast í nýjum glugga) til að hvetja til samvinnu og endurtekningar. Til að leggja sitt af mörkum, veita endurgjöf eða deila frekari öryggisreglum fyrir unglinga skaltu fara á RMC GitHub geymsluna.⁠(opnast í nýjum glugga)

Forritarar og stofnanir geta aðlagað þessar reglur að sínum sérstöku forritum, þýtt þær yfir á mismunandi tungumál og útvíkkað þær til að ná yfir fleiri áhættusvið. Með tímanum vonumst við til að þetta stuðli að öflugri og sameiginlegri grunn fyrir innleiðingu öryggisstefna í gervigreindarkerfum.

Til að byrja með gpt-oss-safeguard skaltu sækja það frá Hugging Face⁠(opnast í nýjum glugga).

Haltu áfram að lesa

Skoða allt

Öryggi og samstilling á tímum líkana með langan tímaramma

Öryggi20. júl. 2026

Why teens deserve access to safe AI — card image

Af hverju unglingar eiga skilið aðgang að öruggri gervigreind

Öryggi16. júl. 2026

GPT-Red: Opnar fyrir sjálfbætingu í viðnámi

Öryggi15. júl. 2026