Ndihm. e zhvill. për përvoja më të sigurta të AI për adoleshentët
Prezantimi i një grupi politikash sigurie për adoleshentët, të formatuara si kërkesa për gpt-oss-safeguard
Sot, po publikojmë politika sigurie(hapet në një dritare të re) të bazuara në kërkesa për t’i ndihmuar zhvilluesit të krijojnë mbrojtje të përshtatshme për moshën për adoleshentët. Të ndërtuara për të funksionuar me modelin tonë të sigurisë me ponderim të hapur, gpt-oss-safeguard(hapet në një dritare të re), këto politika e thjeshtojnë mënyrën se si zhvilluesit i kthejnë kërkesat e sigurisë në klasifikues të përdorshëm për sisteme të botës reale.
Ne kemi nxjerrë modele me ponderim të hapur për të demokratizojmë aksesin në AI të fuqishme dhe për të mbështesim inovacionin e gjerë. Njëherësh, ne besojmë se siguria dhe inovacioni ecin krah për krah dhe se zhvilluesit duhet të kenë akses në modele të afta, si edhe në mjetet dhe politikat për t’i vendosur ato në përdorim në mënyrë të sigurt dhe të përgjegjshme. Ne i zhvilluam këto politika për të mbështetur zhvilluesit në përpjekjet e tyre për siguri për të mbrojtur përdoruesit e rinj, me kontribut nga organizata të jashtme të besuara, duke përfshirë Common Sense Media(hapet në një dritare të re) dhe everyone.ai(hapet në një dritare të re).
Ne e pranojmë se adoleshentët dhe të rriturit kanë nevoja të ndryshme dhe se adoleshentët kanë nevojë për mbrojtje shtesë. Këto politika janë hartuar për t’i ndihmuar zhvilluesit t’i marrin parasysh këto dallime dhe të krijojnë përvoja që janë njëkohësisht fuqizuese dhe të përshtatshme për përdoruesit më të rinj.
Kemi kohë që jemi të përkushtuar ndaj ndërtimit të AI që zgjeron mundësitë për të rinjtë, duke i mbajtur ata të sigurt. Si pjesë e kësaj pune, ne përditësuam Specifikim Modeli(hapet në një dritare të re) - udhëzimet që përcaktojnë sjelljen e synuar të modeleve të OpenAI - për të përfshirë parimet për moshat nën 18 (U18)(hapet në një dritare të re) dhe prezantuam masa mbrojtëse në nivel produkti, si kontrollet prindërore dhe parashikimi i moshës, për të mbrojtur më mirë përdoruesit më të rinj. Ne kemi bërë thirrje gjithashtu për mbrojtje në mbarë sektorin përmes Planit të Sigurisë për Adoleshentët.
Publikimi i sotëm ndërtohet mbi atë themel. Ne po i vëmë këto politika të sigurisë në dispozicion të zhvilluesve për t’i mbështetur ata në vendosjen e mbrojtjeve të sigurisë për adoleshentët dhe për të ndihmuar në demokratizimin e aksesit në të gjithë ekosistemin e ponderimit të hapur.
Ndërsa klasifikuesit e sigurisë si gpt-oss-safeguard mund të zbulojnë përmbajtje të dëmshme, ata varen nga përkufizime të qarta se çfarë është ajo përmbajtje. Në praktikë, një nga sfidat më të mëdha me të cilat përballen zhvilluesit është përcaktimi i politikave që pasqyrojnë me saktësi rreziqet specifike për adoleshentët dhe që mund të zbatohen në mënyrë të qëndrueshme në sisteme reale.
Edhe ekipet me përvojë shpesh hasin vështirësi në përkthimin e qëllimeve të sigurisë të nivelit të lartë në rregulla të sakta dhe operacionale, veçanërisht pasi kjo kërkon si ekspertizë të fushës, ashtu edhe njohuri të thella për AI. Kjo mund të çojë në boshllëqë në mbrojtje, zbatim të paqëndrueshëm ose filtrim tepër të gjerë. Politikat e qarta dhe të përcaktuara mirë janë një bazë kritike për sisteme efikase të sigurisë.
Për të adresuar këtë sfidë, ne po publikojmë një grup politikash sigurie(hapet në një dritare të re), të përshtatura për rreziqet e zakonshme me të cilat përballen adoleshentët dhe të mbështetura në një shqyrtim të kujdesshëm të kërkimeve ekzistuese mbi dallimet unike në zhvillimin e adoleshentëve. Këto politika janë strukturuar si kërkesa që mund të përdoren drejtpërdrejt me gpt-oss-safeguard(hapet në një dritare të re) dhe model arsyetimi të tjera, duke u mundësuar zhvilluesve të zbatojnë më lehtë standarde të qëndrueshme sigurie në të gjitha sistemet e tyre.
Publikimi fillestar përfshin politika që mbulojnë:
- Përmbajtje grafike e dhunshme
- Përmbajtje seksuale grafike
- Ideale dhe sjellje të dëmshme trupore
- Aktivitete dhe sfida të rrezikshme
- Lojë me role romantike ose të dhunshme
- Mallra dhe shërbime të kufizuara për moshën
Këto politika mund të përdoren për filtrimin e përmbajtjes në kohë reale, si edhe për analizën jashtë linje të përmbajtjes së krijuar nga përdoruesit.
Duke i strukturuar politikat si kërkesa, zhvilluesit mund t’i integrojnë ato më lehtë në flukset ekzistuese të punës, t’i përshtatin sipas rasteve të tyre të përdorimit dhe t’i përmirësojnë me kalimin e kohës.

Ne punuam me organizata të jashtme duke përfshirë Common Sense Media(hapet në një dritare të re) dhe everyone.ai(hapet në një dritare të re) për të ndihmuar në hartimin e këtyre politikave. Ekspertiza e tyre ndihmoi në përcaktimin e fushës së përmbajtjes që duhej mbuluar, forcimin e strukturës së kërkesave dhe përmirësimin e rasteve kufitare që duhej të merreshin parasysh gjatë vlerësimit të tyre.
Kjo punë pasqyron një përpjekje të vazhdueshme për të bashkëpunuar me ekspertë dhe ekosistemin më të gjerë për të përmirësuar mënyrën se si sistemet AI mbështesin të rinjtë.
"Një nga boshllëqet më të mëdha në sigurinë e AI për adoleshentët ka qenë mungesa e politikave të qarta dhe operacionale, mbi të cilat zhvilluesit mund të ndërtojnë. Shpesh, shumë zhvillues po fillojnë nga e para. Këto politika të bazuara në kërkesa ndihmojnë në vendosjen e një niveli minimal kuptimplotë sigurie në të gjithë ekosistemin dhe për shkak se publikohen si me burim të hapur, ato mund të përshtaten dhe përmirësohen me kalimin e kohës. Na inkurajon të shohim që kjo lloj infrastrukture të vihet gjerësisht në dispozicion dhe shpresojmë që ajo të nxisë më shumë pikënisje të përbashkëta për sigurinë e të rinjve në të gjithë industrinë."
—Robbie Torney, Head of AI & Digital Assessments, Common Sense Media
"Përpjekje si kjo, që i bëjnë politikat e sigurisë së të rinjve më të zbatueshme, janë të vlefshme sepse ndihmojnë që njohuria e ekspertëve të përkthehet në udhëzime që mund të përdoren në sisteme reale. Politikat e përmbajtjes janë një hap i parë i rëndësishëm dhe gjithashtu hapin derën për punë më të gjerë mbi mënyrën se si sjellja e model mund të formësojë rreziqet që lidhen me të rinjtë me kalimin e kohës. Të frymëzuar nga kjo punë dhe nga kërkimet tona, everyone.ai(hapet në një dritare të re) ka krijuar gjithashtu një politikë fillestare të sjelljes të përqendruar te rreziqe si ekskluziviteti dhe mbështetja e tepruar."
—Dr. Mathilde Cerioli, Chief Scientist në everyone.AI
Politikat synohen të jenë një pikënisje, jo një përkufizim gjithëpërfshirës ose përfundimtar apo një garanci për sigurinë e adoleshentëve. Çdo aplikacion ka rreziqet, audiencat dhe kontekstet e veta unike, ndërsa zhvilluesit janë më të përshtatshmit për të kuptuar rreziqet që produktet dhe integrimet e tyre të AI mund të paraqesin. Ne i inkurajojmë fuqimisht zhvilluesit që t’i përshtatin dhe t’i zgjerojnë këto politika sipas nevojave të tyre specifike dhe t’i kombinojnë me masa të tjera mbrojtëse, si vendimet për dizajnin e produktit, kontrollet për përdoruesit, transparencën e përshtatshme për adoleshentët, sistemet e monitorimit dhe përgjigjet e menduara dhe të përshtatshme për moshën.
Ne besojmë se një qasje me nivele mbrojtjeje në thellësi është thelbësore për ndërtimin e sistemeve më të sigurta AI. Këto politika bazohen në përvojën tonë të brendshme, por nuk pasqyrojnë tërësinë e politikave të brendshme ose masave mbrojtëse të OpenAI.
Ne po i publikojmë këto politika si me burim të hapur nëpërmjet Komunitetit të ROOST Model(hapet në një dritare të re) për të nxitur bashkëpunimin dhe iteracionin. Për të kontribuar, për të dhënë komente ose për të ndarë politika shtesë për sigurinë e adoleshentëve, vizito depon e RMC në GitHub.(hapet në një dritare të re)
Zhvilluesit dhe organizatat mund t’i përshtatin këto politika për aplikacionet e tyre specifike, t’i përkthejnë në gjuhë të ndryshme dhe t’i zgjerojnë për të mbuluar fusha shtesë të rrezikut. Me kalimin e kohës, shpresojmë që kjo të kontribuojë në një bazë më të fortë dhe të përbashkët për zbatimin e politikave të sigurisë në sistemet e inteligjencës artificiale.
Për të filluar me gpt-oss-safeguard, shkarkoje nga Hugging Face(hapet në një dritare të re).


