Segítünk a fejlesztőknek biztonságosabb MI-élményeket létrehozni a tinédzserek számára
Bemutatjuk a gpt-oss-safeguardhoz készült, utasításként megfogalmazott tinédzserbiztonsági irányelveket
Ma olyan, utasításként megfogalmazott biztonsági irányelveket(új ablakban nyílik meg) teszünk közzé, amelyek segítségével a fejlesztők életkornak megfelelő védelmet tudnak kialakítani a tinédzserek számára. Ezek az irányelvek úgy készültek, hogy együttműködjenek a nyílt súlyú biztonsági modellünkkel, a gpt-oss-safeguarddal(új ablakban nyílik meg), és leegyszerűsítsék azt a folyamatot, ahogyan a fejlesztők átalakítják a biztonsági követelményeket a valós rendszerekben használható osztályozókká.
Azért tettünk közzé nyílt súlyozású modelleket, hogy a nagy teljesítményű MI mindenki számára elérhető legyen, és hogy támogassuk a széles körű innovációt. Ugyanakkor úgy gondoljuk, hogy a biztonság és az innováció kéz a kézben jár, és a fejlesztőknek nemcsak nagy tudású modellekhez, hanem azokhoz az eszközökhöz és irányelvekhez is hozzá kell férniük, amelyekkel biztonságosan és felelősen üzembe helyezhetik ezeket. Ezeket az irányelveket azért dolgoztuk ki, hogy segítsük a fejlesztőket a fiatal felhasználók védelmét szolgáló biztonsági munkában, köztük a Common Sense Media(új ablakban nyílik meg) és az everyone.ai(új ablakban nyílik meg) közreműködésével.
Tisztában vagyunk vele, hogy a tinédzsereknek és a felnőtteknek eltérő igényeik vannak, és hogy a tinédzsereknek fokozott védelemre van szükségük. Ezek az irányelvek abban segítik a fejlesztőket, hogy figyelembe vegyék ezeket a különbségeket, és olyan élményeket hozzanak létre, amelyek támogatóak a fiatalabb felhasználók számára, és az életkorukhoz is illeszkednek.
Régóta dolgozunk azon, hogy olyan MI-t építsünk, amely bővíti a fiatalok lehetőségeit, miközben biztonságot is nyújt számukra. Ennek részeként frissítettük a Modell specifikációnkat(új ablakban nyílik meg) – vagyis azokat az irányelveket, amelyek meghatározzák az OpenAI modelljeinek kívánt működését –, hogy az a 18 év alattiakra (U18) vonatkozó elveket(új ablakban nyílik meg) is tartalmazza, továbbá termékszintű védelmi megoldásokat, például szülői felügyeletet és életkorbecslést is bevezettünk a fiatalabb felhasználók jobb védelme érdekében. Emellett a Teen Safety Blueprint révén iparági szintű védelmi intézkedéseket is szorgalmaztunk.
A mai bejelentés erre az alapra épül. Ezeket a biztonsági irányelveket most a fejlesztők számára is elérhetővé tesszük, hogy segítsük őket a tinédzserek védelmét szolgáló biztonsági megoldások bevezetésében, és hogy a nyílt súlyú modellek ökoszisztémájában szélesebb körben is hozzáférhetők legyenek.
Bár a gpt-oss-safeguardhoz hasonló biztonsági osztályozók képesek felismerni a káros tartalmakat, ehhez világos meghatározásokra van szükségük arról, hogy pontosan mi számít károsnak. A gyakorlatban az egyik legnagyobb kihívás, amellyel a fejlesztők szembesülnek, az olyan irányelvek meghatározása, amelyek pontosan lefedik a tinédzserekre jellemző kockázatokat, és a valós rendszerekben is következetesen alkalmazhatók.
Még a tapasztalt csapatoknak is gyakran gondot okoz, hogy a magas szintű biztonsági célokat pontos, a gyakorlatban is alkalmazható szabályokká alakítsák, különösen azért, mert ehhez egyszerre van szükség szakterületi ismeretre és alapos MI-s tudásra. Ez védelmi hiányosságokhoz, következetlen érvényesítéshez vagy túlzottan széles körű szűréshez vezethet. A világos, jól körülhatárolt irányelvek a hatékony biztonsági rendszerek egyik alapját jelentik.
Ennek a kihívásnak a kezelésére most közzéteszünk egy biztonsági irányelvcsomagot(új ablakban nyílik meg), amely a tinédzsereket érintő gyakori kockázatokra szabott, és a tinédzserek fejlődési sajátosságaival kapcsolatos meglévő kutatások alapos áttekintésére épül. Ezeket az irányelveket utasítások formájában strukturáltuk, így közvetlenül használhatók a gpt-oss-safeguarddal(új ablakban nyílik meg) és más érvelési modellekkel, ami megkönnyíti a fejlesztők számára, hogy egységes biztonsági elveket alkalmazzanak a rendszereikben.
Az első kiadás az alábbi területekre vonatkozó irányelveket tartalmazza:
- Explicit, erőszakos tartalom
- Explicit, szexuális tartalom
- Káros testideálok és viselkedésformák
- Veszélyes tevékenységek és kihívások
- Romantikus vagy erőszakos szerepjáték
- Korhatáros termékek és szolgáltatások
Ezek az irányelvek valós idejű tartalomszűrésre, valamint felhasználók által létrehozott tartalmak offline elemzésére is használhatók.
Azáltal, hogy az irányelveket utasításokként strukturáltuk, a fejlesztők könnyebben beilleszthetik őket a meglévő munkafolyamataikba, a saját felhasználási eseteikhez igazíthatják őket, és idővel tovább is fejleszthetik őket.

Az irányelvek kidolgozásához külső szervezetekkel is együttműködtünk, köztük a Common Sense Mediával(új ablakban nyílik meg) és az everyone.ai(új ablakban nyílik meg)-jal. Szakértelmük segített meghatározni, milyen tartalmakra terjedjen ki a lefedettség, erősíteni az utasítások felépítését, és finomítani az értékelés során figyelembe veendő határeseteket.
Ez a munka része annak a folyamatos törekvésünknek, hogy szakértőkkel és a tágabb ökoszisztémával együttműködve javítsuk az MI-rendszerek fiatalokat támogató működését.
„A tinédzserek MI-biztonságának egyik legnagyobb hiányossága eddig az volt, hogy a fejlesztőknek nem álltak rendelkezésre világos, a gyakorlatban is alkalmazható irányelvek, amelyekre építhettek volna. A fejlesztők gyakran a nulláról indulnak. Ezek az utasításalapú irányelvek segítenek egy érdemi, minimális biztonsági szintet kialakítani az egész ökoszisztémában, és mivel nyílt forráskódúként tesszük közzé őket, idővel tovább alakíthatók és fejleszthetők. Biztatónak tartjuk, hogy az ilyen infrastruktúra széles körben elérhetővé válik, és reméljük, hogy ez ösztönözni fogja az iparágban a fiatalok biztonságát szolgáló közös kiindulópontok kialakítását.”
– Robbie Torney, a Common Sense Media MI- és digitális értékelésekért felelős vezetője
„Az ehhez hasonló törekvések, amelyek működőképesebbé teszik a fiatalok biztonságát szolgáló irányelveket, azért értékesek, mert segítenek a szakértői tudást olyan útmutatássá alakítani, amely valódi rendszerekben is használható. A tartalmi irányelvek fontos első lépést jelentenek, és egyúttal megnyitják az utat afelé, hogy szélesebb körben vizsgáljuk azt, hogyan alakíthatja idővel a modellek viselkedése a fiatalokat érintő kockázatokat. E munka és a saját kutatásaink nyomán az everyone.ai(új ablakban nyílik meg) egy első, viselkedésre fókuszáló irányelvet is létrehozott, amely olyan kockázatokkal foglalkozik, mint a kizárólagosság érzésének erősítése és a túlzott függés.”
– Dr. Mathilde Cerioli, az everyone.AI vezető kutatója
Ezeket az irányelveket kiindulópontnak szánjuk, nem pedig a tinédzserbiztonság átfogó vagy végleges meghatározásának, illetve garanciájának. Minden alkalmazásnak megvan a maga sajátos kockázata, célközönsége és környezete, és a fejlesztők tudják a legjobban felmérni, milyen kockázatokat hordozhatnak a termékeik és az MI-integrációik. Határozottan arra biztatjuk a fejlesztőket, hogy ezeket az irányelveket igazítsák a saját igényeikhez, bővítsék és más védelmi megoldásokkal is egészítsék ki őket, például tudatos terméktervezéssel, felhasználói beállítási lehetőségekkel, a tinédzserek számára is érthető átláthatósággal, monitorozási rendszerekkel és átgondolt, életkorhoz illő válaszokkal.
Úgy gondoljuk, hogy a többrétegű, egymásra épülő védelem elengedhetetlen a biztonságosabb MI-rendszerek létrehozásához. Ezek az irányelvek a saját belső tapasztalatainkra épülnek, de nem tükrözik teljes egészében az OpenAI belső irányelveit és védelmi megoldásait.
Ezeket az irányelveket nyílt forráskódú formában, a ROOST Model Community(új ablakban nyílik meg)-n keresztül tesszük közzé, hogy ösztönözzük az együttműködést és a folyamatos fejlesztést. Ha szeretnél közreműködni, visszajelzést adni vagy további tinédzserbiztonsági irányelveket megosztani, látogass el az RMC GitHub-adattárba.(új ablakban nyílik meg)
A fejlesztők és a szervezetek ezeket az irányelveket a saját alkalmazásaikhoz igazíthatják, más nyelvekre is lefordíthatják, és további kockázati területekre is kiterjeszthetik. Idővel reményeink szerint ez hozzájárul egy erősebb, közös alap kialakításához az MI-rendszerek biztonsági irányelveinek megvalósítása terén.
Ha szeretnéd megkezdeni a gpt-oss-safeguard használat, akkor töltsd le a Hugging Face(új ablakban nyílik meg)-ről.


