Tutvustame OpenAI turvalisuse veatuvastusprogrammi
Ohutuse ja kuritarvitamisega seotud probleemide testimine üle OpenAI
Täna käivitab OpenAI avaliku veatuvastusprogrammi(avaneb uues aknas), mille eesmärk on tuvastada TI väärkasutust ja ohutusriske meie toodetes. Kuna TI tehnoloogia areneb kiiresti, avanevad ka uued võimalused selle väärkasutamiseks. Meie eesmärk on tagada, et meie süsteemid oleksid turvalised ja kaitstud väärkasutuse või kuritarvitamise eest, mis võib põhjustada käegakatsutavat kahju.
See uus programm täiendab OpenAI turvalisuse veatuvastust(avaneb uues aknas), aktsepteerides probleeme, mis kujutavad endast olulisi väärkasutuse ja ohutusega seotud riske, isegi kui need ei vasta turvanõrkuse kriteeriumidele. Selle programmi kaudu loodame jätkata koostööd ohutuse ja turvalisuse uurijatega, et aidata meil tuvastada ja lahendada probleeme, mis ei kuulu tavapäraste turvanõrkuste hulka, kuid kujutavad endast siiski tegelikke riske. Esildised vaatavad läbi OpenAI ohutuse ja turvalisuse veatuvastuse meeskonnad ning olenevalt ulatusest ja vastutusvaldkonnast võidakse need suunata ümber nende kahe programmi vahel.
Uus turvalisuse veatuvastuse(avaneb uues aknas) programm keskendub allpool loetletud TI-spetsiifilistele ohutusstsenaariumidele:
Agendi riskid, sealhulgas MCP
- Kolmanda osapoole viipade süstimine ja andmete väljavool: kui ründaja tekst suudab ohvri agenti (sh brauser, ChatGPT Agent ja sarnased agendipõhised tooted) usaldusväärselt üle võtta, et meelitada seda tegema kahjulikku toimingut või avaldama kasutaja tundlikku teavet. Käitumine peab olema taastatav vähemalt 50% juhtudest.
- Agentlik OpenAI toode teeb OpenAI veebisaidil suures mahus keelatud toimingu.
- OpenAI agentlik toode võib teha mõne potentsiaalselt kahjuliku toimingu, mida ei ole eespool loetletud. Kehtivad teated siin peavad osutama usutavale ja olulisele kahjule.
- Igasugune MCP-riski testimine peab vastama kolmandate isikute teenusetingimustele.
OpenAI omandiõiguslik teave
- Mudeli väljundid, mis sisaldavad arutlusega seotud konfidentsiaalset teavet.
- Haavatavused, mis paljastavad muud OpenAI omandiõigusega kaitstud teavet.
Konto ja platvormi terviklus
- Konto ja platvormi tervikluse signaalide haavatavused, näiteks automatiseerimisvastastest kontrollidest möödahiilimine, konto usaldussignaalide manipuleerimine, kontopiirangutest, peatamisest või blokeerimisest kõrvalehoidmine ning sarnased probleemid.
- Probleemid, mis võimaldavad kasutajatel pääseda juurde funktsioonidele, andmetele või võimalustele, milleks neil puuduvad vastavad õigused, tuleks teatada turvalisuse veatuvastuse(avaneb uues aknas) programmi kaudu.
Kuigi lahtimurdmised ei kuulu selle programmi ulatusse, korraldame perioodiliselt privaatseid veahüvitise kampaaniaid, mis keskenduvad teatud kahjutüüpidele, näiteks bioriski sisuga seotud probleemidele teenustes ChatGPT Agent ja GPT‑5. Kutsume huvitatud teadlasi nendesse programmidesse kandideerima, kui need avanevad.
Väljaspool eespool loetletud kategooriaid võidakse juhtumipõhiselt tasustamise ulatusse arvata ka sellised puudused, mille teadlased tuvastavad ja mis loovad otseseid võimalusi kasutajatele kahju tekitamiseks ning mille puhul on olemas selged, eraldiseisvad leevendusmeetmed. Üldised sisupõhimõtetest möödahiilimised, millel puudub tõendatav mõju ohutusele või kuritarvitamisele, ei kuulu selle programmi kohaldamisalasse. Näiteks „lahtimurdmised“, mille tulemusel kasutab mudel ebaviisakat keelt või tagastab teavet, mida on otsingumootorite kaudu lihtne leida, ei kuulu käsitlusalasse.
Osaleda soovivad teadlased saavad kandideerida meie turvalisuse veatuvastuse(avaneb uues aknas) programmi kaudu. Ootame põnevusega koostööd teadlaste, eetiliste häkkerite ning turvalisuse ja ohutuse kogukonnaga, et edendada turvalist tehisintellekti ökosüsteemi.


