Pāriet uz galveno saturu
OpenAI

2026. gada 25. marts

DrošībaAizsardzība

Iepazīstinām ar OpenAI Drošības kļūdu meklēšanas atlīdzības programmu

Drošības un ļaunprātīgas izmantošanas risku testēšana visos OpenAI produktos

Šodien OpenAI uzsāk publisku Drošības kļūdu meklēšanas atlīdzības(atveras jaunā logā) programmu, kas vērsta uz MI ļaunprātīgas izmantošanas un drošības risku identificēšanu visos mūsu produktos. MI tehnoloģijām strauji attīstoties, pieaug arī iespējamie to ļaunprātīgas izmantošanas veidi. Mūsu mērķis ir nodrošināt, lai mūsu sistēmas saglabātos drošas un aizsargātas pret ļaunprātīgu izmantošanu, kas var radīt reālu kaitējumu. 

Šī jaunā programma papildinās OpenAI Drošības kļūdu meklēšanas atlīdzības programmu(atveras jaunā logā), pieņemot arī gadījumus, kas rada būtiskus ļaunprātīgas izmantošanas un drošības riskus, pat ja tie neatbilst klasiskām drošības ievainojamībām. Ar šo programmu turpināsim sadarboties ar drošības un aizsardzības pētniekiem, lai identificētu un novērstu problēmas, kas neietilpst tradicionālo drošības ievainojamību kategorijā, bet joprojām rada reālus riskus. Iesniegumus izvērtēs OpenAI drošības un Drošības kļūdu meklēšanas atlīdzības programmas komandas, un tie var tikt novirzīti starp abām programmām atkarībā no to tvēruma un atbildības.

Programmas pārskats

Jaunā Drošības kļūdu meklēšanas atlīdzības(atveras jaunā logā) programma fokusējas uz MI specifiskiem drošības scenārijiem, tostarp:

Aģenta riski, tostarp MCP

  • Trešo pušu uzvedņu injekcijas datu noplūde: gadījumi, kad uzbrucēja teksts spēj uzticami pārņemt lietotāja aģenta darbību (tostarp pārlūku, ChatGPT aģentu un līdzīgus aģentiskus risinājumus), lai piespiestu to veikt kaitīgas darbības vai atklāt sensitīvu informāciju. Uzvedībai jābūt atkārtojamai vismaz 50% gadījumu. 
  • OpenAI aģentiskais produkts veic neatļautas darbības OpenAI vietnē lielā mērogā.
  • OpenAI aģentiskais produkts veic potenciāli kaitīgas darbības, kas nav minētas iepriekš. Derīgos ziņojumos jānorāda ticams un būtisks kaitējums.
  • Jebkādai MCP riska testēšanai jāatbilst trešo pušu lietošanas noteikumiem.

OpenAI konfidenciāla informācija

  • Modeļa ģenerētās atbildes, kas atklāj ar spriestspēju saistītu konfidenciālu informāciju.
  • Ievainojamības, kas ļauj piekļūt citai OpenAI konfidenciālai informācijai.

Konta un platformas integritāte

  • Ievainojamības konta un platformas integritātes signālos, piemēram, pretautomatizācijas kontroles apiešana, konta uzticamības signālu manipulēšana, konta ierobežojumu, apturēšanas vai bloķēšanas apiešana un līdzīgi gadījumi.
  • Problēmas, kas ļauj lietotājiem piekļūt funkcijām, datiem vai iespējām ārpus piešķirtajām tiesībām, jāziņo Drošības kļūdu meklēšanas atlīdzības programmā(atveras jaunā logā).

Lai gan ierobežojumu apiešana jeb "jailbreak" gadījumi neietilpst šīs programmas tvērumā, mēs periodiski rīkojam privātas atlīdzības kampaņas, kas vērstas uz konkrētiem riskiem, piemēram, bioloģiskā riska saturu ChatGPT aģentā un GPT‑5. Aicinām ieinteresētos pētniekus pieteikties šīm programmām, kad tās kļūst pieejamas. 

Ja ārpus iepriekš minētajām kategorijām pētnieki identificē trūkumus, kas var tieši radīt kaitējumu lietotājiem un kuriem ir skaidri, īstenojami novēršanas soļi, tie var tikt izvērtēti atlīdzībai katrā gadījumā atsevišķi. Vispārēji satura politikas apiešanas gadījumi bez pierādāmas drošības vai ļaunprātīgas izmantošanas ietekmes neietilpst šīs programmas tvērumā. Piemēram, ierobežojumu apiešanas gadījumi, kuru rezultātā modelis izmanto nepieklājīgu valodu vai atgriež informāciju, ko viegli atrast, izmantojot meklētājprogrammas, nav iekļauti šajā darbības jomā.

Kā piedalīties

Pētnieki, kuri vēlas piedalīties, var pieteikties mūsu Drošības kļūdu meklēšanas atlīdzības(atveras jaunā logā) programmā. Ar nepacietību gaidām sadarbību ar pētniekiem, ētiskajiem hakeriem un drošības kopienu, lai veidotu drošu MI ekosistēmu.

Autors

OpenAI