Ներկայացնում ենք OpenAI-ի անվտանգության սխալների հայտնաբերման պարգևատրման ծրագիրը
OpenAI-ի ողջ տիրույթի փորձարկում՝ անվտանգության և չարաշահման խնդիրների հայտնաբերման նպատակով
Այսօր OpenAI-ը մեկնարկում է անվտանգության սխալների հայտնաբերման պարգևատրման(բացվում է նոր պատուհանում) հանրային ծրագիր, որն ուղղված է մեր արտադրանքներում ԱԲ-ի չարաշահման դեպքերի և անվտանգության ռիսկերի բացահայտմանը։ ԱԲ-ի տեխնոլոգիաների արագ զարգացմանը զուգընթաց ավելանում են դրանց չարաշահման հնարավոր եղանակները։ Մեր նպատակն է մեր համակարգերը պահել անվտանգ և պաշտպանված սխալ օգտագործման կամ չարաշահման դեպքերից, որոնք կարող են հանգեցնել շոշափելի վնասի։
Այս նոր ծրագիրը կհամալրի OpenAI-ի Անվտանգության սխալների հայտնաբերման պարգևատրման ծրագիրը(բացվում է նոր պատուհանում)՝ ընդունելով այնպիսի խնդիրների մասին հաղորդումներ, որոնք առաջացնում են չարաշահման դեպքեր և անվտանգության էական ռիսկեր, նույնիսկ եթե դրանք չեն համապատասխանում անվտանգության խոցելիության չափանիշներին։ Մենք անհամբեր սպասում ենք այս ծրագրի միջոցով անվտանգության և պաշտպանության ոլորտների հետազոտողների հետ մեր համագործակցությունը շարունակելուն, որպեսզի այդ համագործակցությունն օգնի մեզ բացահայտել և լուծել այն խնդիրները, որոնք դուրս են անվտանգության ավանդական խոցելիության շրջանակից, սակայն, միևնույն է, իրական ռիսկեր են ներկայացնում։ Ստացված հաղորդումները կենթարկվեն նախնական գնահատման OpenAI-ի Անվտանգության և պաշտպանվածության սխալների հայտնաբերման պարգևատրման թիմերի կողմից և, կախված ծավալից և պատասխանատու կողմից, կարող են վերահասցեագրվել այս երկու ծրագրերի միջև։
Անվտանգության սխալների հայտնաբերման պարգևատրման(բացվում է նոր պատուհանում) նոր ծրագիրը կենտրոնացած է ստորև թվարկված՝ արհեստական բանականությանը հատուկ անվտանգության սցենարների վրա․
Ագենտի հետ կապված ռիսկեր՝ ներառյալ MCP
- Երրորդ կողմի հարցումների ներարկում և տվյալների արտահոսք՝ երբ հարձակվողի տեքստը կարողանում է հուսալի վերահսկողության տակ առնել զոհի ագենտին (ներառյալ դիտարկիչը, ChatGPT ագենտին և նման ագենտային արտադրանքներ)՝ մոլորեցնելով նրան, որպեսզի կատարի վնասակար գործողություն կամ բացահայտի օգտատիրոջ գաղտնի տեղեկությունը։ Վարքագիծը պետք է հնարավոր լինի կրկնել առնվազն 50% դեպքերում։
- OpenAI-ի ագենտային արտադրանքն OpenAI-ի կայքում կտարում է մեծածավալ արգելված գործողություն։
- OpenAI-ի ագենտային արտադրանքը կատարում է որոշ հնարավոր վնասակար գործողություններ, որոնք վերևում նշված չեն։ Ընդունելի զեկույցներն այստեղ պետք է մատնանշեն հավանական և նյութական վնաս։
- MCP ռիսկի ցանկացած թեստավորում պետք է համապատասխանի երրորդ կողմերի ծառայության պայմաններին։
OpenAI-ին պատկանող ոչ հրապարակային (սեփականատիրոջ) տեղեկատվություն
- Մոդելի պատասխաններ, որոնք ցուցադրում են հիմնավորման վերաբերյալ ներքին, ոչ հրապարակային տեղեկություն։
- Խոցելի կետեր, որոնք բացահայտում են OpenAI-ի ոչ հրապարակային այլ տեղեկատվություն։
Հաշվի և հարթակի ամբողջականություն
- Հաշվի և հարթակի ամբողջականության ազդանշանների խոցելի կետերը, օրինակ՝ ավտոմատացումը կանխող վերահսկողությունների շրջանցումը, հաշվի վստահելիության ցուցիչների մանիպուլյացիան, հաշվի սահմանափակումներից, կասեցումներից կամ արգելափակումներից խուսափելը և նմանատիպ խնդիրները։
- Այն խնդիրները, որոնք օգտատերերին թույլ են տալիս միացնել գործառույթներ, դիտել տվյալներ կամ օգտագործել ֆունկցիոնալ հնարավորություններ, որոնք դուրս են իրենց լիազորված թույլտվությունների շրջանակից, պետք է հաղորդվեն Անվտանգության սխալների հայտնաբերման պարգևատրման ծրագրին(բացվում է նոր պատուհանում)։
Թեև ջեյլբրեյքները ներառված չեն այս ծրագրի շրջանակներում, մենք պարբերաբար անցկացնում ենք սխալների հայտնաբերման մասնավոր արշավներ, որոնք կենտրոնացած են վնասի որոշակի տեսակների, օրինակ՝ ChatGPT Agent-ում և GPT‑5‑ում կենսառիսկային բովանդակության խնդիրների վրա։ Հետաքրքրված հետազոտողներին հրավիրում ենք դիմել այս ծրագրերին, երբ դրանք հասանելի դառնան։
Վերը նշված կատեգորիաներից զատ, եթե հետազոտողները հայտնաբերում են օգտատերերին վնաս հասցնելու ուղիղ հնարավորություններին նպաստող թերություններ, միևնույն ժամանակ ներկայացնում են շտկման գործուն, կոնկրետ քայլեր, ապա դրանց պարգևատրումը կարող է քննարկվել յուրաքանչյուր դեպքն առանձին դիտարկելու սկզբունքով։ Բովանդակության քաղաքականության ընդհանուր շրջանցումները, որոնք չունեն անվտանգության ապացուցելի խատում կամ չարաշահում, չեն դիտարկվում այս ծրագրի շրջանակներում։ Օրինակ՝ ծրագրի շրջանակներից դուրս են «ջեյլբրեյքները», որոնց հետևանքով մոդելը օգտագործում է կոպիտ լեզու կամ տրամադրում է տեղեկություն, որը հեշտությամբ կարելի է գտնել որոնողական համակարգերի միջոցով։
Մասնակցությամբ հետաքրքրված հետազոտողները կարող են դիմել մեր՝ Անվտանգության սխալների հայտնաբերման պարգևատրման(բացվում է նոր պատուհանում) ծրագրի միջոցով։ Մենք անհամբեր սպասում ենք հետազոտողների, էթիկական հաքերների և անվտանգության ու ապահովության համայնքի հետ համագործակցությանը, որպեսզի ստեղծենք անվտանգ ԱԲ էկոհամակարգ։


