19 ნოემბერი, 2025

ჩვენი უსაფრთხოების ეკოსისტემის გაძლიერება გარე ტესტირებით

ჩვენი მიდგომა მესამე მხარის შეფასებებისადმი მოწინავე AI-სთვის.

იტვირთება…

OpenAI-ში გვჯერა, რომ დამოუკიდებელი და სანდო მესამე მხარის შეფასებები კრიტიკულ როლს ასრულებს მოწინავე AI-ის უსაფრთხოების ეკოსისტემის გაძლიერებაში. მესამე მხარის შეფასებები არის მოწინავე მოდელებზე ჩატარებული შეფასებები, რომლებიც ადასტურებს ან დამატებით მტკიცებულებას უზრუნველყოფს კრიტიკული უსაფრთხოების შესაძლებლობებისა და შემამსუბუქებელი ზომების შესახებ გაკეთებული განცხადებებისთვის. ეს შეფასებები ეხმარება უსაფრთხოების განცხადებების დადასტურებას, ბრმა წერტილებისგან დაცვას და შესაძლებლობებისა და რისკების გარშემო გამჭვირვალობის ზრდას. როდესაც გარე ექსპერტებს ვიწვევთ ჩვენი მოწინავე მოდელების სატესტოდ, ჩვენი მიზანია ასევე გავაძლიეროთ ნდობა ჩვენი შესაძლებლობების შეფასებებისა და დაცვის მექანიზმების სიღრმის მიმართ და ხელი შევუწყოთ უფრო ფართო უსაფრთხოების ეკოსისტემის გაძლიერებას.

GPT‑4‑ის გამოშვების შემდეგ, OpenAI გარე პარტნიორების მრავალფეროვან სპექტრთან თანამშრომლობს ჩვენი მოდელების ტესტირებისა და შეფასებისთვის. ზოგადად, ჩვენი მესამე მხარის თანამშრომლობები სამ ფორმას იღებს:

დამოუკიდებელი შეფასებები მოწინავე შესაძლებლობებისა და რისკების საკვანძო მიმართულებებში, როგორიცაა ბიოუსაფრთხოება, კიბერუსაფრთხოება, AI-ის თვითგაუმჯობესება და ინტრიგანობა
მეთოდოლოგიის მიმოხილვები, რომლებიც აფასებს, როგორ ვაფასებთ და განვმარტავთ რისკს
დარგის ექსპერტების (SME) პრობინგი, სადაც ექსპერტები მოდელს უშუალოდ აფასებენ რეალური სამყაროს SME ამოცანებზე და გვაწვდიან სტრუქტურირებულ ინფორმაციას მისი შესაძლებლობებისა და შესაბამისი დაცვის მექანიზმების ჩვენს შეფასებაში¹

ეს ბლოგი განმარტავს, როგორ ვიყენებთ გარე შეფასების თითოეულ ამ ფორმას, რატომ არის ისინი მნიშვნელოვანი, როგორ იმოქმედეს მათ განლაგების გადაწყვეტილებებზე და რომელ პრინციპებს ვიყენებთ ამ თანამშრომლობების სტრუქტურირებისთვის. გამჭვირვალობის სულისკვეთებით, ჩვენ ასევე ვუზიარებთ მეტ ინფორმაციას კონფიდენციალურობისა და გამოქვეყნების პირობებზე, რომლებიც არეგულირებს ჩვენს თანამშრომლობებს მესამე მხარის ტესტერებთან.

რატომ არის ეს მნიშვნელოვანი?

მესამე მხარის შემფასებლები ჩვენს შიდა მუშაობასთან ერთად შეფასების დამოუკიდებელ ფენას ამატებენ, რაც აძლიერებს სიზუსტეს და ქმნის დამატებით დაცვას თვითდადასტურებისგან. მათი წვლილი ჩვენი საკუთარი შეფასებების გვერდით დამატებით მტკიცებულებას იძლევა და გვეხმარება ძლიერი სისტემების პასუხისმგებლიანად დანერგვის შესახებ გადაწყვეტილებების მიღებაში.

ჩვენ მესამე მხარის შეფასებებს ასევე ვხედავთ როგორც მდგრადი უსაფრთხოების ეკოსისტემის შექმნის⁠ ნაწილს. ჩვენი გუნდები შესაძლებლობებისა და რისკების მიმართულებებში ფართომასშტაბიან შიდა ტესტირებას ატარებენ, მაგრამ დამოუკიდებელ ორგანიზაციებს დამატებითი პერსპექტივები და მეთოდოლოგიური მიდგომები მოაქვთ. ჩვენ ვმუშაობთ იმისთვის, რომ მხარი დავუჭიროთ კვალიფიციური შემფასებელი ორგანიზაციების მრავალფეროვან ჯგუფს, რომლებსაც შეუძლიათ ჩვენთან ერთად მოწინავე მოდელების რეგულარულად შეფასება.

და ბოლოს, ჩვენი მიზანია გამჭვირვალეები ვიყოთ იმასთან დაკავშირებით, თუ როგორ აყალიბებს ეს წვლილი ჩვენს უსაფრთხოების პროცესს. ჩვენ რეგულარულად ვასაჯაროებთ მესამე მხარის შეფასებებს — მაგალითად, სისტემურ ბარათებში წინასწარი დანერგვის შეფასებების შეჯამებების ჩართვით და შემფასებელი ორგანიზაციების მხარდაჭერით, რათა კონფიდენციალურობისა და სიზუსტის შემოწმების შემდეგ უფრო დეტალური ნაშრომები გამოაქვეყნონ. ეს გამჭვირვალობა ნდობას აძლიერებს, რადგან აჩვენებს, როგორ აყალიბებს გარე წვლილი ჩვენი შესაძლებლობების შეფასებებსა და დაცვის მექანიზმებს.

მდგრადი ურთიერთობები, რომლებიც სანდო წვდომას, გამჭვირვალობასა და ცოდნის გაზიარებას ეფუძნება, ეხმარება მთელ ეკოსისტემას, გაუსწროს წარმოქმნილ რისკებს და ხელი შეუწყოს მოქნილ, ქმედით შეფასებებს, რომლებიც საჭიროა უფრო ძლიერი სტანდარტებისა და მოწინავე AI სისტემების უფრო ინფორმირებული მართვისთვის.

დამოუკიდებელი შეფასებები გარე ლაბორატორიების მიერ

GPT‑4⁠(იხსნება ახალ ფანჯარაში)-ის გამოშვებით დაწყებული, ჩვენ მხარს ვუჭერთ დამოუკიდებელ შეფასებებს მოდელის ადრეულ ჩექპოინტებზე დანერგვამდე. მას შემდეგ, ჩვენ გავაფართოვეთ მუშაობა მესამე მხარის არაერთ ორგანიზაციასთან, რომლებსაც ღრმა ექსპერტიზა აქვთ მოწინავე შესაძლებლობებისა და რისკების საკვანძო მიმართულებების შეფასებაში. დამოუკიდებელი ლაბორატორიების მუშაობას ჩვენ განვსაზღვრავთ როგორც ღია ტიპის ტესტირებას, სადაც გარე გუნდები საკუთარ მეთოდებს იყენებენ კონკრეტულ მოწინავე შესაძლებლობასთან დაკავშირებული მტკიცების ან შეფასების შესამუშავებლად.

მაგალითად, GPT‑5⁠-ისთვის OpenAI-მ კოორდინაცია გაუწია გარე შესაძლებლობების შეფასებების ფართო პაკეტს რისკების საკვანძო მიმართულებებში, როგორიცაა ხანგრძლივი ჰორიზონტის ავტონომია, ინტრიგანობა, მოტყუება და ზედამხედველობისთვის ძირის გამოთხრა, სველი ლაბორატორიის დაგეგმვის განხორციელებადობა და შეტევითი კიბერუსაფრთხოების შეფასებები.

ეს დამოუკიდებელი შეფასებები ავსებს შეფასებებს, რომლებიც OpenAI-ის მზაობის ჩარჩოს შესაბამისად ტარდება, და მოიცავს ისეთ ბენჩმარკებს, როგორიცაა METR-ის დროის ჰორიზონტის შეფასება⁠(იხსნება ახალ ფანჯარაში) ან SecureBio-ს ვირუსოლოგიური შესაძლებლობების ტესტი (VCT)⁠(იხსნება ახალ ფანჯარაში).

ამ შეფასებების მხარდასაჭერად, ჩვენ უზრუნველვყავით უსაფრთხო წვდომა მოდელის ადრეულ ჩექპოინტებზე, შერჩეულ შეფასების შედეგებზე, რათა კონკრეტული ყოფილიყო ის გაუმჯობესებები, რომლებსაც შესაძლებლობებში ვხედავთ, საჭიროების შემთხვევაში ნულოვანი მონაცემთა შენახვა და მოდელები ნაკლები შემამსუბუქებელი ზომებით. მაგალითად, ორგანიზაციებმა, რომლებიც კიბერუსაფრთხოებისა და ბიოუსაფრთხოების სფეროებში ტესტირებას ატარებდნენ, მოდელები გამოსცადეს როგორც უსაფრთხოების შემამსუბუქებელი ზომებით, ისე მათ გარეშე, რათა ძირითადი შესაძლებლობები შეესწავლათ. კიდევ რამდენიმე ორგანიზაციას მიეცა პირდაპირი წვდომა აზროვნების ჯაჭვზე, რათა მათ შეძლებოდათ მოდელის მსჯელობის კვალის ინსპექტირება. გამჭვირვალობის ამ გაზრდილმა ნაბიჯმა შემფასებლებს საშუალება მისცა გამოევლინათ sandbagging²-ის ან ინტრიგანული ქცევის შემთხვევები, რომლებიც შესაძლოა მხოლოდ აზროვნების ჯაჭვის წაკითხვით იყოს შესამჩნევი. წვდომა უზრუნველყოფილი იყო უსაფრთხოების კონტროლების პირობებში, და ჩვენ ვაგრძელებთ ამ კონტროლების განახლებას მოდელების შესაძლებლობებისა და ტესტირების საჭიროებების განვითარებასთან ერთად.

მეთოდოლოგიის მიმოხილვა

გარკვეულ კონტექსტებში გარე შემფასებლები კარგ პოზიციაში არიან, რათა მეთოდოლოგიური მიმოხილვა უზრუნველყონ და დამატებითი პერსპექტივები შემატონ იმ ჩარჩოებსა და მტკიცებულებებს, რომლებზეც მოწინავე ლაბორატორიები რისკის შესაფასებლად არიან დამოკიდებული. მაგალითად, gpt-oss⁠-ის გამოშვების დროს ჩვენ გამოვიყენეთ ადვერსარიული ფაინ-ტიუნინგი, რათა შეგვეფასებინა ღია წონებიანი მოდელებიებისთვის უარეს შემთხვევაში არსებული შესაძლებლობები, როგორც ეს აღწერილია ნაშრომში ღია წონებიანი LLM-ების უარეს შემთხვევაში მოწინავე რისკების შეფასება⁠. უსაფრთხოების მთავარი კითხვა იყო, შეძლებდა თუ არა ბოროტი აქტორი მოდელის ფაინ-ტიუნინგს, რათა მას ბიო ან კიბერ სფეროებში მაღალი შესაძლებლობისთვის მიეღწია ჩვენი მზაობის ჩარჩოს მიხედვით. რადგან ეს მოითხოვდა რესურსმოხმარებით ინტენსიურ ადვერსარიულ ფაინ-ტიუნინგს, ჩვენ მესამე მხარის შემფასებლები მივიწვიეთ, რათა მათ გადაეხედათ ჩვენი შიდა მეთოდებისა და შედეგებისთვის და რეკომენდაციები გაეცათ, ნაცვლად მსგავსი სამუშაოს გამეორებისა.

ეს მოიცავდა მრავალკვირიან პროცესს, რომლის ფარგლებში ვუზიარებდით შეფასების გაშვებებს, ადვერსარიული ფაინ-ტიუნინგის მიდგომის დეტალებს და ვაგროვებდით სტრუქტურირებულ რეკომენდაციებს მეთოდოლოგიისა და უარეს შემთხვევაში მოწინავე რისკების შეფასებების გასაუმჯობესებლად. შემფასებლების უკუკავშირმა ცვლილებები გამოიწვია საბოლოო ადვერსარიული ფაინ-ტიუნინგის პროცესში და აჩვენა მეთოდოლოგიური დადასტურების ღირებულება. ჩვენ დავაფიქსირეთ, რომელი პუნქტები მივიღეთ ნაშრომსა და gpt-oss-ის სისტემურ ბარათში, ხოლო იმ პუნქტებისთვის, რომლებიც არ მივიღეთ, დავურთეთ დასაბუთებები.

აქ მეთოდოლოგიის მიმოხილვა იყო სწორი ფორმატი და არა დამოუკიდებელი შეფასებები: შეფასებები მოიცავდა ფართომასშტაბიანი, უარეს შემთხვევაში ექსპერიმენტების გაშვებას, რაც ინფრასტრუქტურასა და ტექნიკურ ექსპერტიზას მოითხოვს, რომლებიც ძირითადი AI ლაბორატორიების გარეთ იშვიათად არის ხელმისაწვდომი. ეს ნიშნავდა, რომ დამოუკიდებელი შეფასებები, სავარაუდოდ, პირდაპირ ვერ მიგვიყვანდნენ უარეს შემთხვევაში სცენარების შესახებ ინსაითებამდე და უფრო პროდუქტიული იყო გარე შემფასებლების კონცენტრირება განცხადებების დადასტურებაზე. გარე შემფასებლებმა მეთოდები და მტკიცებულებები მიმოიხილეს⁠(იხსნება ახალ ფანჯარაში), გამოკვეთეს გადაწყვეტილებისთვის მნიშვნელოვანი ხარვეზები, რომლებიც რეკომენდაციების უკუკავშირის ციკლის ფარგლებში მოგვარდა. ეს არის მიდგომა, რომლის გავრცელებასაც სხვა მიმართულებებზეც ვიმედოვნებთ, სადაც წვდომის ან ინფრასტრუქტურის საჭიროებები მესამე მხარისთვის უშუალოდ შეფასებების ჩატარებას არაპრაქტიკულს ხდის, ან სადაც გარე შეფასებები ჯერ კიდევ არ არსებობს.

დარგის ექსპერტების (SME) პრობინგი

გარე ექსპერტებთან მუშაობის კიდევ ერთი გზა არის დარგის ექსპერტების (SME) პრობინგი, როდესაც ექსპერტები მოდელს უშუალოდ აფასებენ და მისი შესაძლებლობების ჩვენს შეფასებაში გამოკითხვების საშუალებით სტრუქტურირებულ წვლილს შეიტანენ. ეს განსხვავდება შეტევითი ტესტირებისგან⁠, რომლის მიზანია კონკრეტული დაცვის მექანიზმების სტრეს-ტესტირება. ეს გვაძლევს საშუალებას, მზაობის ჩარჩოს შეფასებებს დავუმატოთ დომენური ინსაითები, რომლებიც ასახავს ექსპერტულ განსჯასა და რეალურ კონტექსტს, რასაც მხოლოდ სტატიკური შეფასებები შეიძლება ვერ ფარავდეს. მაგალითად, ჩვენ მოვიწვიეთ დარგის ექსპერტების პანელი, რათა მათ მხოლოდ დამხმარე მოდელი³ გამოეყენებინათ და საკუთარი დასაწყისიდან ბოლომდე ბიო სცენარები გამოეცადათ ChatGPT Agent-ისა და GPT‑5‑ისთვის. მათ შეაფასეს, რამდენად შეეძლო მოდელს ისეთი ექსპერტის გაძლიერება, როგორიც თვითონ არიან, ნაკლებად გამოცდილ დამწყებთან შედარებით, იმ მითითებების სარგებლიანობაზე დაყრდნობით, რომლებიც მოდელმა მათ სცენარებში მიაწოდა. მიზანი იყო დამატებითი წვლილის მიღება იმაზე, რამდენად შეეძლო სისტემას მოტივირებული დამწყების არსებითად მიახლოება კომპეტენტურ შესრულებასთან: SME-ებმა რეალისტურ სამუშაო პროცესებში სტრეს-ტესტი ჩაუტარეს ჩვენს „დამწყების გაძლიერების“ განცხადებებს, რომლებიც თავად შეიმუშავეს, და მოგვცეს დეტალური უკუკავშირი იმაზე, სად აწვდიდა მოდელი არსებით, ნაბიჯ-ნაბიჯ დახმარებას და სად — ნაკლებად სასარგებლო შეჯამებებს. ეს ექსპერტული პრობინგის სავარჯიშო შევიდა ამ მოდელების დანერგვის საერთო შეფასებაში და ორივე გამოშვების სისტემურ ბარათებში გავაზიარეთ.

რა განაპირობებს მესამე მხარის შეფასების თანამშრომლობის წარმატებას?

გამჭვირვალობის სულისკვეთებით, ჩვენ ვუზიარებთ მეტ ინფორმაციას იმის შესახებ, რას ეთანხმებიან მესამე მხარის შემფასებლები ჩვენთან მუშაობისას, და იმ პრინციპების შესახებ, რომლებიც ჩვენს თანამშრომლობებს წარმართავს:

გამჭვირვალობა კონფიდენციალურობის ფრთხილი საზღვრებით: მესამე მხარის შემფასებლები ხელს აწერენ გაუთქმელობის შეთანხმებებს, რათა შესაძლებელი იყოს კონფიდენციალური, არასაჯარო ინფორმაციის გაზიარება მათი შეფასებების მხარდასაჭერად. ამ პოსტის დანართში⁠ ჩვენ შევიტანეთ მესამე მხარის შემფასებლებთან დადებული კონტრაქტებიდან შესაბამისი ამონარიდები, რომლებიც გამოქვეყნების უფლებებსა და მიმოხილვის მოლოდინებს აღწერს. ჩვენ ვმოქმედებთ გამჭვირვალობის პრინციპით და ვცდილობთ შესაძლებელი გავხადოთ ისეთი გამოქვეყნება, რომელიც ხელს უწყობს უსაფრთხოებისა და დაკავშირებული შეფასებების უკეთ გაგებას, კონფიდენციალური ინფორმაციის ან ინტელექტუალური საკუთრების დაუზიანებლად. ამის ფარგლებში, ჩვენ განვიხილავთ და ვამტკიცებთ მესამე მხარის შეფასებებიდან მომზადებულ პუბლიკაციებს, რათა დაცული იყოს როგორც კონფიდენციალურობა, ისე ფაქტობრივი სიზუსტე. ბოლო რამდენიმე წლის განმავლობაში, რამდენიმე მესამე მხარის შემფასებელმა გამოაქვეყნა თავისი ნაშრომები ჩვენი მხრიდან სისტემურ ბარათებში შეფასებების შეჯამებების გამოქვეყნებასთან ერთად. გამოქვეყნებული ნაშრომების რამდენიმე მაგალითი, რომლებიც ჩვენ კონფიდენციალურობასა და სიზუსტეზე შევამოწმეთ, მოიცავს: [METR-ის GPT‑5‑ის ანგარიში ⁠(იხსნება ახალ ფანჯარაში), Apollo Research-ის ანგარიში OpenAI o1‑ზე⁠(იხსნება ახალ ფანჯარაში), Irregular-ის GPT‑5‑ის შეფასება⁠(იხსნება ახალ ფანჯარაში)]
ინფორმაციის გააზრებული გამჟღავნება და უსაფრთხო, სენსიტიური წვდომა: ნაგულისხმევად, ჩვენ ვაძლევთ ინფორმაციასა და წვდომას მოდელებზე, რომლებიც საჯარო ან წარმოებისთვის მზად უნდა იყოს. როდესაც შეფასებები ამას მოითხოვს, უფრო ღრმა წვდომას ვაძლევთ, მაგალითად მხოლოდ დამხმარე მოდელებზე ან არასაჯარო ინფორმაციაზე. OpenAI-მ ასეთი ტიპის წვდომა საჭიროებისამებრ უზრუნველყო მესამე მხარის შემფასებლებისთვის უსაფრთხოების კრიტიკულ საკითხებზე. მნიშვნელოვანია, რომ ასეთი ტიპის სენსიტიური წვდომა უსაფრთხოების მკაცრ ზომებს მოითხოვს, და ჩვენ ვაგრძელებთ ამ კონტროლების განახლებას მოდელების შესაძლებლობებისა და ტესტირების საჭიროებების განვითარებასთან ერთად.
დაბალანსებული ფინანსური სტიმულები: ჩვენ გვჯერა, რომ მნიშვნელოვანია, მესამე მხარის შეფასების ეკოსისტემა იყოს კარგად დაფინანსებული და მდგრადი. ამიტომ, ანაზღაურებას ვთავაზობთ ყველა ჩვენს მესამე მხარის შემფასებელს, თუმცა ზოგი ამას საკუთარ ორგანიზაციულ ფილოსოფიაზე დაყრდნობით უარყოფს. ანაზღაურების ფორმები მოიცავს სამუშაოსთვის პირდაპირ გადახდას და/ან მოდელის გამოყენების ხარჯების სუბსიდირებას API კრედიტებით ან სხვა გზებით. გადახდა არასოდეს არის დამოკიდებული მესამე მხარის შეფასების შედეგებზე.

ერთად აღებული, ეს ფაქტორები ეხმარება მესამე მხარის შეფასებებს, ერთდროულად დაიცვან სენსიტიური ინფორმაცია და ხელი შეუწყონ გამჭვირვალობას AI უსაფრთხოებაში, ასევე შექმნან გზები, რომ მესამე მხარის შემფასებლებს საკუთარი დროისთვის ანაზღაურება მიეღოთ.

მომავლისკენ ხედვა

წინ იყურებით, ჩვენ ვხედავთ საჭიროებას, გავაგრძელოთ იმ ორგანიზაციების ეკოსისტემის გაძლიერება, რომლებსაც შეუძლიათ მოწინავე AI სისტემების სარწმუნო და გადაწყვეტილებისთვის მნიშვნელოვანი შეფასებების ჩატარება. ეფექტური მესამე მხარის შეფასება მოითხოვს სპეციალიზებულ ექსპერტიზას, სტაბილურ დაფინანსებას და მეთოდოლოგიურ სიზუსტეს. კვალიფიციურ შემფასებელ ორგანიზაციებში უწყვეტი ინვესტირება, საზომი მეცნიერების განვითარება და სენსიტიური წვდომის უსაფრთხოება გადამწყვეტი იქნება იმისთვის, რომ შეფასებებმა მოდელების შესაძლებლობების განვითარებას აუწყოს ფეხი.

მესამე მხარის შეფასებები ერთ-ერთი გზაა, რომლითაც გარე პერსპექტივა შემოგვაქვს ჩვენს უსაფრთხოების საქმიანობაში, და ისინი სხვა მექანიზმებთან ერთად მოქმედებს. ჩვენ ასევე ვთანამშრომლობთ გარე ექსპერტებთან სტრუქტურირებული შეტევითი ტესტირების ძალისხმევების, კოლექტიური ალაინმენტის პროექტების⁠, აშშ-ის CAISI-სა და დიდი ბრიტანეთის AISI-სთან⁠ მუშაობის, ასევე ისეთი საკონსულტაციო ჯგუფების მეშვეობით, როგორებიცაა ჩვენი გლობალური ექიმთა ქსელი⁠ და ჩვენი კეთილდღეობისა და AI-ის ექსპერტთა საბჭო⁠, რათა დაგვეხმარონ ფსიქიკური ჯანმრთელობისა და მომხმარებლის კეთილდღეობის მიმართულებით ჩვენი საქმიანობის წარმართვაში. ეს ძალისხმევები სხვადასხვა სახის ექსპერტიზას შემოაქვს და ქმნის უფრო ფართო, უფრო სანდო საფუძველს მოწინავე AI სისტემების შეფასებისა და მართვისთვის.

დანართი

ქვემოთ მოცემულია ჩვენთან წინასწარი დანერგვის შეფასებებზე მომუშავე მესამე მხარეებთან დადებული შეთანხმებების საილუსტრაციო ამონარიდები.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

ავტორი

OpenAI

სქოლიოები

1
ეს განსხვავდება შეტევითი ტესტირებისგან, რომლის მიზანია დაცვის მექანიზმების დეტალური სტრეს-ტესტირება და შეფასების განვითარებისათვის მონაცემების მიწოდება.
2
როდესაც მოდელი განზრახ დაბალ შედეგს აჩვენებს ან მალავს თავის რეალურ შესაძლებლობებს, როცა ამჩნევს, რომ მას აფასებენ ან ტესტავენ.
3
მხოლოდ დამხმარე მოდელები პასუხობენ ნებისმიერ მოთხოვნას, თუნდაც მოთხოვნა საზიანო იყოს. ისინი იქმნება პოსტტრენინგის მეთოდებით, რომლებიც ამ ქცევას უზრუნველყოფს.

განაგრძეთ კითხვა

ყველას ნახვა

Safety and alignment in an era of long-horizon models

უსაფრთხოება20 ივლ. 2026

Why teens deserve access to safe AI

უსაფრთხოება16 ივლ. 2026

GPT-Red: თვითგაუმჯობესება სიმტკიცისთვის

უსაფრთხოება15 ივლ. 2026