2025 ж. 19 қараша

Сыртқы тестілеу арқылы қауіпсіздік экожүйемізді нығайту

Озық ЖИ үшінші тарап бағалауларына қатысты біздің тәсіліміз.

Жүктелуде…

OpenAI-де біз тәуелсіз әрі сенімді үшінші тарап бағалаулары озық ЖИ қауіпсіздігі экожүйесін нығайтуда шешуші рөл атқарады деп есептейміз. Үшінші тарап бағалаулары — бұл озық модельдерге жүргізілетін, қауіпсіздікке қатысты маңызды қабілеттер мен әлсірету шаралары туралы тұжырымдарды растауға немесе оларға қосымша дәлел ұсынуға арналған тексерулер. Мұндай бағалаулар қауіпсіздік жөніндегі тұжырымдарды растауға, назардан тыс қалатын жайттардан қорғануға және қабілеттер мен тәуекелдерге қатысты ашықтықты арттыруға көмектеседі. Сыртқы сарапшыларды озық модельдерімізді тестілеуге шақыру арқылы біз қабілеттерді бағалауымыз бен қорғаныс шараларымыздың тереңдігіне деген сенімді күшейтуді, сондай-ақ қауіпсіздік экожүйесін жалпы дамытуға ықпал етуді көздейміз.

GPT‑4 іске қосылғаннан бері OpenAI модельдерімізді тестілеу және бағалау үшін бірқатар сыртқы серіктеспен ынтымақтасып келеді. Жалпы алғанда, біздің үшінші тараппен ынтымақтастықтарымыз үш түрде жүреді:

биоқауіпсіздік, киберқауіпсіздік, ЖИ-дің өзін-өзі жетілдіруі және айла-шарғы секілді негізгі озық қабілет пен тәуекел салалары бойынша тәуелсіз бағалаулар
тәуекелді қалай бағалап, түсіндіретінімізді талдайтын әдіснама шолулары
сарапшылар модельді нақты әлемдегі өз саласына тән тапсырмалар бойынша тікелей бағалап, оның қабілеттері мен соған байланысты қорғаныс шараларын бағалауымызға құрылымдалған үлес қосатын пәндік сала сарапшыларының (SME) тексеруі¹

Бұл блогта біз сыртқы бағалаудың осы нысандарының әрқайсын қалай қолданатынымызды, олардың неге маңызды екенін, орналастыру туралы шешімдерге қалай әсер еткенін және осы ынтымақтастықтарды құруда қандай қағидаттарды ұстанатынымызды сипаттаймыз. Ашықтық қағидатын ұстана отырып, біз үшінші тарап тестілеушілерімен ынтымақтастығымызды реттейтін құпиялылық пен жариялау шарттары туралы да көбірек бөлісеміз.

Бұл неге маңызды?

Үшінші тарап бағалаушылары ішкі жұмысымызға қосымша тәуелсіз бағалау қабатын қосып, қатаңдықты күшейтеді және өзін-өзі растаудан қосымша қорғаныс береді. Олардың пікірі өз бағалауларымызбен қатар қосымша дәлел ұсынады және қуатты жүйелерді жауапты түрде орналастыру туралы шешімдер қабылдауға көмектеседі.

Біз сондай-ақ үшінші тарап бағалауларын төзімді қауіпсіздік экожүйесін құрудың⁠ бір бөлігі деп санаймыз. Біздің командалар қабілет пен тәуекел салалары бойынша ауқымды ішкі тестілеу жүргізеді, бірақ тәуелсіз ұйымдар қосымша көзқарастар мен әдіснамалық тәсілдер әкеледі. Біз озық модельдерді бізбен бірге тұрақты түрде бағалай алатын білікті бағалаушы ұйымдардың алуан тобын қолдауға тырысамыз.

Соңында, бұл үлестің қауіпсіздік үдерісімізді қалай қалыптастыруға көмектесетіні туралы ашық болуды мақсат етеміз. Біз үшінші тарап бағалауларын үнемі жария етіп отырамыз — мысалы, орналастыру алдындағы бағалаулардың қысқаша мазмұнын жүйе карталарына енгізу және бағалаушы ұйымдарға құпиялылық пен дәлдікке шолу жасалғаннан кейін толығырақ жұмыстарын жариялауға қолдау көрсету арқылы. Мұндай ашықтық сыртқы үлестің қабілеттерді бағалауымыз бен қорғаныс шараларымызды қалай қалыптастыратынын көрсету арқылы сенім тудырады.

Сенімді қолжетімділікке, ашықтыққа және білім алмасуға негізделген тұрақты қатынастар бүкіл экожүйеге туындап келе жатқан тәуекелдерден озып жүруге көмектеседі және озық ЖИ жүйелері үшін мықтырақ стандарттар мен неғұрлым негізді басқаруға қажетті икемді, іске жарамды бағалауларды дамытуға ықпал етеді.

Сыртқы зертханалардың тәуелсіз бағалаулары

GPT‑4⁠(жаңа терезеде ашылады) іске қосылған кезден бастап біз орналастыруға дейінгі ерте модель чекпойнттарына тәуелсіз бағалауларды қолдадық. Содан бері біз негізгі озық қабілет пен тәуекел салаларын бағалауда терең тәжірибесі бар бірқатар үшінші тарап ұйымдарымен жұмысымызды кеңейттік. Біз тәуелсіз зертханалық жұмысты сыртқы командалар белгілі бір озық қабілетке қатысты тұжырым не бағалау жасау үшін өз әдістерін қолданатын ашық форматтағы тестілеу ретінде айқындаймыз.

Мысалы, GPT‑5⁠ үшін OpenAI ұзақ көкжиекті автономия, айла-шарғы, алдау мен бақылауды айналып өту, ылғалды зертханадағы жоспарлаудың іске асу мүмкіндігі және шабуылдаушы киберқауіпсіздік бағалаулары сияқты негізгі тәуекел салалары бойынша сыртқы қабілет бағалауларының кең ауқымын үйлестірді.

Бұл тәуелсіз бағалаулар OpenAI-дің Дайындық шеңберіне сәйкес жүргізілген бағалауларды толықтырады және METR ұйымының уақыт көкжиегін бағалауы⁠(жаңа терезеде ашылады) немесе SecureBio ұйымының Virology Capabilities Test (VCT)⁠(жаңа терезеде ашылады) бағалауы сияқты бенчмарктерді қамтиды.

Бұл бағалауларды қолдау үшін біз ерте модель чекпойнттарына қауіпсіз қолжетімділік, байқап отырған қабілет жақсаруларын нақтылау үшін кейбір бағалау нәтижелері, қажет жерде деректерді нөлдік сақтау режимі және әлсірету шаралары азырақ модельдер ұсындық. Мысалы, киберқауіпсіздік және биоқауіпсіздік салаларында тестілеу жүргізген ұйымдар негізгі қабілеттерді тексеру үшін модельдерді қауіпсіздік әлсіретулерімен де, онсыз да сынады. Тағы бірнеше ұйымға модельдің ой қорыту іздерін тексере алуы үшін ойлау тізбегіне тікелей қолжетімділік берілді. Ашықтықты арттыруға бағытталған бұл қадам бағалаушыларға тек ойлау тізбегін оқу арқылы ғана аңғарылуы мүмкін sandbagging² немесе айла-шарғы мінез-құлқы жағдайларын анықтауға мүмкіндік берді. Қолжетімділік қауіпсіздік бақылаулары сақталған жағдайда берілді, және модель қабілеттері мен тестілеу қажеттіліктері дамыған сайын біз бұл бақылауларды жаңартып отырамыз.

Әдіснама шолуы

Кейбір жағдайларда сыртқы бағалаушылар әдіснамалық шолу ұсынуға өте қолайлы болады, яғни озық зертханалар тәуекелді бағалау үшін сүйенетін шеңберлер мен дәлелдерге қосымша көзқарастар береді. Мысалы, gpt-oss⁠ іске қосылған кезде біз Estimating worst case frontier risks of open weight LLMs⁠ еңбегінде сипатталғандай, ашық салмақты модельдер үшін ең нашар жағдайдағы қабілеттерді бағалау мақсатында қарсылас fine-tuning әдісін қолдандық. Қауіпсіздікке қатысты негізгі сұрақ — зиянкестің модельді біздің Дайындық шеңберіміз бойынша био немесе кибер салаларында Жоғары деңгейге жеткізу үшін fine-tuning жасай ала ма деген мәселе болды. Бұл үшін ресурсты көп қажет ететін қарсылас fine-tuning керек болғандықтан, біз үшінші тарап бағалаушыларын ұқсас жұмысты қайталаудың орнына ішкі әдістеріміз бен нәтижелерімізді шолып, ұсыныстар беруге шақырдық.

Бұл бірнеше аптаға созылған үдерісті қамтыды: бағалау rollout-тарын бөлісу, қарсылас fine tuning тәсілі туралы мәліметтер беру және ең нашар жағдайдағы озық тәуекелдерге арналған әдіснама мен бағалауларды жақсартуға қатысты құрылымдалған ұсыныстар жинау. Бағалаушылардың пікірі соңғы қарсылас fine-tuning үдерісіне өзгерістер енгізуге әкелді және әдіснамалық растаудың құндылығын көрсетті. Біз қандай тармақтарды қабылдағанымызды gpt-oss туралы мақала мен жүйе картасында тіркедік, ал қабылдамаған тармақтар бойынша уәждер ұсындық.

Мұнда тәуелсіз бағалауларға қарағанда әдіснама шолуы дұрыс таңдау болды: бағалаулар ауқымды, ең нашар жағдайдағы эксперименттерді жүргізуді қамтыды, ал ол ірі ЖИ зертханаларынан тыс жерде жиі кездеспейтін инфрақұрылым мен техникалық тәжірибені талап етеді. Бұл тәуелсіз бағалаулар ең нашар сценарийлер жөнінде тікелей түсінік беруге ықтимал түрде жеткізе алмайтынын білдірді, сондықтан сыртқы бағалаушыларды тұжырымдарды растауға бағыттау өнімдірек болды. Сыртқы бағалаушылар әдістер мен дәлелдерді шолды⁠(жаңа терезеде ашылады), шешім қабылдау үшін маңызды олқылықтарды атап өтті, ал олар ұсыныстарға қатысты кері байланыс циклі аясында түзетілді. Бұл тәсілді біз қолжетімділік немесе инфрақұрылым қажеттіліктері үшінші тараптың бағалауды өзі тікелей жүргізуін тиімсіз ететін басқа бағыттарға да, не сыртқы бағалаулар әлі болмаған жағдайларға да кеңейтеміз деп үміттенеміз.

Пәндік сала сарапшыларының (SME) тексеруі

Сыртқы сарапшыларды тартудың тағы бір жолы — пәндік сала сарапшыларының (SME) тексеруі; мұнда сарапшылар модельді тікелей бағалап, сауалнамалар арқылы оның қабілеттерін бағалауымызға құрылымдалған үлес береді. Бұл нақты қорғаныс шараларын стресс-тестілеуге бағытталған редтимингтен⁠ өзгеше. Бұл бізге Дайындық шеңбері бағалауларын тек статикалық бағалаулар ғана қамти алмауы мүмкін сарапшылық пайым мен нақты әлем контексін көрсететін салаға тән түсініктермен толықтыруға мүмкіндік береді. Мысалы, біз пәндік сала сарапшыларынан тұратын панельді ChatGPT Agent пен GPT‑5 үшін helpful-only модельді³ пайдаланып, био саласындағы өздерінің толық циклді сценарийлерін сынап көруге шақырдық. Олар өз сценарийлерінде модель ұсынған нұсқаулардың пайдалылығына сүйене отырып, модельдің өздері сияқты сарапшының мүмкіндігін тәжірибесі аз бастаушымен салыстырғанда қаншалықты арттыра алатынын бағалады. Мақсат — жүйенің ынталы бастаушыны құзыретті орындауға елеулі түрде жақындата алуын қаншалықты қолдайтыны туралы қосымша түсінік жинау болды: SME мамандары өздері ойлап тапқан шынайы жұмыс үдерістері жағдайында біздің «бастаушыны күшейту» туралы тұжырымдарымызды стресс-тестілеп, модель нақты, қадамдық көмек берген жерлер мен азырақ пайдалы қорытындылар ұсынған жерлер туралы егжей-тегжейлі пікір берді. Бұл сарапшылық тексеру жаттығуы осы модельдерді орналастыру жөніндегі жалпы бағалаудың бір бөлігіне енгізілді және екі іске қосылымның да жүйе карталарында бөлісілді.

Үшінші тарап бағалауымен ынтымақтастықты табысты ететін не?

Ашықтық қағидатын ұстана отырып, біз үшінші тарап бағалаушылары бізбен жұмыс істегенде нені қабылдайтыны және ынтымақтастықтарымызды қандай қағидаттар бағыттайтыны туралы толығырақ бөлісеміз:

Мұқият құпиялылық шектерімен үйлескен ашықтық: Үшінші тарап бағалаушылары өз бағалауларын қолдау үшін құпия, жария емес ақпаратпен бөлісуге мүмкіндік беретін құпия ақпаратты жария етпеу келісімдеріне қол қояды. Осы жазбаның Қосымшасында⁠ біз үшінші тарап бағалаушыларымен жасалған келісімшарттардан жариялау құқықтары мен шолу жөніндегі күтулерді сипаттайтын тиісті үзінділерді келтіреміз. Біз ашықтық қағидатымен жұмыс істейміз және құпия ақпаратқа немесе зияткерлік меншікке нұқсан келтірмей, қауіпсіздік пен соған қатысты бағалауларды түсінуді ілгерілететін жариялауға мүмкіндік беруге ұмтыламыз. Соның аясында біз үшінші тарап бағалауларынан туындайтын жарияланымдарды құпиялылық пен фактілік дәлдікті қамтамасыз ету үшін қарап, мақұлдаймыз. Соңғы бірнеше жылда бірнеше үшінші тарап бағалаушысы өз жұмыстарын біздің жүйе карталарындағы бағалау қорытындыларын жариялауымызбен қатар жариялады. Біз құпиялылық пен дәлдікке тексергеннен кейін жарияланған жұмыстардың кейбір мысалдары: [METR GPT‑5 report ⁠(жаңа терезеде ашылады), OpenAI o1 туралы Apollo Research есебі⁠(жаңа терезеде ашылады), Irregular GPT‑5 Assessment⁠(жаңа терезеде ашылады)]
Ойланып ашылатын ақпарат және қауіпсіз, сезімтал қолжетімділік: Әдепкі бойынша біз жұртшылыққа ашық немесе өндірістік қолдануға дайын болуы көзделген ақпарат пен модельдерге қолжетімділік береміз. Бағалаулар қажет еткен жағдайда, helpful-only модельдерге немесе жария емес ақпаратқа қолжетімділік сияқты тереңірек рұқсат береміз. OpenAI үшінші тарап бағалаушылары үшін маңызды қауіпсіздік сұрақтары туындағанда мұндай қолжетімділік түрлерін берді. Маңыздысы, мұндай сезімтал қолжетімділік қатаң қауіпсіздік шараларын талап етеді, және модель қабілеттері мен тестілеу қажеттіліктері өзгерген сайын біз бұл бақылауларды жаңартып отырамыз.
Теңгерімді қаржылық ынталандырулар: Біз үшінші тарап бағалау экожүйесінің жеткілікті қаржыландырылған әрі тұрақты болуы маңызды деп есептейміз. Сондықтан біз барлық үшінші тарап бағалаушыларымызға өтемақы ұсынамыз, ал кейбірі бұл мәселеге қатысты ұйымдық ұстанымына қарай одан бас тартуды таңдайды. Өтемақы түрлеріне жұмыс үшін тікелей төлем және/немесе API кредиттері арқылы не өзге жолмен модельді пайдалану шығындарын субсидиялау жатады. Ешбір төлем ешқашан үшінші тарап бағалауының нәтижесіне тәуелді болмайды.

Жиынтығында, бұл факторлар үшінші тарап бағалауларына сезімтал ақпаратты қорғауға да, ЖИ қауіпсіздігіндегі ашықтықты ынталандыруға да, сондай-ақ үшінші тарап бағалаушыларына өз уақыты үшін өтемақы алу жолдарын жасауға көмектеседі.

Алға көзқарас

Алға қарай отырып, біз озық ЖИ жүйелеріне сенімді әрі шешім қабылдауға маңызды бағалаулар жүргізе алатын ұйымдар экожүйесін одан әрі нығайту қажет деп санаймыз. Үшінші тараптың тиімді бағалауы арнайы сараптаманы, тұрақты қаржыландыруды және әдіснамалық қатаңдықты талап етеді. Білікті бағалаушы ұйымдарға үздіксіз инвестиция салу, өлшеу ғылымын дамыту және сезімтал қолжетімділік қауіпсіздігін қамтамасыз ету бағалаулардың модель қабілеттеріндегі ілгерілеумен қатар қадам басуына кепіл болу үшін аса маңызды болады.

Үшінші тарап бағалаулары — біздің қауіпсіздік жұмысымызға сыртқы көзқарас енгізудің бір жолы, және олар басқа тетіктермен қатар жұмыс істейді. Біз сондай-ақ құрылымдалған редтиминг жұмыстары, ұжымдық alignment жобалары⁠, АҚШ CAISI және Ұлыбритания AISI ұйымдарымен⁠ жұмыс және біздің Global Physician Network⁠ пен Expert Council on Well-Being and AI⁠ сияқты кеңесші топтар арқылы сыртқы сарапшылармен ынтымақтасамыз; бұлар психикалық денсаулық пен пайдаланушы әл-ауқаты жөніндегі жұмысымызды бағыттауға көмектеседі. Бұл күш-жігер әртүрлі сараптама түрлерін әкеледі және озық ЖИ жүйелерін бағалау мен басқарудың кеңірек, сенімдірек негізін қолдайды.

Қосымша

Төменде орналастыру алдындағы бағалаулар бойынша бізбен ынтымақтасатын үшінші тараптармен жасалған келісімдерден мысал ретінде келтірілген үзінділер берілген.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Автор

OpenAI

Ескертпелер

1
Бұл редтимингтен өзгеше, өйткені оның мақсаты қорғаныс шараларын егжей-тегжейлі стресс-тестілеу және бағалауларды әзірлеуге арналған деректер беру.
2
Модель бағаланып немесе тестіленіп жатқанын анықтаған кезде әдейі төмен нәтиже көрсетуі не шынайы қабілеттерін жасыруы.
3
Helpful-only модельдер сұрау зиянды болса да, кез келген сұрауға жауап береді. Олар осындай мінез-құлыққа қол жеткізетін пост-тренинг әдістері арқылы жасалады.

Оқуды жалғастырыңыз

Барлығын қарау

Safety and alignment in an era of long-horizon models

Қауіпсіздік2026 ж. 20 шіл.

Why teens deserve access to safe AI

Қауіпсіздік2026 ж. 16 шіл.

GPT-Red: Төзімділік үшін өзін-өзі жетілдіруді іске қосу

Қауіпсіздік2026 ж. 15 шіл.