Сыртқы тестілеу арқылы қауіпсіздік экожүйемізді нығайту
Озық ЖИ үшінші тарап бағалауларына қатысты біздің тәсіліміз.
OpenAI-де біз тәуелсіз әрі сенімді үшінші тарап бағалаулары озық ЖИ қауіпсіздігі экожүйесін нығайтуда шешуші рөл атқарады деп есептейміз. Үшінші тарап бағалаулары — бұл озық модельдерге жүргізілетін, қауіпсіздікке қатысты маңызды қабілеттер мен әлсірету шаралары туралы тұжырымдарды растауға немесе оларға қосымша дәлел ұсынуға арналған тексерулер. Мұндай бағалаулар қауіпсіздік жөніндегі тұжырымдарды растауға, назардан тыс қалатын жайттардан қорғануға және қабілеттер мен тәуекелдерге қатысты ашықтықты арттыруға көмектеседі. Сыртқы сарапшыларды озық модельдерімізді тестілеуге шақыру арқылы біз қабілеттерді бағалауымыз бен қорғаныс шараларымыздың тереңдігіне деген сенімді күшейтуді, сондай-ақ қауіпсіздік экожүйесін жалпы дамытуға ықпал етуді көздейміз.
GPT‑4 іске қосылғаннан бері OpenAI модельдерімізді тестілеу және бағалау үшін бірқатар сыртқы серіктеспен ынтымақтасып келеді. Жалпы алғанда, біздің үшінші тараппен ынтымақтастықтарымыз үш түрде жүреді:
- биоқауіпсіздік, киберқауіпсіздік, ЖИ-дің өзін-өзі жетілдіруі және айла-шарғы секілді негізгі озық қабілет пен тәуекел салалары бойынша тәуелсіз бағалаулар
- тәуекелді қалай бағалап, түсіндіретінімізді талдайтын әдіснама шолулары
- сарапшылар модельді нақты әлемдегі өз саласына тән тапсырмалар бойынша тікелей бағалап, оның қабілеттері мен соған байланысты қорғаныс шараларын бағалауымызға құрылымдалған үлес қосатын пәндік сала сарапшыларының (SME) тексеруі1
Бұл блогта біз сыртқы бағалаудың осы нысандарының әрқайсын қалай қолданатынымызды, олардың неге маңызды екенін, орналастыру туралы шешімдерге қалай әсер еткенін және осы ынтымақтастықтарды құруда қандай қағидаттарды ұстанатынымызды сипаттаймыз. Ашықтық қағидатын ұстана отырып, біз үшінші тарап тестілеушілерімен ынтымақтастығымызды реттейтін құпиялылық пен жариялау шарттары туралы да көбірек бөлісеміз.
Үшінші тарап бағалаушылары ішкі жұмысымызға қосымша тәуелсіз бағалау қабатын қосып, қатаңдықты күшейтеді және өзін-өзі растаудан қосымша қорғаныс береді. Олардың пікірі өз бағалауларымызбен қатар қосымша дәлел ұсынады және қуатты жүйелерді жауапты түрде орналастыру туралы шешімдер қабылдауға көмектеседі.
Біз сондай-ақ үшінші тарап бағалауларын төзімді қауіпсіздік экожүйесін құрудың бір бөлігі деп санаймыз. Біздің командалар қабілет пен тәуекел салалары бойынша ауқымды ішкі тестілеу жүргізеді, бірақ тәуелсіз ұйымдар қосымша көзқарастар мен әдіснамалық тәсілдер әкеледі. Біз озық модельдерді бізбен бірге тұрақты түрде бағалай алатын білікті бағалаушы ұйымдардың алуан тобын қолдауға тырысамыз.
Соңында, бұл үлестің қауіпсіздік үдерісімізді қалай қалыптастыруға көмектесетіні туралы ашық болуды мақсат етеміз. Біз үшінші тарап бағалауларын үнемі жария етіп отырамыз — мысалы, орналастыру алдындағы бағалаулардың қысқаша мазмұнын жүйе карталарына енгізу және бағалаушы ұйымдарға құпиялылық пен дәлдікке шолу жасалғаннан кейін толығырақ жұмыстарын жариялауға қолдау көрсету арқылы. Мұндай ашықтық сыртқы үлестің қабілеттерді бағалауымыз бен қорғаныс шараларымызды қалай қалыптастыратынын көрсету арқылы сенім тудырады.
Сенімді қолжетімділікке, ашықтыққа және білім алмасуға негізделген тұрақты қатынастар бүкіл экожүйеге туындап келе жатқан тәуекелдерден озып жүруге көмектеседі және озық ЖИ жүйелері үшін мықтырақ стандарттар мен неғұрлым негізді басқаруға қажетті икемді, іске жарамды бағалауларды дамытуға ықпал етеді.
GPT‑4(жаңа терезеде ашылады) іске қосылған кезден бастап біз орналастыруға дейінгі ерте модель чекпойнттарына тәуелсіз бағалауларды қолдадық. Содан бері біз негізгі озық қабілет пен тәуекел салаларын бағалауда терең тәжірибесі бар бірқатар үшінші тарап ұйымдарымен жұмысымызды кеңейттік. Біз тәуелсіз зертханалық жұмысты сыртқы командалар белгілі бір озық қабілетке қатысты тұжырым не бағалау жасау үшін өз әдістерін қолданатын ашық форматтағы тестілеу ретінде айқындаймыз.
Мысалы, GPT‑5 үшін OpenAI ұзақ көкжиекті автономия, айла-шарғы, алдау мен бақылауды айналып өту, ылғалды зертханадағы жоспарлаудың іске асу мүмкіндігі және шабуылдаушы киберқауіпсіздік бағалаулары сияқты негізгі тәуекел салалары бойынша сыртқы қабілет бағалауларының кең ауқымын үйлестірді.
Бұл тәуелсіз бағалаулар OpenAI-дің Дайындық шеңберіне сәйкес жүргізілген бағалауларды толықтырады және METR ұйымының уақыт көкжиегін бағалауы(жаңа терезеде ашылады) немесе SecureBio ұйымының Virology Capabilities Test (VCT)(жаңа терезеде ашылады) бағалауы сияқты бенчмарктерді қамтиды.
Бұл бағалауларды қолдау үшін біз ерте модель чекпойнттарына қауіпсіз қолжетімділік, байқап отырған қабілет жақсаруларын нақтылау үшін кейбір бағалау нәтижелері, қажет жерде деректерді нөлдік сақтау режимі және әлсірету шаралары азырақ модельдер ұсындық. Мысалы, киберқауіпсіздік және биоқауіпсіздік салаларында тестілеу жүргізген ұйымдар негізгі қабілеттерді тексеру үшін модельдерді қауіпсіздік әлсіретулерімен де, онсыз да сынады. Тағы бірнеше ұйымға модельдің ой қорыту іздерін тексере алуы үшін ойлау тізбегіне тікелей қолжетімділік берілді. Ашықтықты арттыруға бағытталған бұл қадам бағалаушыларға тек ойлау тізбегін оқу арқылы ғана аңғарылуы мүмкін sandbagging2 немесе айла-шарғы мінез-құлқы жағдайларын анықтауға мүмкіндік берді. Қолжетімділік қауіпсіздік бақылаулары сақталған жағдайда берілді, және модель қабілеттері мен тестілеу қажеттіліктері дамыған сайын біз бұл бақылауларды жаңартып отырамыз.
Кейбір жағдайларда сыртқы бағалаушылар әдіснамалық шолу ұсынуға өте қолайлы болады, яғни озық зертханалар тәуекелді бағалау үшін сүйенетін шеңберлер мен дәлелдерге қосымша көзқарастар береді. Мысалы, gpt-oss іске қосылған кезде біз Estimating worst case frontier risks of open weight LLMs еңбегінде сипатталғандай, ашық салмақты модельдер үшін ең нашар жағдайдағы қабілеттерді бағалау мақсатында қарсылас fine-tuning әдісін қолдандық. Қауіпсіздікке қатысты негізгі сұрақ — зиянкестің модельді біздің Дайындық шеңберіміз бойынша био немесе кибер салаларында Жоғары деңгейге жеткізу үшін fine-tuning жасай ала ма деген мәселе болды. Бұл үшін ресурсты көп қажет ететін қарсылас fine-tuning керек болғандықтан, біз үшінші тарап бағалаушыларын ұқсас жұмысты қайталаудың орнына ішкі әдістеріміз бен нәтижелерімізді шолып, ұсыныстар беруге шақырдық.
Бұл бірнеше аптаға созылған үдерісті қамтыды: бағалау rollout-тарын бөлісу, қарсылас fine tuning тәсілі туралы мәліметтер беру және ең нашар жағдайдағы озық тәуекелдерге арналған әдіснама мен бағалауларды жақсартуға қатысты құрылымдалған ұсыныстар жинау. Бағалаушылардың пікірі соңғы қарсылас fine-tuning үдерісіне өзгерістер енгізуге әкелді және әдіснамалық растаудың құндылығын көрсетті. Біз қандай тармақтарды қабылдағанымызды gpt-oss туралы мақала мен жүйе картасында тіркедік, ал қабылдамаған тармақтар бойынша уәждер ұсындық.
Мұнда тәуелсіз бағалауларға қарағанда әдіснама шолуы дұрыс таңдау болды: бағалаулар ауқымды, ең нашар жағдайдағы эксперименттерді жүргізуді қамтыды, ал ол ірі ЖИ зертханаларынан тыс жерде жиі кездеспейтін инфрақұрылым мен техникалық тәжірибені талап етеді. Бұл тәуелсіз бағалаулар ең нашар сценарийлер жөнінде тікелей түсінік беруге ықтимал түрде жеткізе алмайтынын білдірді, сондықтан сыртқы бағалаушыларды тұжырымдарды растауға бағыттау өнімдірек болды. Сыртқы бағалаушылар әдістер мен дәлелдерді шолды(жаңа терезеде ашылады), шешім қабылдау үшін маңызды олқылықтарды атап өтті, ал олар ұсыныстарға қатысты кері байланыс циклі аясында түзетілді. Бұл тәсілді біз қолжетімділік немесе инфрақұрылым қажеттіліктері үшінші тараптың бағалауды өзі тікелей жүргізуін тиімсіз ететін басқа бағыттарға да, не сыртқы бағалаулар әлі болмаған жағдайларға да кеңейтеміз деп үміттенеміз.
Сыртқы сарапшыларды тартудың тағы бір жолы — пәндік сала сарапшыларының (SME) тексеруі; мұнда сарапшылар модельді тікелей бағалап, сауалнамалар арқылы оның қабілеттерін бағалауымызға құрылымдалған үлес береді. Бұл нақты қорғаныс шараларын стресс-тестілеуге бағытталған редтимингтен өзгеше. Бұл бізге Дайындық шеңбері бағалауларын тек статикалық бағалаулар ғана қамти алмауы мүмкін сарапшылық пайым мен нақты әлем контексін көрсететін салаға тән түсініктермен толықтыруға мүмкіндік береді. Мысалы, біз пәндік сала сарапшыларынан тұратын панельді ChatGPT Agent пен GPT‑5 үшін helpful-only модельді3 пайдаланып, био саласындағы өздерінің толық циклді сценарийлерін сынап көруге шақырдық. Олар өз сценарийлерінде модель ұсынған нұсқаулардың пайдалылығына сүйене отырып, модельдің өздері сияқты сарапшының мүмкіндігін тәжірибесі аз бастаушымен салыстырғанда қаншалықты арттыра алатынын бағалады. Мақсат — жүйенің ынталы бастаушыны құзыретті орындауға елеулі түрде жақындата алуын қаншалықты қолдайтыны туралы қосымша түсінік жинау болды: SME мамандары өздері ойлап тапқан шынайы жұмыс үдерістері жағдайында біздің «бастаушыны күшейту» туралы тұжырымдарымызды стресс-тестілеп, модель нақты, қадамдық көмек берген жерлер мен азырақ пайдалы қорытындылар ұсынған жерлер туралы егжей-тегжейлі пікір берді. Бұл сарапшылық тексеру жаттығуы осы модельдерді орналастыру жөніндегі жалпы бағалаудың бір бөлігіне енгізілді және екі іске қосылымның да жүйе карталарында бөлісілді.
Ашықтық қағидатын ұстана отырып, біз үшінші тарап бағалаушылары бізбен жұмыс істегенде нені қабылдайтыны және ынтымақтастықтарымызды қандай қағидаттар бағыттайтыны туралы толығырақ бөлісеміз:
- Мұқият құпиялылық шектерімен үйлескен ашықтық: Үшінші тарап бағалаушылары өз бағалауларын қолдау үшін құпия, жария емес ақпаратпен бөлісуге мүмкіндік беретін құпия ақпаратты жария етпеу келісімдеріне қол қояды. Осы жазбаның Қосымшасында біз үшінші тарап бағалаушыларымен жасалған келісімшарттардан жариялау құқықтары мен шолу жөніндегі күтулерді сипаттайтын тиісті үзінділерді келтіреміз. Біз ашықтық қағидатымен жұмыс істейміз және құпия ақпаратқа немесе зияткерлік меншікке нұқсан келтірмей, қауіпсіздік пен соған қатысты бағалауларды түсінуді ілгерілететін жариялауға мүмкіндік беруге ұмтыламыз. Соның аясында біз үшінші тарап бағалауларынан туындайтын жарияланымдарды құпиялылық пен фактілік дәлдікті қамтамасыз ету үшін қарап, мақұлдаймыз. Соңғы бірнеше жылда бірнеше үшінші тарап бағалаушысы өз жұмыстарын біздің жүйе карталарындағы бағалау қорытындыларын жариялауымызбен қатар жариялады. Біз құпиялылық пен дәлдікке тексергеннен кейін жарияланған жұмыстардың кейбір мысалдары: [METR GPT‑5 report (жаңа терезеде ашылады), OpenAI o1 туралы Apollo Research есебі(жаңа терезеде ашылады), Irregular GPT‑5 Assessment(жаңа терезеде ашылады)]
- Ойланып ашылатын ақпарат және қауіпсіз, сезімтал қолжетімділік: Әдепкі бойынша біз жұртшылыққа ашық немесе өндірістік қолдануға дайын болуы көзделген ақпарат пен модельдерге қолжетімділік береміз. Бағалаулар қажет еткен жағдайда, helpful-only модельдерге немесе жария емес ақпаратқа қолжетімділік сияқты тереңірек рұқсат береміз. OpenAI үшінші тарап бағалаушылары үшін маңызды қауіпсіздік сұрақтары туындағанда мұндай қолжетімділік түрлерін берді. Маңыздысы, мұндай сезімтал қолжетімділік қатаң қауіпсіздік шараларын талап етеді, және модель қабілеттері мен тестілеу қажеттіліктері өзгерген сайын біз бұл бақылауларды жаңартып отырамыз.
- Теңгерімді қаржылық ынталандырулар: Біз үшінші тарап бағалау экожүйесінің жеткілікті қаржыландырылған әрі тұрақты болуы маңызды деп есептейміз. Сондықтан біз барлық үшінші тарап бағалаушыларымызға өтемақы ұсынамыз, ал кейбірі бұл мәселеге қатысты ұйымдық ұстанымына қарай одан бас тартуды таңдайды. Өтемақы түрлеріне жұмыс үшін тікелей төлем және/немесе API кредиттері арқылы не өзге жолмен модельді пайдалану шығындарын субсидиялау жатады. Ешбір төлем ешқашан үшінші тарап бағалауының нәтижесіне тәуелді болмайды.
Жиынтығында, бұл факторлар үшінші тарап бағалауларына сезімтал ақпаратты қорғауға да, ЖИ қауіпсіздігіндегі ашықтықты ынталандыруға да, сондай-ақ үшінші тарап бағалаушыларына өз уақыты үшін өтемақы алу жолдарын жасауға көмектеседі.
Алға қарай отырып, біз озық ЖИ жүйелеріне сенімді әрі шешім қабылдауға маңызды бағалаулар жүргізе алатын ұйымдар экожүйесін одан әрі нығайту қажет деп санаймыз. Үшінші тараптың тиімді бағалауы арнайы сараптаманы, тұрақты қаржыландыруды және әдіснамалық қатаңдықты талап етеді. Білікті бағалаушы ұйымдарға үздіксіз инвестиция салу, өлшеу ғылымын дамыту және сезімтал қолжетімділік қауіпсіздігін қамтамасыз ету бағалаулардың модель қабілеттеріндегі ілгерілеумен қатар қадам басуына кепіл болу үшін аса маңызды болады.
Үшінші тарап бағалаулары — біздің қауіпсіздік жұмысымызға сыртқы көзқарас енгізудің бір жолы, және олар басқа тетіктермен қатар жұмыс істейді. Біз сондай-ақ құрылымдалған редтиминг жұмыстары, ұжымдық alignment жобалары, АҚШ CAISI және Ұлыбритания AISI ұйымдарымен жұмыс және біздің Global Physician Network пен Expert Council on Well-Being and AI сияқты кеңесші топтар арқылы сыртқы сарапшылармен ынтымақтасамыз; бұлар психикалық денсаулық пен пайдаланушы әл-ауқаты жөніндегі жұмысымызды бағыттауға көмектеседі. Бұл күш-жігер әртүрлі сараптама түрлерін әкеледі және озық ЖИ жүйелерін бағалау мен басқарудың кеңірек, сенімдірек негізін қолдайды.
Төменде орналастыру алдындағы бағалаулар бойынша бізбен ынтымақтасатын үшінші тараптармен жасалған келісімдерден мысал ретінде келтірілген үзінділер берілген.
Автор
Ескертпелер
- 1
Бұл редтимингтен өзгеше, өйткені оның мақсаты қорғаныс шараларын егжей-тегжейлі стресс-тестілеу және бағалауларды әзірлеуге арналған деректер беру.
- 2
Модель бағаланып немесе тестіленіп жатқанын анықтаған кезде әдейі төмен нәтиже көрсетуі не шынайы қабілеттерін жасыруы.
- 3
Helpful-only модельдер сұрау зиянды болса да, кез келген сұрауға жауап береді. Олар осындай мінез-құлыққа қол жеткізетін пост-тренинг әдістері арқылы жасалады.


