Гаднын шалгалтаар аюулгүй байдлын экосистемээ бэхжүүлэх нь
Хил хязгаарын AI-д хийх гуравдагч талын үнэлгээний талаарх бидний хандлага.
OpenAI-д бид хараат бус, итгэл даахуйц гуравдагч талын үнэлгээ нь хил хязгаарын AI-ийн аюулгүй байдлын экосистемийг бэхжүүлэхэд шийдвэрлэх үүрэгтэй гэж үздэг. Гуравдагч талын үнэлгээ гэдэг нь чухал аюулгүй байдлын чадвар, эрсдэлийг бууруулах арга хэмжээний талаарх мэдэгдлийг баталгаажуулах эсвэл нэмэлт нотолгоо өгөхийн тулд хил хязгаарын загваруудад хийдэг үнэлгээ юм. Эдгээр үнэлгээ нь аюулгүй байдлын мэдэгдлийг баталгаажуулах, сохор цэгээс хамгаалах, чадвар ба эрсдэлийн талаарх ил тод байдлыг нэмэгдүүлэхэд тусалдаг. Гаднын мэргэжилтнүүдийг манай хил хязгаарын загваруудыг шалгахыг урьснаар бид чадварын үнэлгээ болон хамгаалалтын арга хэмжээнийхээ гүнзгий байдалд итгэл төрүүлэх, мөн өргөн хүрээний аюулгүй байдлын экосистемийг дэмжихийг зорьдог.
GPT‑4 нэвтэрснээс хойш OpenAI нь загваруудаа шалгаж, үнэлүүлэхийн тулд олон төрлийн гаднын түнштэй хамтран ажилласан. Ерөнхийд нь авч үзвэл, манай гуравдагч талын хамтын ажиллагаа дараах гурван хэлбэртэй:
- Биоаюулгүй байдал, кибер аюулгүй байдал, AI-ийн өөрийгөө сайжруулах чадвар, зальт төлөвлөлт зэрэг хил хязгаарын гол чадвар ба эрсдэлийн чиглэлүүдийн хараат бус үнэлгээ
- Эрсдэлийг хэрхэн үнэлж, тайлбарлаж байгааг дүгнэдэг арга зүйн хяналт
- Мэргэжилтнүүд загварыг бодит ертөнцийн SME ажлууд дээр шууд үнэлж, түүний чадвар болон холбогдох хамгаалалтын арга хэмжээний үнэлгээнд бүтэцтэй санал өгдөг салбарын мэргэжилтний (SME) сорилт шалгалт1
Энэ блогт бид гаднын үнэлгээний эдгээр хэлбэр тус бүрийг хэрхэн ашигладаг, яагаад чухал болох, нэвтрүүлэлтийн шийдвэрт хэрхэн нөлөөлсөн, мөн эдгээр хамтын ажиллагааг зохион байгуулахдаа баримталдаг зарчмуудаа тайлбарлаж байна. Ил тод байдлыг эрхэмлэх үүднээс бид гуравдагч талын шалгагчидтай хийх хамтын ажиллагааг зохицуулдаг нууцлал болон нийтлэх нөхцөлийн талаар ч илүү дэлгэрэнгүй хуваалцаж байна.
Гуравдагч талын үнэлэгчид нь манай дотоод ажлын хажуугаар хараат бус үнэлгээний давхарга нэмж, нягт нямбай байдлыг бэхжүүлж, өөрийн дүгнэлтээ өөрөө батлах эрсдлээс хамгаалах нэмэлт хамгаалалт болдог. Тэдний санал нь манай өөрсдийн үнэлгээний хажуугаар нэмэлт нотолгоо болж, хүчирхэг системүүдийг хариуцлагатайгаар нэвтрүүлэх шийдвэр гаргахад тусалдаг.
Мөн бид гуравдагч талын үнэлгээг тэсвэртэй аюулгүй байдлын экосистемийг бүрдүүлэх нэг хэсэг гэж үздэг. Манай багууд чадвар ба эрсдэлийн олон чиглэлээр өргөн хүрээний дотоод шалгалт хийдэг ч хараат бус байгууллагууд нэмэлт өнцөг, арга зүйн хандлага авчирдаг. Бидэнтэй зэрэгцэн хил хязгаарын загваруудыг тогтмол үнэлж чадах, шаардлага хангасан олон төрлийн үнэлэгч байгууллагыг дэмжихээр ажилладаг.
Эцэст нь бид энэ оролт манай аюулгүй байдлын үйл явцыг хэрхэн хэлбэржүүлж байгааг ил тод байлгахыг зорьдог. Бид гуравдагч талын үнэлгээг тогтмол олон нийтэд хүргэдэг. Жишээлбэл, нэвтрүүлэхээс өмнөх үнэлгээний хураангуйг системийн картуудад оруулах, мөн нууцлал болон үнэн зөвийн хяналтын дараа үнэлэгч байгууллагуудыг илүү дэлгэрэнгүй ажлаа нийтлэхэд дэмжлэг үзүүлэх зэргээр. Энэ ил тод байдал нь гаднын оролт манай чадварын үнэлгээ болон хамгаалалтын арга хэмжээнд хэрхэн нөлөөлж байгааг харуулснаар итгэл төрүүлдэг.
Итгэлтэй хандалт, ил тод байдал, мэдлэг хуваалцахад тулгуурласан тогтвортой харилцаа нь бүх экосистемд шинээр гарч ирж буй эрсдлээс түрүүлж ажиллах, мөн илүү хүчтэй стандарт ба хил хязгаарын AI системийн илүү мэдээлэлтэй засаглалд шаардлагатай уян хатан, хэрэгжихүйц үнэлгээг хөгжүүлэхэд тусалдаг.
GPT‑4(шинэ цонхонд нээгдэнэ)-ийн нээлтээс эхлэн бид нэвтрүүлэхээс өмнө загварын эхний checkpoint-ууд дээр хараат бус үнэлгээ хийхийг дэмжиж ирсэн. Түүнээс хойш бид хил хязгаарын гол чадвар ба эрсдэлийн чиглэлээр үнэлгээ хийх гүнзгий туршлагатай олон төрлийн гуравдагч талын байгууллагатай хамтын ажиллагаагаа өргөжүүлсэн. Бид хараат бус лабораторийн ажлыг тодорхой хил хязгаарын чадвартай холбоотой мэдэгдэл эсвэл үнэлгээнд хүрэхийн тулд гаднын багууд өөрсдийн аргыг хэрэглэх нээлттэй шалгалт гэж тодорхойлдог.
Жишээлбэл, GPT‑5-ийн хувьд OpenAI нь урт хугацааны бие даасан байдал, зальт төлөвлөлт, хууралт ба хяналтыг тойрч гарах, wet lab төлөвлөлтийн хэрэгжих боломж, довтолгооны кибер аюулгүй байдлын үнэлгээ зэрэг эрсдэлийн гол чиглэлүүдээр гаднын өргөн хүрээний чадварын үнэлгээг зохицуулсан.
Эдгээр хараат бус үнэлгээ нь OpenAI-ийн Preparedness Framework-ийн дагуу хийгдсэн үнэлгээнүүдийг нөхөж, METR-ийн цаг хугацааны хүрээний үнэлгээ(шинэ цонхонд нээгдэнэ) эсвэл SecureBio-ийн Virology Capabilities Test (VCT)(шинэ цонхонд нээгдэнэ) зэрэг benchmark-уудыг агуулдаг.
Эдгээр үнэлгээг дэмжихийн тулд бид эрт үеийн загварын checkpoint-уудад аюулгүй хандалт, бидний харж буй чадварын сайжруулалтыг тодорхой болгох сонгомол үнэлгээний үр дүн, шаардлагатай үед өгөгдөл хадгалахгүй горим, мөн цөөн mitigation-тай загваруудыг өгсөн. Жишээлбэл, кибер аюулгүй байдал болон биоаюулгүй байдлын чиглэлээр шалгалт хийсэн байгууллагууд суурь чадварыг шинжлэхийн тулд загваруудыг аюулгүй байдлын mitigation-тэй болон mitigation-гүйгээр хоёуланг нь туршсан. Өөр хэд хэдэн байгууллагад загварын сэтгэн бодох мөрүүдийг шалгах боломж олгохын тулд бодлын хэлхээ-д шууд хандалт олгосон. Ил тод байдлыг нэмэгдүүлсэн энэ алхам нь үнэлэгчдэд зөвхөн бодлын хэлхээ-г уншсанаар ялгаж болох sandbagging2 эсвэл зальт төлөвлөлтийн зан үйлийн тохиолдлуудыг илрүүлэх боломж олгосон. Хандалтыг аюулгүй байдлын хяналттайгаар олгосон бөгөөд загварын чадвар болон шалгалтын хэрэгцээ өөрчлөгдөхийн хэрээр бид эдгээр хяналтуудыг үргэлжлүүлэн шинэчилж байна.
Зарим нөхцөлд гаднын үнэлэгчид арга зүйн хяналт өгөхөд маш тохиромжтой байдаг бөгөөд ингэснээр хил хязгаарын лабораториуд эрсдэлийг үнэлэхдээ түшиглэдэг хүрээ болон нотолгоонд нэмэлт өнцөг санал болгодог. Жишээлбэл, gpt-oss-ийг нэвтрүүлэх үеэр бид нээлттэй жинтэй загваруудын хамгийн муу хувилбарын чадварыг тооцоолохын тулд сөргөлдөөнт fine-tuning ашигласан бөгөөд үүнийг Estimating worst case frontier risks of open weight LLMs-д тайлбарласан. Гол аюулгүй байдлын асуулт нь манай Preparedness Framework-ийн хүрээнд био эсвэл кибер зэрэг чиглэлээр муу санаат этгээд загварыг fine-tune хийж High чадварт хүргэж чадах эсэх байв. Энэ нь их нөөц шаардсан сөргөлдөөнт fine-tuning хэрэгтэй байсан тул ижил төстэй ажлыг давтан хийхийн оронд бид гуравдагч талын үнэлэгчдийг манай дотоод арга, үр дүнг хянаж зөвлөмж өгөхийг урьсан.
Үүнд хэдэн долоо хоногийн турш үнэлгээний rollout-ууд, сөргөлдөөнт fine tuning-ийн хандлагын талаарх дэлгэрэнгүй мэдээллийг хуваалцах, мөн хил хязгаарын хамгийн муу хувилбарын эрсдэлийн арга зүй ба үнэлгээг сайжруулах тухай бүтэцтэй зөвлөмж цуглуулах үйл явц багтсан. Үнэлэгчдийн санал нь эцсийн сөргөлдөөнт fine-tuning үйл явцад өөрчлөлт оруулахад хүргэж, арга зүйн баталгаажуулалтын үнэ цэнийг харуулсан. Бид ямар зүйлсийг хэрэгжүүлснээ өгүүлэл болон gpt-oss-ийн системийн картанд тэмдэглэж, хэрэгжүүлээгүй зүйлсийн шалтгааныг тайлбарласан.
Энд хараат бус үнэлгээнээс илүү арга зүйн хяналт нь зөв тохирсон: үнэлгээнүүд нь том хэмжээний, хамгийн муу хувилбарын туршилтуудыг ажиллуулахтай холбоотой байсан бөгөөд энэ нь томоохон AI лабораториудаас гадуур түгээмэл байдаггүй дэд бүтэц, техникийн мэргэшил шаарддаг. Энэ нь хараат бус үнэлгээ нь хамгийн муу хувилбарын нөхцөл байдлын талаар шууд ойлголт өгөх магадлал багатай гэсэн үг бөгөөд гаднын үнэлэгчдийг мэдэгдлийг баталгаажуулахад төвлөрүүлэх нь илүү үр дүнтэй байсан. Гаднын үнэлэгчид арга болон нотолгоог хянаж үзсэн(шинэ цонхонд нээгдэнэ) бөгөөд шийдвэр гаргахад хамааралтай цоорхойг онцолж, тэдгээрийг зөвлөмжийн санал солилцооны мөчлөгийн нэг хэсэг болгон шийдвэрлэсэн. Энэ бол хандалт эсвэл дэд бүтцийн хэрэгцээ нь гуравдагч талд үнэлгээг өөрөө шууд хийхийг практик бус болгодог, эсвэл гаднын үнэлгээ хараахан байхгүй байж болох бусад чиглэлд өргөжүүлнэ гэж найдаж буй хандлага юм.
Гаднын мэргэжилтнүүдтэй хамтран ажиллах өөр нэг арга бол салбарын мэргэжилтний (SME) сорилт шалгалт бөгөөд үүгээр мэргэжилтнүүд загварыг шууд үнэлж, түүний чадварын талаарх бидний үнэлгээнд судалгааны асуулгаар бүтэцтэй санал өгдөг. Энэ нь тодорхой хамгаалалтын арга хэмжээг стресст оруулан шалгах зорилготой улаан баг-аас өөр юм. Ингэснээр бид Preparedness Framework-ийн үнэлгээг зөвхөн статик үнэлгээнээс харагдахгүй байж болох мэргэжилтний дүгнэлт, бодит нөхцөлийн тусгал болсон салбарын ойлголтоор баяжуулж чаддаг. Жишээлбэл, бид ChatGPT Agent болон GPT‑5‑д зориулан туслах-only загвар3 ашиглаж өөрсдийн эхнээс нь дуусталх био хувилбаруудыг туршиж үзэхийг салбарын мэргэжилтнүүдийн багт урьсан. Тэд өөрсдийн нөхцөлд өгсөн заавар нь хэр ашигтай байсанд үндэслэн загвар нь өөрсөд шиг мэргэжилтэнд туршлага багатай шинэхэн хүнтэй харьцуулахад хэр хэмжээгээр ахиц өгөхийг үнэлсэн. Зорилго нь идэвхтэй суралцаж буй шинэхэн хүнийг чадварлаг гүйцэтгэлд бодитоор ойртуулж чадах эсэх талаар нэмэлт оролт авах байв: SME-үүд бидний “шинэхэн хэрэглэгчийн ахиц” гэсэн мэдэгдлийг өөрсдийн боловсруулсан бодит ажлын урсгал дээр стресст оруулж шалгаж, загвар бодитой, алхам түвшний тусламж өгсөн хэсэг болон харьцангуй бага ашигтай хураангуй өгсөн хэсгийн талаар нарийвчилсан санал өгсөн. Энэхүү мэргэжилтний сорилт шалгалт нь эдгээр загварыг нэвтрүүлэх нийт үнэлгээний нэг хэсэгт багтсан бөгөөд хоёр нээлтийн системийн картуудад хуваалцагдсан.
Ил тод байдлыг эрхэмлэх үүднээс бид гуравдагч талын үнэлэгчид бидэнтэй ажиллахдаа юунд зөвшөөрдөг, мөн хамтын ажиллагааг маань чиглүүлдэг зарчмуудын талаар илүү дэлгэрэнгүй хуваалцаж байна:
- Нягт нямбай нууцлалын хүрээтэй ил тод байдал: Гуравдагч талын үнэлэгчид үнэлгээгээ дэмжихийн тулд нууц, олон нийтэд нээлттэй биш мэдээлэл хуваалцах боломж олгох нууц задруулахгүй байх гэрээнд гарын үсэг зурдаг. Энэ нийтлэлийн Хавсралт-д бид гуравдагч талын үнэлэгчидтэй байгуулсан гэрээний нийтлэх эрх болон хяналтын талаарх хүлээлтийг тоймлосон холбогдох эшлэлүүдийг оруулсан. Бид ил тод байх зарчмаар ажилладаг бөгөөд нууц мэдээлэл эсвэл оюуны өмчийг алдагдуулахгүйгээр аюулгүй байдал болон холбогдох үнэлгээний ойлголтыг гүнзгийрүүлэх нийтлэлийг боломжтой болгохыг эрмэлздэг. Үүний хүрээнд бид гуравдагч талын үнэлгээний нийтлэлүүдийг нууцлал болон баримтын үнэн зөвийг хангахын тулд хянаж, баталдаг. Сүүлийн хэдэн жилд хэд хэдэн гуравдагч талын үнэлэгч өөрсдийн ажлыг системийн карт дахь үнэлгээний хураангуйг бидний нийтэлсэнтэй зэрэгцүүлэн нийтэлсэн. Нууцлал ба үнэн зөвийн үүднээс бидний хянасан дараа нийтлэгдсэн ажлын зарим жишээнд: [METR GPT‑5 тайлан (шинэ цонхонд нээгдэнэ), OpenAI o1‑ийн талаар Apollo Research-ийн тайлан(шинэ цонхонд нээгдэнэ), Irregular GPT‑5 үнэлгээ(шинэ цонхонд нээгдэнэ)]
- Бодолтой мэдээлэл ил болголт ба аюулгүй, мэдрэмтгий хандалт: Анхдагчаар бид олон нийтэд нээлттэй эсвэл үйлдвэрлэлд бэлэн байхаар төлөвлөсөн мэдээлэл болон загварт хандах эрх олгодог. Үнэлгээнд шаардлагатай үед бид helpful-only загвар эсвэл олон нийтэд нээлттэй бус мэдээлэл гэх мэт илүү гүн хандалт олгодог. OpenAI нь аюулгүй байдлын чухал асуултуудын хувьд шаардлагатай үед гуравдагч талын үнэлэгчдэд ийм төрлийн хандалт олгож ирсэн. Чухал нь, ийм мэдрэмтгий хандалт нь хатуу хамгаалалтын арга хэмжээ шаарддаг бөгөөд загварын чадвар болон шалгалтын хэрэгцээ өөрчлөгдөхийн хэрээр бид эдгээр хяналтыг үргэлжлүүлэн шинэчилж байна.
- Тэнцвэртэй санхүүгийн урамшуулал: Бид гуравдагч талын үнэлгээний экосистемийг хангалттай санхүүжсэн, тогтвортой байх нь чухал гэж үздэг. Иймээс бид бүх гуравдагч талын үнэлэгчдээ урамшуулдаг бөгөөд зарим нь байгууллагынхаа энэ талаарх философиос хамааран татгалзахыг сонгодог. Урамшууллын хэлбэрт ажлын шууд төлбөр болон/эсвэл API credit зэрэг аргаар загвар ашиглах зардлыг татаасжуулах зүйлс орно. Ямар ч төлбөр гуравдагч талын үнэлгээний үр дүнгээс хэзээ ч хамаардаггүй.
Эдгээр хүчин зүйлс нийлээд гуравдагч талын үнэлгээ нь мэдрэмтгий мэдээллийг хамгаалахын зэрэгцээ AI-ийн аюулгүй байдлын ил тод байдлыг дэмжих, мөн гуравдагч талын үнэлэгчдэд цаг хугацааныхаа төлөө нөхөн төлбөр авах боломжийг бүрдүүлдэг.
Цаашид бид хил хязгаарын AI системийн найдвартай, шийдвэрт хамааралтай үнэлгээ хийж чаддаг байгууллагуудын экосистемийг үргэлжлүүлэн бэхжүүлэх шаардлагатай гэж үзэж байна. Үр дүнтэй гуравдагч талын үнэлгээ нь тусгай мэргэшил, тогтвортой санхүүжилт, арга зүйн нягт нямбай байдлыг шаарддаг. Шаардлага хангасан үнэлэгч байгууллагуудад хийх тасралтгүй хөрөнгө оруулалт, хэмжилзүйн ухааны дэвшил, мэдрэмтгий хандалтын аюулгүй байдал нь үнэлгээнүүд загварын чадварын ахицтай хөл нийлүүлэн алхахыг хангахад зайлшгүй хэрэгтэй.
Гуравдагч талын үнэлгээ нь гаднын өнцгийг аюулгүй байдлын ажилдаа оруулах нэг арга бөгөөд бусад механизмуудтай зэрэгцэн ажилладаг. Мөн бид бүтэцтэй улаан багийн ажиллагаа, хамтын нийцлийн төслүүд, АНУ-ын CAISI болон Их Британийн AISI-тай хийх ажил, мөн сэтгэцийн эрүүл мэнд болон хэрэглэгчийн сайн сайхан байдлын чиглэл дэх ажлаа чиглүүлэхэд туслах манай Глобал эмч нарын сүлжээ болон Сайн сайхан байдал ба AI-ийн шинжээчдийн зөвлөл зэрэг зөвлөх бүлгүүдээр дамжуулан гаднын мэргэжилтнүүдтэй хамтран ажилладаг. Эдгээр хүчин чармайлт нь өөр өөр хэлбэрийн мэргэшлийг авчирч, дэвшилтэт AI системийг үнэлэх, засаглах илүү өргөн, илүү найдвартай суурийг бүрдүүлдэг.
Дараах нь бидэнтэй нэвтрүүлэхээс өмнөх үнэлгээн дээр хамтран ажилладаг гуравдагч талуудтай байгуулсан гэрээнээс авсан жишээ эшлэлүүд юм.
Зохиогч
Тайлбарууд
- 1
Энэ нь хамгаалалтын арга хэмжээг нарийвчлан стресст оруулж шалгах, мөн үнэлгээ боловсруулах өгөгдөл өгөх зорилготой улаан багаас ялгаатай.
- 2
Загвар үнэлж эсвэл туршиж байгааг мэдсэн үедээ санаатайгаар чадвараасаа дутуу ажиллах эсвэл жинхэнэ чадвараа нуухыг хэлнэ.
- 3
Helpful-only загварууд хүсэлт нь хортой байсан ч гэсэн ямар ч хүсэлтэд хариулдаг. Эдгээрийг ийм зан үйлийг бий болгодог post-training аргуудаар бүтээдэг.


