2025 оны арван нэгдүгээр сарын 19

Гаднын шалгалтаар аюулгүй байдлын экосистемээ бэхжүүлэх нь

Хил хязгаарын AI-д хийх гуравдагч талын үнэлгээний талаарх бидний хандлага.

Ачаалж байна…

OpenAI-д бид хараат бус, итгэл даахуйц гуравдагч талын үнэлгээ нь хил хязгаарын AI-ийн аюулгүй байдлын экосистемийг бэхжүүлэхэд шийдвэрлэх үүрэгтэй гэж үздэг. Гуравдагч талын үнэлгээ гэдэг нь чухал аюулгүй байдлын чадвар, эрсдэлийг бууруулах арга хэмжээний талаарх мэдэгдлийг баталгаажуулах эсвэл нэмэлт нотолгоо өгөхийн тулд хил хязгаарын загваруудад хийдэг үнэлгээ юм. Эдгээр үнэлгээ нь аюулгүй байдлын мэдэгдлийг баталгаажуулах, сохор цэгээс хамгаалах, чадвар ба эрсдэлийн талаарх ил тод байдлыг нэмэгдүүлэхэд тусалдаг. Гаднын мэргэжилтнүүдийг манай хил хязгаарын загваруудыг шалгахыг урьснаар бид чадварын үнэлгээ болон хамгаалалтын арга хэмжээнийхээ гүнзгий байдалд итгэл төрүүлэх, мөн өргөн хүрээний аюулгүй байдлын экосистемийг дэмжихийг зорьдог.

GPT‑4 нэвтэрснээс хойш OpenAI нь загваруудаа шалгаж, үнэлүүлэхийн тулд олон төрлийн гаднын түнштэй хамтран ажилласан. Ерөнхийд нь авч үзвэл, манай гуравдагч талын хамтын ажиллагаа дараах гурван хэлбэртэй:

Биоаюулгүй байдал, кибер аюулгүй байдал, AI-ийн өөрийгөө сайжруулах чадвар, зальт төлөвлөлт зэрэг хил хязгаарын гол чадвар ба эрсдэлийн чиглэлүүдийн хараат бус үнэлгээ
Эрсдэлийг хэрхэн үнэлж, тайлбарлаж байгааг дүгнэдэг арга зүйн хяналт
Мэргэжилтнүүд загварыг бодит ертөнцийн SME ажлууд дээр шууд үнэлж, түүний чадвар болон холбогдох хамгаалалтын арга хэмжээний үнэлгээнд бүтэцтэй санал өгдөг салбарын мэргэжилтний (SME) сорилт шалгалт¹

Энэ блогт бид гаднын үнэлгээний эдгээр хэлбэр тус бүрийг хэрхэн ашигладаг, яагаад чухал болох, нэвтрүүлэлтийн шийдвэрт хэрхэн нөлөөлсөн, мөн эдгээр хамтын ажиллагааг зохион байгуулахдаа баримталдаг зарчмуудаа тайлбарлаж байна. Ил тод байдлыг эрхэмлэх үүднээс бид гуравдагч талын шалгагчидтай хийх хамтын ажиллагааг зохицуулдаг нууцлал болон нийтлэх нөхцөлийн талаар ч илүү дэлгэрэнгүй хуваалцаж байна.

Энэ яагаад чухал вэ?

Гуравдагч талын үнэлэгчид нь манай дотоод ажлын хажуугаар хараат бус үнэлгээний давхарга нэмж, нягт нямбай байдлыг бэхжүүлж, өөрийн дүгнэлтээ өөрөө батлах эрсдлээс хамгаалах нэмэлт хамгаалалт болдог. Тэдний санал нь манай өөрсдийн үнэлгээний хажуугаар нэмэлт нотолгоо болж, хүчирхэг системүүдийг хариуцлагатайгаар нэвтрүүлэх шийдвэр гаргахад тусалдаг.

Мөн бид гуравдагч талын үнэлгээг тэсвэртэй аюулгүй байдлын экосистемийг бүрдүүлэх⁠ нэг хэсэг гэж үздэг. Манай багууд чадвар ба эрсдэлийн олон чиглэлээр өргөн хүрээний дотоод шалгалт хийдэг ч хараат бус байгууллагууд нэмэлт өнцөг, арга зүйн хандлага авчирдаг. Бидэнтэй зэрэгцэн хил хязгаарын загваруудыг тогтмол үнэлж чадах, шаардлага хангасан олон төрлийн үнэлэгч байгууллагыг дэмжихээр ажилладаг.

Эцэст нь бид энэ оролт манай аюулгүй байдлын үйл явцыг хэрхэн хэлбэржүүлж байгааг ил тод байлгахыг зорьдог. Бид гуравдагч талын үнэлгээг тогтмол олон нийтэд хүргэдэг. Жишээлбэл, нэвтрүүлэхээс өмнөх үнэлгээний хураангуйг системийн картуудад оруулах, мөн нууцлал болон үнэн зөвийн хяналтын дараа үнэлэгч байгууллагуудыг илүү дэлгэрэнгүй ажлаа нийтлэхэд дэмжлэг үзүүлэх зэргээр. Энэ ил тод байдал нь гаднын оролт манай чадварын үнэлгээ болон хамгаалалтын арга хэмжээнд хэрхэн нөлөөлж байгааг харуулснаар итгэл төрүүлдэг.

Итгэлтэй хандалт, ил тод байдал, мэдлэг хуваалцахад тулгуурласан тогтвортой харилцаа нь бүх экосистемд шинээр гарч ирж буй эрсдлээс түрүүлж ажиллах, мөн илүү хүчтэй стандарт ба хил хязгаарын AI системийн илүү мэдээлэлтэй засаглалд шаардлагатай уян хатан, хэрэгжихүйц үнэлгээг хөгжүүлэхэд тусалдаг.

Гаднын лабораториудын хараат бус үнэлгээ

GPT‑4⁠(шинэ цонхонд нээгдэнэ)-ийн нээлтээс эхлэн бид нэвтрүүлэхээс өмнө загварын эхний checkpoint-ууд дээр хараат бус үнэлгээ хийхийг дэмжиж ирсэн. Түүнээс хойш бид хил хязгаарын гол чадвар ба эрсдэлийн чиглэлээр үнэлгээ хийх гүнзгий туршлагатай олон төрлийн гуравдагч талын байгууллагатай хамтын ажиллагаагаа өргөжүүлсэн. Бид хараат бус лабораторийн ажлыг тодорхой хил хязгаарын чадвартай холбоотой мэдэгдэл эсвэл үнэлгээнд хүрэхийн тулд гаднын багууд өөрсдийн аргыг хэрэглэх нээлттэй шалгалт гэж тодорхойлдог.

Жишээлбэл, GPT‑5⁠-ийн хувьд OpenAI нь урт хугацааны бие даасан байдал, зальт төлөвлөлт, хууралт ба хяналтыг тойрч гарах, wet lab төлөвлөлтийн хэрэгжих боломж, довтолгооны кибер аюулгүй байдлын үнэлгээ зэрэг эрсдэлийн гол чиглэлүүдээр гаднын өргөн хүрээний чадварын үнэлгээг зохицуулсан.

Эдгээр хараат бус үнэлгээ нь OpenAI-ийн Preparedness Framework-ийн дагуу хийгдсэн үнэлгээнүүдийг нөхөж, METR-ийн цаг хугацааны хүрээний үнэлгээ⁠(шинэ цонхонд нээгдэнэ) эсвэл SecureBio-ийн Virology Capabilities Test (VCT)⁠(шинэ цонхонд нээгдэнэ) зэрэг benchmark-уудыг агуулдаг.

Эдгээр үнэлгээг дэмжихийн тулд бид эрт үеийн загварын checkpoint-уудад аюулгүй хандалт, бидний харж буй чадварын сайжруулалтыг тодорхой болгох сонгомол үнэлгээний үр дүн, шаардлагатай үед өгөгдөл хадгалахгүй горим, мөн цөөн mitigation-тай загваруудыг өгсөн. Жишээлбэл, кибер аюулгүй байдал болон биоаюулгүй байдлын чиглэлээр шалгалт хийсэн байгууллагууд суурь чадварыг шинжлэхийн тулд загваруудыг аюулгүй байдлын mitigation-тэй болон mitigation-гүйгээр хоёуланг нь туршсан. Өөр хэд хэдэн байгууллагад загварын сэтгэн бодох мөрүүдийг шалгах боломж олгохын тулд бодлын хэлхээ-д шууд хандалт олгосон. Ил тод байдлыг нэмэгдүүлсэн энэ алхам нь үнэлэгчдэд зөвхөн бодлын хэлхээ-г уншсанаар ялгаж болох sandbagging² эсвэл зальт төлөвлөлтийн зан үйлийн тохиолдлуудыг илрүүлэх боломж олгосон. Хандалтыг аюулгүй байдлын хяналттайгаар олгосон бөгөөд загварын чадвар болон шалгалтын хэрэгцээ өөрчлөгдөхийн хэрээр бид эдгээр хяналтуудыг үргэлжлүүлэн шинэчилж байна.

Арга зүйн хяналт

Зарим нөхцөлд гаднын үнэлэгчид арга зүйн хяналт өгөхөд маш тохиромжтой байдаг бөгөөд ингэснээр хил хязгаарын лабораториуд эрсдэлийг үнэлэхдээ түшиглэдэг хүрээ болон нотолгоонд нэмэлт өнцөг санал болгодог. Жишээлбэл, gpt-oss⁠-ийг нэвтрүүлэх үеэр бид нээлттэй жинтэй загваруудын хамгийн муу хувилбарын чадварыг тооцоолохын тулд сөргөлдөөнт fine-tuning ашигласан бөгөөд үүнийг Estimating worst case frontier risks of open weight LLMs⁠-д тайлбарласан. Гол аюулгүй байдлын асуулт нь манай Preparedness Framework-ийн хүрээнд био эсвэл кибер зэрэг чиглэлээр муу санаат этгээд загварыг fine-tune хийж High чадварт хүргэж чадах эсэх байв. Энэ нь их нөөц шаардсан сөргөлдөөнт fine-tuning хэрэгтэй байсан тул ижил төстэй ажлыг давтан хийхийн оронд бид гуравдагч талын үнэлэгчдийг манай дотоод арга, үр дүнг хянаж зөвлөмж өгөхийг урьсан.

Үүнд хэдэн долоо хоногийн турш үнэлгээний rollout-ууд, сөргөлдөөнт fine tuning-ийн хандлагын талаарх дэлгэрэнгүй мэдээллийг хуваалцах, мөн хил хязгаарын хамгийн муу хувилбарын эрсдэлийн арга зүй ба үнэлгээг сайжруулах тухай бүтэцтэй зөвлөмж цуглуулах үйл явц багтсан. Үнэлэгчдийн санал нь эцсийн сөргөлдөөнт fine-tuning үйл явцад өөрчлөлт оруулахад хүргэж, арга зүйн баталгаажуулалтын үнэ цэнийг харуулсан. Бид ямар зүйлсийг хэрэгжүүлснээ өгүүлэл болон gpt-oss-ийн системийн картанд тэмдэглэж, хэрэгжүүлээгүй зүйлсийн шалтгааныг тайлбарласан.

Энд хараат бус үнэлгээнээс илүү арга зүйн хяналт нь зөв тохирсон: үнэлгээнүүд нь том хэмжээний, хамгийн муу хувилбарын туршилтуудыг ажиллуулахтай холбоотой байсан бөгөөд энэ нь томоохон AI лабораториудаас гадуур түгээмэл байдаггүй дэд бүтэц, техникийн мэргэшил шаарддаг. Энэ нь хараат бус үнэлгээ нь хамгийн муу хувилбарын нөхцөл байдлын талаар шууд ойлголт өгөх магадлал багатай гэсэн үг бөгөөд гаднын үнэлэгчдийг мэдэгдлийг баталгаажуулахад төвлөрүүлэх нь илүү үр дүнтэй байсан. Гаднын үнэлэгчид арга болон нотолгоог хянаж үзсэн⁠(шинэ цонхонд нээгдэнэ) бөгөөд шийдвэр гаргахад хамааралтай цоорхойг онцолж, тэдгээрийг зөвлөмжийн санал солилцооны мөчлөгийн нэг хэсэг болгон шийдвэрлэсэн. Энэ бол хандалт эсвэл дэд бүтцийн хэрэгцээ нь гуравдагч талд үнэлгээг өөрөө шууд хийхийг практик бус болгодог, эсвэл гаднын үнэлгээ хараахан байхгүй байж болох бусад чиглэлд өргөжүүлнэ гэж найдаж буй хандлага юм.

Салбарын мэргэжилтний (SME) сорилт шалгалт

Гаднын мэргэжилтнүүдтэй хамтран ажиллах өөр нэг арга бол салбарын мэргэжилтний (SME) сорилт шалгалт бөгөөд үүгээр мэргэжилтнүүд загварыг шууд үнэлж, түүний чадварын талаарх бидний үнэлгээнд судалгааны асуулгаар бүтэцтэй санал өгдөг. Энэ нь тодорхой хамгаалалтын арга хэмжээг стресст оруулан шалгах зорилготой улаан баг⁠-аас өөр юм. Ингэснээр бид Preparedness Framework-ийн үнэлгээг зөвхөн статик үнэлгээнээс харагдахгүй байж болох мэргэжилтний дүгнэлт, бодит нөхцөлийн тусгал болсон салбарын ойлголтоор баяжуулж чаддаг. Жишээлбэл, бид ChatGPT Agent болон GPT‑5‑д зориулан туслах-only загвар³ ашиглаж өөрсдийн эхнээс нь дуусталх био хувилбаруудыг туршиж үзэхийг салбарын мэргэжилтнүүдийн багт урьсан. Тэд өөрсдийн нөхцөлд өгсөн заавар нь хэр ашигтай байсанд үндэслэн загвар нь өөрсөд шиг мэргэжилтэнд туршлага багатай шинэхэн хүнтэй харьцуулахад хэр хэмжээгээр ахиц өгөхийг үнэлсэн. Зорилго нь идэвхтэй суралцаж буй шинэхэн хүнийг чадварлаг гүйцэтгэлд бодитоор ойртуулж чадах эсэх талаар нэмэлт оролт авах байв: SME-үүд бидний “шинэхэн хэрэглэгчийн ахиц” гэсэн мэдэгдлийг өөрсдийн боловсруулсан бодит ажлын урсгал дээр стресст оруулж шалгаж, загвар бодитой, алхам түвшний тусламж өгсөн хэсэг болон харьцангуй бага ашигтай хураангуй өгсөн хэсгийн талаар нарийвчилсан санал өгсөн. Энэхүү мэргэжилтний сорилт шалгалт нь эдгээр загварыг нэвтрүүлэх нийт үнэлгээний нэг хэсэгт багтсан бөгөөд хоёр нээлтийн системийн картуудад хуваалцагдсан.

Гуравдагч талын үнэлгээний хамтын ажиллагааг амжилттай болгодог зүйл юу вэ?

Ил тод байдлыг эрхэмлэх үүднээс бид гуравдагч талын үнэлэгчид бидэнтэй ажиллахдаа юунд зөвшөөрдөг, мөн хамтын ажиллагааг маань чиглүүлдэг зарчмуудын талаар илүү дэлгэрэнгүй хуваалцаж байна:

Нягт нямбай нууцлалын хүрээтэй ил тод байдал: Гуравдагч талын үнэлэгчид үнэлгээгээ дэмжихийн тулд нууц, олон нийтэд нээлттэй биш мэдээлэл хуваалцах боломж олгох нууц задруулахгүй байх гэрээнд гарын үсэг зурдаг. Энэ нийтлэлийн Хавсралт⁠-д бид гуравдагч талын үнэлэгчидтэй байгуулсан гэрээний нийтлэх эрх болон хяналтын талаарх хүлээлтийг тоймлосон холбогдох эшлэлүүдийг оруулсан. Бид ил тод байх зарчмаар ажилладаг бөгөөд нууц мэдээлэл эсвэл оюуны өмчийг алдагдуулахгүйгээр аюулгүй байдал болон холбогдох үнэлгээний ойлголтыг гүнзгийрүүлэх нийтлэлийг боломжтой болгохыг эрмэлздэг. Үүний хүрээнд бид гуравдагч талын үнэлгээний нийтлэлүүдийг нууцлал болон баримтын үнэн зөвийг хангахын тулд хянаж, баталдаг. Сүүлийн хэдэн жилд хэд хэдэн гуравдагч талын үнэлэгч өөрсдийн ажлыг системийн карт дахь үнэлгээний хураангуйг бидний нийтэлсэнтэй зэрэгцүүлэн нийтэлсэн. Нууцлал ба үнэн зөвийн үүднээс бидний хянасан дараа нийтлэгдсэн ажлын зарим жишээнд: [METR GPT‑5 тайлан ⁠(шинэ цонхонд нээгдэнэ), OpenAI o1‑ийн талаар Apollo Research-ийн тайлан⁠(шинэ цонхонд нээгдэнэ), Irregular GPT‑5 үнэлгээ⁠(шинэ цонхонд нээгдэнэ)]
Бодолтой мэдээлэл ил болголт ба аюулгүй, мэдрэмтгий хандалт: Анхдагчаар бид олон нийтэд нээлттэй эсвэл үйлдвэрлэлд бэлэн байхаар төлөвлөсөн мэдээлэл болон загварт хандах эрх олгодог. Үнэлгээнд шаардлагатай үед бид helpful-only загвар эсвэл олон нийтэд нээлттэй бус мэдээлэл гэх мэт илүү гүн хандалт олгодог. OpenAI нь аюулгүй байдлын чухал асуултуудын хувьд шаардлагатай үед гуравдагч талын үнэлэгчдэд ийм төрлийн хандалт олгож ирсэн. Чухал нь, ийм мэдрэмтгий хандалт нь хатуу хамгаалалтын арга хэмжээ шаарддаг бөгөөд загварын чадвар болон шалгалтын хэрэгцээ өөрчлөгдөхийн хэрээр бид эдгээр хяналтыг үргэлжлүүлэн шинэчилж байна.
Тэнцвэртэй санхүүгийн урамшуулал: Бид гуравдагч талын үнэлгээний экосистемийг хангалттай санхүүжсэн, тогтвортой байх нь чухал гэж үздэг. Иймээс бид бүх гуравдагч талын үнэлэгчдээ урамшуулдаг бөгөөд зарим нь байгууллагынхаа энэ талаарх философиос хамааран татгалзахыг сонгодог. Урамшууллын хэлбэрт ажлын шууд төлбөр болон/эсвэл API credit зэрэг аргаар загвар ашиглах зардлыг татаасжуулах зүйлс орно. Ямар ч төлбөр гуравдагч талын үнэлгээний үр дүнгээс хэзээ ч хамаардаггүй.

Эдгээр хүчин зүйлс нийлээд гуравдагч талын үнэлгээ нь мэдрэмтгий мэдээллийг хамгаалахын зэрэгцээ AI-ийн аюулгүй байдлын ил тод байдлыг дэмжих, мөн гуравдагч талын үнэлэгчдэд цаг хугацааныхаа төлөө нөхөн төлбөр авах боломжийг бүрдүүлдэг.

Цаашид

Цаашид бид хил хязгаарын AI системийн найдвартай, шийдвэрт хамааралтай үнэлгээ хийж чаддаг байгууллагуудын экосистемийг үргэлжлүүлэн бэхжүүлэх шаардлагатай гэж үзэж байна. Үр дүнтэй гуравдагч талын үнэлгээ нь тусгай мэргэшил, тогтвортой санхүүжилт, арга зүйн нягт нямбай байдлыг шаарддаг. Шаардлага хангасан үнэлэгч байгууллагуудад хийх тасралтгүй хөрөнгө оруулалт, хэмжилзүйн ухааны дэвшил, мэдрэмтгий хандалтын аюулгүй байдал нь үнэлгээнүүд загварын чадварын ахицтай хөл нийлүүлэн алхахыг хангахад зайлшгүй хэрэгтэй.

Гуравдагч талын үнэлгээ нь гаднын өнцгийг аюулгүй байдлын ажилдаа оруулах нэг арга бөгөөд бусад механизмуудтай зэрэгцэн ажилладаг. Мөн бид бүтэцтэй улаан багийн ажиллагаа, хамтын нийцлийн төслүүд⁠, АНУ-ын CAISI болон Их Британийн AISI⁠-тай хийх ажил, мөн сэтгэцийн эрүүл мэнд болон хэрэглэгчийн сайн сайхан байдлын чиглэл дэх ажлаа чиглүүлэхэд туслах манай Глобал эмч нарын сүлжээ⁠ болон Сайн сайхан байдал ба AI-ийн шинжээчдийн зөвлөл⁠ зэрэг зөвлөх бүлгүүдээр дамжуулан гаднын мэргэжилтнүүдтэй хамтран ажилладаг. Эдгээр хүчин чармайлт нь өөр өөр хэлбэрийн мэргэшлийг авчирч, дэвшилтэт AI системийг үнэлэх, засаглах илүү өргөн, илүү найдвартай суурийг бүрдүүлдэг.

Хавсралт

Дараах нь бидэнтэй нэвтрүүлэхээс өмнөх үнэлгээн дээр хамтран ажилладаг гуравдагч талуудтай байгуулсан гэрээнээс авсан жишээ эшлэлүүд юм.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Зохиогч

OpenAI

Тайлбарууд

1
Энэ нь хамгаалалтын арга хэмжээг нарийвчлан стресст оруулж шалгах, мөн үнэлгээ боловсруулах өгөгдөл өгөх зорилготой улаан багаас ялгаатай.
2
Загвар үнэлж эсвэл туршиж байгааг мэдсэн үедээ санаатайгаар чадвараасаа дутуу ажиллах эсвэл жинхэнэ чадвараа нуухыг хэлнэ.
3
Helpful-only загварууд хүсэлт нь хортой байсан ч гэсэн ямар ч хүсэлтэд хариулдаг. Эдгээрийг ийм зан үйлийг бий болгодог post-training аргуудаар бүтээдэг.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Safety and alignment in an era of long-horizon models

Аюулгүй байдал2026 оны 7-р сарын 20

Why teens deserve access to safe AI

Аюулгүй байдал2026 оны 7-р сарын 16

GPT-Red: Unlocking Self-Improvement for Robustness

Аюулгүй байдал2026 оны 7-р сарын 15