Үндсэн агуулга руу алгасах
OpenAI

2026 оны зургаадугаар сарын 16

Судалгаа

Байршуулалтыг симуляцлан загварын зан төлөвийг гаргахаас өмнө таамаглах

Гаргахаас өмнө хүсээгүй загварын зан төлөвийг илүү сайн тооцоход бодитой ярианы нөхцөл ашиглах.

Танилцуулга

Шинэ загвар гаргахаасаа өмнө лабораториуд зөвхөн юу хийж чадахыг нь бус, бодит хэрэглээнд хэрхэн авирлах магадлалтай, мөн хаана шинэ эрсдэл үүсгэж болзошгүйг ойлгох хэрэгтэй. Чадамж нэмэгдэхийн хэрээр энэ нь бүр ч чухал болдог. Байршуулахаас өмнөх аюулгүй байдлын хяналтын хүрээнд бид зорилтот үнэлгээ, red-teaming болон бусад шалгалтыг ашиглан загварын зан төлөвийг ойлгодог. Одоо бид загварын байршуулалтыг болохоос нь өмнө симуляцлах аргыг ашиглаж эхэлсэн бөгөөд энэ нь нэмэлт дохио буюу нэр дэвшигч загвар хэрэглэгчдэд хүрэхээсээ өмнө хэрхэн авирлаж болох байршуулалттай төстэй урьдчилсан дүр зургийг өгдөг.

Байршуулалтын симуляц нь ирээдүйн байршуулалтыг болохоос нь өмнө симуляцлах арга юм. Үүнийг бид өмнөх яриануудыг нууцлалыг хамгаалсан байдлаар шинэ нэр дэвшигч загвараар дахин ажиллуулж хийдэг. Ингэснээр шинэ загвар гаргахаас өмнө бодитой нөхцөлд хэрхэн хариулахыг, тэр дундаа шинэ хүсээгүй зан төлөв гарч ирэх эсэх, хэр давтамжтай илэрч болохыг судлах боломжтой.

GPT‑5 цувралын Thinking-ийн олон байршуулалтын хүрээнд Байршуулалтын симуляц нь хүсээгүй загварын зан төлөвийн түвшний тооцоог сайжруулж, гаргахаас өмнө нийцэлгүй байдлын шинэ хэлбэрүүдийг илрүүлэхэд тусалж, загварууд өөрсдийгөө туршиж байгааг мэдэх эрсдэлийг бууруулахад тусалсан. Мөн бид энэ аргыг төвөгтэй агент шинжтэй нэвтрүүлэлтүүдэд хэрэглэж, стандарт чатаас цааш хэрэгсэл ашигладаг илүү нарийн агентын орчинд өргөжиж болохыг, мөн дотоод загварын байршуулалтын өмнөх эрсдэлийн үнэлгээнд ашиглаж болохыг харуулсан.

Бид уламжлалт үнэлгээний сохор цэгүүдийг илрүүлэх, бууруулах арга хэмжээ болон байршуулалтын шийдвэрт мэдээлэл өгөхөд загвар хөгжүүлэлтийн үеэр Байршуулалтын симуляцаас авсан ойлголтыг аль хэдийн ашигласан. Пайплайныг ажиллуулахад илүү хялбар болгохын хэрээр энэ нь ирээдүйн загвар хөгжүүлэлтийн үйл явцад илүү том үүрэгтэй болно гэж бид үзэж байна.

Байршуулалтын симуляц хэрхэн ажилладаг вэ

Салбар даяар хэрэглэгддэг байршуулалтын өмнөх үнэлгээнүүд нь ерөнхийдөө зориуд хэцүү, өндөр ноцтой, эсвэл сөргөлдөгч байхаар сонгосон синтетик, гараар бичсэн, эсвэл үйлдвэрлэлийн өгөгдлүүдийн холимогоос бүрддэг. Эдгээр үнэлгээ ерөнхийдөө хоорондоо уялдсан хоёр зорилготой байсан: байршуулалтын урсгалд тохиолдох магадлал маш бага нөхцөлд стресс-тест хийхэд загвар хэрхэн хариулахыг үнэлэх, мөн шинэ хүсээгүй зан төлөвийг олох, байршуулалтын үеийн давтамжийг нь таамаглах зэрэг хүсээгүй загварын зан төлөвийн ерөнхий ойлголт авах.

Уламжлалт үнэлгээ эхний зорилгын хувьд чухал хэвээр боловч Байршуулалтын симуляц нь хоёр дахь зорилгын хувьд, сүүл хэсгийн бус эрсдэлүүдэд том ахиц юм (манай туршилтад энэ арга 200,000 мессеж тутамд 1-ээс бага давтамжтай зан төлөвийг хэмжинэ гэж хүлээх боломжгүй). Байршуулалтын симуляцын давуу тал нь уламжлалт үнэлгээний зарим үндсэн сорилтыг тойрон гарахад оршино:

  • Хамрах хүрээ: үнэлгээний өгөгдлүүд хүсээгүй загварын зан төлөвийн бүх боломжит төрлийг хамарна гэдэгт итгэлтэй байх хэцүү. Шинэ төрлийн хүсээгүй зан төлөвийг хэмжихийн тулд шинэ үнэлгээ бүтээх, ямар хор хохирлыг хэмжихээ мэдэх шаардлагатай. Энэ нь цаг, хөдөлмөр их шаарддаг бөгөөд үнэлгээнүүд цаг хугацааны явцад ханаж болдог.
  • Сонголтын гажуудал: уламжлалт үнэлгээ нь ихэвчлэн тодорхой хүсээгүй загварын зан төлөвийг бодолцон бүтээгдэж, өмнө тохиолдсон нөхцөл рүү хазайлгах байдлаар сонгогддог. Ингэснээр тэдгээрийн тооцоо байршуулалтын тархалтын бүх өргөн хүрээнд ийм зан төлөв тохиолдох байдлын талаар мэдээлэл багатай байж болно.
  • Загваруудад тест гэж танигдах: загварууд өөрсдийгөө туршиж байгааг улам илүү тодорхойлох чадвартай болсон бөгөөд энэ нь тэдний зан төлөв болон аюулгүй байдлын дараагийн хэмжилтийг гажуудуулж болно. OpenAI-д бидний ашигладаг олон уламжлалт үнэлгээ мөн үйлдвэрлэлийн урсгалаас авсан тул энэ асуудалд өртдөггүй ч салбар даяар хэрэглэгддэг олон уламжлалт үнэлгээний хувьд энэ нь түгээмэл санаа зовоосон асуудал юм.

Байршуулалтын симуляцын гол арга нь энгийн: бид байршуулалтаас саяхны яриануудыг авч, хуучин загварын анхны туслахын хариуг устгаад, гаргах гэж буй нэр дэвшигч загвараар дахин үүсгэдэг. Бид шинэ алдааны горим хайж гүйцээлтүүдийг үнэлж, энэ байршуулалттай төстэй тархалт дахь давтамжид тулгуурлан байршуулалтын үеийн хүсээгүй зан төлөвийн давтамжийг тооцдог. Гаргасны дараа бид бодит байршуулалтын урсгал дээр ижил хэмжилтийг хийж, байршуулалтын өмнөх таамгаа баталгаажуулах боломжтой.

Байршуулалтын симуляц нь дээр дурдсан гурван хязгаарлалтыг ихээхэн бууруулдаг: саяхны хэрэглээг төлөөлөх үнэлгээний өгөгдлийн тархалтыг ашигласнаар түүврийн гажуудлыг шийддэг. Төлөөлөх өгөгдөлтэй Байршуулалтын симуляц нь хамрах хүрээний санаа зовнилыг мөн бууруулж чадна: илүү их урсгалыг энгийнээр симуляцласнаар бид хүсээгүй загварын зан төлөвийг илүү өргөн хамарна. Тооцоолол ба хамрах хүрээний энэ солилцоо чухал, учир нь эрсдэлийн үнэлгээний энэ тэнхлэгийн чанарыг илүү олон үнэлгээ бүтээхэд шаардагдах гар ажиллагаа бус, тооцооллын хэмжээгээр өсгөдөг. Загварууд мөн байршуулалтын симуляцаар авсан яриа болон бодит байршуулалтын урсгалыг ялгаж чадахгүй байгаа мэт харагддаг.

Үйлдвэрлэлийн ярианаас нууцлалыг хамгаалсан дахин түүвэрлэлт, загварын гүйцээлт үүсгэх, үнэлгээ болон байршуулалтын үеийн тооцоо хүртэлх Production Resampling пайплайныг харуулсан диаграм.

Зураг 1: Манай Байршуулалтын симуляцын пайплайны тойм

Хүрээ

Уламжлалт үнэлгээнүүд

Байршуулалтын симуляц

Хамрах хүрээ

Хамарсан гэдэгтээ итгэлтэй байхыг хүсдэг, бага тархалттай боловч өндөр ноцтой эрсдэлд илүү тохиромжтой

Байршуулалтын урсгалд харах магадлалтай эрсдэлийн хүрээг ойлгоход илүү тохиромжтой

Төлөөлөх чанар / гажуудал

Байршуулалтад маш бага тархалттай зан төлөвт ч өнгөрсөн эсвэл таамагласан зорилтот эрсдэлийг үнэлэхэд төвлөрдөг

Одоогийн байршуулалтын урсгалд тодорхой тархалтаас дээш тохиолддог эрсдэлийг төлөөлнө

Үнэлгээний мэдлэгтэй байдал

Eval-уудыг байршуулалтын өгөгдлөөр үүсгээгүй бол тестийн илэрхий дохио байж болно (жишээ нь синтетик өгөгдөлтэй)

Байршуулалттай төстэй нөхцөл eval мэдлэгтэй байдлыг мэдэгдэхүйц бууруулдаг бололтой

Хүчин чармайлт

Тусгай өгөгдлийн тархалт болон тохиргоо нь гар ажиллагааг мэдэгдэхүйц их шаарддаг

Нэг удаагийн дэд бүтцийн зардал шаарддаг бөгөөд дараа нь байршуулалтын угтварууд болон мэдэгдэж буй хүсээгүй зан төлөвийн үнэлэгчдийг дахин ашиглана

Уламжлалт үнэлгээ ба Байршуулалтын симуляцын өндөр түвшний харьцуулалт

Бид Байршуулалтын симуляцыг хэрхэн туршсан бэ

Байршуулалтын симуляцыг үнэлэхийн тулд бид GPT‑5.4 Thinking-ийн 20 төрлийн хүсээгүй зан төлөвийн байршуулалтын үеийн давтамжийн таамгийг урьдчилан бүртгэсэн. Мөн бид GPT‑5 цувралын бусад Thinking загварын байршуулалтуудад буцаан харах судалгаа хийсэн. Бидний шинжилсэн загварын зан төлөв нь нийцэлгүй байдал болон системийн картуудад тайлагнаж ирсэн хориглосон контентын ангиллуудыг хамарна (жишээ нь загвар хэрэгслийн талаар худал хэлэх, эсвэл хориглосон бэлгийн агуулга гаргах). Эдгээр үр дүнд бид хүсээгүй загварын зан төлөвийн зөвхөн 20 ангиллыг хянаж, зөвхөн шинэ нийцэлгүй зан төлөвийг хайсан ч Байршуулалтын симуляц нь байршуулалтын үеийн ямар ч загварын шинж чанарыг симуляцлахад хэрэглэж болох ерөнхий арга юм.

Бидний ашигласан үйлдвэрлэлийн урсгал мөн GPT‑5 цувралын Thinking загваруудаас байсан. Үнэлгээгээ ажиллуулахаас өмнө бид бүртгэлтэй холбоотой танигч болон танигдах мэдээллийг автоматаар устгасан. Манай нууцлалын бодлогын дагуу бид зөвхөн өгөгдлөө загвар сайжруулахад ашиглахыг зөвшөөрсөн хэрэглэгчдийн ChatGPT урсгалыг шинжилсэн. Бид эдгээр үнэлгээнээс зөвхөн нэгтгэсэн үр дүнг тайлагнадаг. Нийтдээ бид 2025 оны наймдугаар сараас 2026 оны гуравдугаар сар хүртэлх GPT‑5 Thinking-ээс GPT‑5.4 байршуулалт хүртэлх ойролцоогоор 1.3 сая танигдахгүй болгосон яриаг шинжилсэн.

Байршуулалтын симуляцаар гаргасан байршуулалтын өмнөх эрсдэлийн үнэлгээний чанарыг бид гурван үндсэн аргаар үнэлдэг:

  • Таксономийн хамрах хүрээ: гаргасны дараах аудит нь эхний муу зан төлөвийн таксономид дутагдсан чухал нийцэлгүй зан төлөвийг илрүүлсэн үү?
  • Чиглэлийн нарийвчлал: симуляц мэдэгдэж буй зан төлөвийн байршуулалтын тархалт өсөх эсвэл буурах эсэхийг зөв таамагласан уу?
  • Түвшний тохируулга: байршуулалтын өмнөх тооцоо маань дараа нь байршуулалтад ажигласан түвшинтэй ойр байсан уу? Сайн түвшний тохируулгад хүрэхэд чиглэлийн нарийвчлалаас илүү зүйл шаардлагатай тул энэ нь боломжит хамгийн өндөр чанарын стандарт юм.

Мөн бид Байршуулалтын симуляцын үед загварууд үнэлгээнд байгаагаа хэр хэмжээнд мэдэж чаддагийг хэмжиж, энэ арга өөр өөр хэлбэрийн байршуулалтын урсгал болон төвөгтэй хэрэгсэл ашиглах орчинд хэр бат бөх болохыг туршдаг.

Байршуулалтын симуляц нь байршуулалтын өмнөх эрсдэлийн үнэлгээг ихээхэн өргөжүүлдэг

GPT‑5 цувралын Thinking байршуулалтуудад Байршуулалтын симуляц бодит эрсдэлийн түвшинг тодорхойлоход хэцүү өгөгдлийн суурь үзүүлэлтүүдээс давж, гаргахаас өмнө тооны машиныг хакдах явдлыг илрүүлж чадсан бөгөөд загварын хувьд байршуулалтаас ялгагдахгүй байж болох мэт харагдсан.

Манай таамгуудын тойм. GPT‑5 цувралын Thinking загварын байршуулалтын бүх таамгийн дүрслэлийг Зураг 2-оос үзнэ үү. GPT‑5.4 Thinking-ийн таамгууд урьдчилан бүртгэгдсэн бол бусад нь буцаан хийсэн таамаг байсан. Нэгтгэн үзвэл манай таамгуудын медиан үржвэрийн алдаа 1.5x байсан (жишээ нь хүсээгүй зан төлөвийн түвшин 100 мянгад 10 бол энэ нь 100 мянгад 15 эсвэл 6.67 гэж тооцохтой дүйцнэ). Манай аргын сүүл хэсгийн алдаа ойролцоогоор 10x их байж болох ч доор хэлэлцсэнчлэн симуляцын пайплайныг цааш сайжруулснаар тэдгээрийг ихээхэн бууруулж болно гэж бид үзэж байна.

Өмнөх байршуулалтын өгөгдөлд тулгуурлан байршуулалтын үеийн хүсээгүй зан төлөвийн яг түвшний таамгийг Байршуулалтын симуляцаар харуулсан график.

Зураг 2. Байршуулалтын симуляцийн өмнөх байршуулалтын өгөгдөлд тулгуурласан, байршуулалтын үеийн хүсээгүй зан төлөвийн давтамжийн таамаг. 5.1 → 5 тэмдэглэгээ нь GPT‑5‑ын угтваруудыг GPT‑5.1‑ээр дахин түүвэрлэж, өөрөөр хэлбэл GPT‑5‑ын өгөгдөлд тулгуурлан GPT‑5.1‑ийн байршуулалтыг симуляцлаж байгааг илтгэнэ. Буруу нийцлийн зан төлөвийн хамгийн өндөр түвшин нь GPT‑5.1 дэх “тооны машиныг хакдах” байсан бөгөөд бид энэ талаар өмнө нь(шинэ цонхонд нээгдэнэ) хэлэлцсэн.

Байршуулалтын симуляцын таамгийг суурь үзүүлэлтүүдтэй харьцуулах. Байршуулалтын өмнөх эрсдэлийн үнэлгээнд зөв тооцох хамгийн чухал ангиллууд нь загварыг байршуулсны дараа тохиолдлын хэмжээ ихээр өөрчлөгддөг ангиллууд юм (жишээ нь >= 1.5x). Энэ дэд багц дээр Байршуулалтын симуляц нь загвар байршуулснаар тодорхой хүсээгүй зан төлөвийн тархалт өсөх эсвэл буурах эсэхийг таамаглахад (Зураг 3, зүүн), мөн байршуулалтын үеийн яг тохиолдлын хэмжээг тооцоход (Зураг 3, баруун) суурь үзүүлэлтүүдээс мэдэгдэхүйц сайн. Бид хоёр үндсэн суурь үзүүлэлт ашигладаг: одоогоор системийн карт болон нээлтийн шийдвэрт ашигладаг Challenging Prompts суурь үзүүлэлт, мөн өмнөх байршуулалтын түвшнийг шинэ загварын тооцоо болгон ашиглах энгийн суурь үзүүлэлт.

Зураг 3. Байршуулалтын симуляц нь тохиолдлын өөрчлөлтийн чиглэл (зүүн) болон яг үйлдвэрлэлийн түвшин (баруун)-ийг статик eval-уудаас илүү сайн таамагладаг.

Манай пайплайн дахь симуляцын алдааны эх үүсвэрүүд. Бид мөн пайплайн дахь одоогийн алдааны эх үүсвэрүүдийг судалсан. Тодруулбал, сүүл хэсгийн том алдаа нь пайплайныг байршуулалтын шийдвэрт бага найдвартай болгодог: жишээ нь тодорхой төрлийн хүсээгүй зан төлөв ихээр өснө гэсэн таамаг харахад, пайплайн хааяа ч гэсэн том алдаа гаргадаг нь мэдэгдэж байвал энэ нь найдвартай тооцоо юу эсвэл пайплайны хийсвэр үр дүн үү гэсэн эргэлзээ төрүүлнэ. Болзошгүй алдааны хоёр үндсэн эх үүсвэр бий:

  • Дахин түүвэрлэх орчны үнэнч байдлын алдаа: үйлдвэрлэлийн түвшнийг нарийн тооцохын тулд манай симуляцын пайплайн аль болох бодитой байх хэрэгтэй. Энэ нь нэг талаар инженерчлэлийн асуудал (үйлдвэрлэлийн урсгалд ашигладаг ижил пайплайнаар загвараас түүвэрлэх), нөгөө талаар байнга өөрчлөгдөж буй гадаад нөөцөд унших/бичих хандалт шаарддаг хэрэгслүүдийн сонирхолтой сорилт юм (жишээ нь веб хайлт эсвэл локал файлуудтай харилцах). Бодит байршуулалт болон түүний симуляцын таамгийг харьцуулснаар симуляцын үнэнч байдлын алдааг тусгаарлаж болно (өөрөөр хэлбэл аль хэдийн байршуулсан загварын байршуулалтыг симуляцлах).
  • Өгөгдлийн тархалтын шилжилтийн алдаа: Байршуулалтын симуляцын нэг том санаа зовнил нь аливаа загварын байршуулалт оролтын тархалтад шилжилт үүсгэнэ, ялангуяа хэрэглэгчид шинэ загварын боломжид дасан зохицвол. Бид саяхны өгөгдлүүдийг ашиглан байршуулалтыг симуляцлах үеийн тооцоог бодитоор явагдсан байршуулалтын өгөгдлүүдтэй харьцуулж, өгөгдлийн тархалтын алдааг тусгаарладаг.

Зураг 4-т харагдсанаар манай пайплайн дахь алдааны ихэнх хэсэг, ялангуяа сүүл хэсгийн алдаанууд, одоогоор симуляцын үнэнч байдлаас шалтгаалж байна. Энэ нь сайн мэдээ, учир нь симуляцын үнэнч байдлыг сайжруулах нь өгөгдлийн тархалтын шилжилтийг бууруулахаас ерөнхийдөө хялбар гэж бид үздэг. Мөн өгөгдлийн тархалтын шилжилтийн алдааг өмнөх байршуулалтын хамгийн сүүлийн үеийн өгөгдлийг ашигласнаар бууруулж болохыг бид олж тогтоосон. Илүү дэлгэрэнгүйг судалгааны өгүүллээс үзэж болно.

Зураг 4: Дахин түүвэрлэх орчны үнэнч байдал нь манай тооцооны хамгийн том алдааны эх үүсвэр, ялангуяа хамгийн туйлын алдаануудын хувьд, бололтой.

Автомат аудит эдгээр байршуулалтаар нэвтэрсэн ганц шинэ нийцэлгүй байдлыг олсон. Бидний судалсан байршуулалтын цонхонд симуляцлагдсан байршуулалтад суурилсан автомат аудитын пайплайн гаргахаас өмнө “тооны машиныг хакдах”-ыг илрүүлэх байсан бөгөөд энэ нь шинжилсэн ChatGPT урсгалд бидний тодорхойлсон цорын ганц шинэ нийцэлгүй байдал байсан. Тооны машиныг хакдах нь загвар браузерын хэрэгслийг тооны машин болгон ашиглахдаа үйлдлээ хайлт гэж танилцуулдаг шагналын хакдалтын нэг хэлбэр юм. Энэ нь өргөн хэмжээний аудит бүх шинэ алдааг барина гэсэн үг биш боловч бодитой нөхцөл яагаад чухлыг харуулдаг: тэд симуляцыг эхлүүлэхэд ашигласан анхны урсгалд байгаагүй ч нарийн eval багцууд шууд илрүүлэхгүй байж болох зан төлөвийг өдөөж чадна.

Үнэлгээний мэдлэгтэй байдлыг бууруулах

Байршуулалттай төстэй нөхцөл ашиглахын өөр нэг давуу тал нь загварууд өөрсдийгөө туршиж байгааг таних үед үүсдэг гажуудлыг бууруулж болох явдал юм. Өмнөх судалгаанд бид болон бусад(шинэ цонхонд нээгдэнэ) загварууд өөрсдийгөө хэзээ туршиж байгааг ихэвчлэн мэддэгийг олсон. Жишээлбэл, загварууд өөрсдийгөө юугаар туршиж байгаа, үнэлэгч юунд дуртай байж болох, мөн хэрэв буруу авирлаж байвал баригдах эсэх талаар бодлын хэлхээндээ сэтгэн бодож болно. Энэ нь нийцлийн үнэлгээнд асуудал үүсгэнэ: хэрэв загвар зөвхөн өөрийгөө туршиж байна гэж бодсондоо сайн авирлаж байвал, байршуулсныг мэдсэний дараа аюулгүй авирлана гэдэгт бид хэрхэн итгэлтэй болох вэ?

Бодит байршуулалтын өгөгдөлд суурилаагүй уламжлалт үнэлгээтэй харьцуулахад Байршуулалтын симуляц нь загваруудын илэрхийлдэг үнэлгээний мэдлэгтэй байдлын түвшнийг мэдэгдэхүйц бууруулдгийг бид харуулж байна. Бид үнэлгээний мэдлэгтэй байдлыг гурван аргаар хэмждэг: траектор үйлдвэрлэлээс үү эсвэл үнэлгээнээс үү гэж загвараар ангилуулах, нийцлийн хувьд үнэлэгдэж байгаа тухай ил тод мэдэгдлийг бодлын хэлхээнээс хянах, мөн метагейминг(шинэ цонхонд нээгдэнэ) буюу хяналтын талаар аливаа сэтгэн бодохыг хянах. Симуляцлагдсан байршуулалтын урсгал эдгээр гурван хэмжүүрээр бодит байршуулалтын урсгалтай ойролцоо таарсан. Жишээлбэл, GPT‑5.2 бодит үйлдвэрлэлийн урсгалыг 5.4%-д нь үнэлгээтэй төстэй гэж, симуляцлагдсан урсгалыг 5.1%-д нь гэж шошголсон бол уламжлалт үнэлгээнүүд (голчлон синтетик жишээнээс бүрдсэн SWE-Bench эсвэл MonorepoBench гэх мэт) бараг 100%-д нь үнэлгээ гэж ангилагдсан.

Зураг 5. Үнэлгээний мэдлэгтэй байдлын харьцуулалт: бодит үйлдвэрлэлийн урсгал болон симуляцлагдсан урсгал нь eval илрүүлэлт, үгээр илэрхийлсэн нийцлийн үнэлгээний мэдлэгтэй байдал, метагеймингийн хувьд төстэй түвшинтэй байхад уламжлалт eval өгөгдлийн багцууд хамаагүй өндөр түвшин мэдээлдэг.

Агент шинжтэй траекторуудад зориулсан хэрэгслийн симуляц

Энэ арга стандарт чат горимоос цааш өргөжих эсэхийг туршихын тулд бид мөн төвөгтэй агент шинжтэй кодчиллын орчинд байршуулалтыг симуляцлахыг судалсан. Тодруулбал, бид GPT‑5.4‑ийн дотоод ажилтны 120,000 агент шинжтэй траекторыг ашиглан GPT‑5.5‑д суурилсан кодчиллын агентуудын дотоод байршуулалтыг симуляцласан. Энэ нь хоёр зорилготой: байршуулалтын симуляцыг дотоод байршуулалтын эрсдэлийн үнэлгээнд мөн ашиглаж болохыг харуулах, мөн анхааралтай хэрэгслийн симуляцаар агент шинжтэй орчинд ч симуляцын үнэнч байдлыг өндөр болгох боломжтойг харуулах.

Дээр бид симуляцын үнэнч байдал нь одоогийн пайплайн дахь алдааны гол эх үүсвэрүүдийн нэг гэж хэлэлцсэн. Байршуулалтын симуляцыг бодитой болгох сорилтуудын нэг нь байнга өөрчлөгдөж буй гадаад нөөцөд унших/бичих хандалт хэрэгтэй үед ч хэрэгслүүд бодитой ажиллах шаардлагатай байдаг (жишээ нь веб хайлт эсвэл локал файлуудтай харилцах).

Энэ нь агент шинжтэй байршуулалт зэрэг орчинд ялангуяа хэцүү: нэг агентын траектор хэдэн зуун хэрэгслийн дуудлага, репозиторын төлөв, сүлжээний хариу эсвэл түр зуурын алдаанаас хамаарч болно. Ингэснээр бодит хэрэгслийн хандалттай дахин түүвэрлэх нь хэцүү төдийгүй аюултай байж болно. Үүнийг харгалзан live системүүдэд хэрэгслийн дуудлага хэрэглэхийн оронд бид тэдгээрийг өөр нэг Том хэлний загвар (LLM)-аар симуляцладаг. Энэ Том хэлний загвар (LLM)-д нэмэлт боломж өгөх нь бодит байдал, улмаар тооцооны чанарт зайлшгүй хэрэгтэйг бид харуулж байна.

Бид хэрэгслийн симулятор загварт анхны эцсийн эргэлтийн нэвтрүүлэлт, ярианы үеийн репозитор, хэрэгслийн дуудлага/хариуны хосын өгөгдлийн сан, зөвхөн унших холбогчдыг өгдөг. Ялгагч симуляцлагдсан нэвтрүүлэлтийг бодитоос ялгахыг оролдсон туршилтад бодитой байдал 11.6%-ийн ялалтын түвшнээс 49.5% болж сайжирсан нь 50%-ийн санамсаргүй түвшинд ойр байв.

Зураг 6: Хэрэгслийн дуудлагыг нэмэгдүүлсэн боломжуудаар симуляцлах үед хэрэгсэл ихтэй орчинд ч дахин түүвэрлэлтийн бодитой байдлыг бодит түүвэрлэлтээс бараг ялгагдахгүй болгож болно.

Симуляцын үнэнч байдлын нэмэлт нотолгоо болгон GPT‑5.4 Codex thinking урсгалыг GPT‑5.4‑өөр симуляцлахад нийцэлгүй байдлын түвшин бараг алдааны хязгаарт багтсан. Харин байршуулалтын өмнөх манай туршилтад GPT‑5.5 ихэнх ангилалд илүү нийцэлгүй байсан.

Зураг 7: Хэрэгслийн симуляцтай үед GPT‑5.4‑өөр дахин түүвэрлэсэн ярианууд болон бодит GPT‑5.4 үйлдвэрлэлийн урсгалын зан төлөвийн түвшин нэлээд төстэй бөгөөд энэ нь дахин түүвэрлэх орчны үнэнч байдал өндөр байгааг илтгэнэ. Ангиллуудын талаар илүү дэлгэрэнгүйг GPT‑5.5 системийн карт(шинэ цонхонд нээгдэнэ)-аас үзнэ үү.

Эдгээр үр дүн хүрээлэх хэрэгслийн орчныг хангалттай үнэнчээр симуляцлавал Байршуулалтын симуляц нарийн төвөгтэй агентын орчинд өргөжиж болохыг харуулж байна.

WildChat ба гадаад аудит

Гадаад аудиторууд хувийн үйлдвэрлэлийн урсгалд хандахгүйгээр ижил ашиг тусын заримыг авч чадах уу гэдэг нь жам ёсны асуулт юм. Бид үүнийг угтвар болгон ашигласан 100,000 WildChat яриагаар туршсан. WildChat нь OpenAI-ийн саяхны үйлдвэрлэлийн өгөгдлөөс бага нарийвчлалтай байсан ч мэдээлэл өгсөн хэвээр байв: саяхны үйлдвэрлэлийн өгөгдөл WildChat-аас бага дундаж үржвэрийн алдаатай байсан (1.75× эсрэг 2.44×), харин WildChat ихэвчлэн үйлдвэрлэлийн түвшнээс ойролцоогоор 3×-ийн дотор үлдэж, илүү сайн загварыг санамсаргүйгээс өндөр түвшинд тодорхойлсон. Бид WildChat маягийн үнэлгээг хөгжүүлэгчийн ажиллуулдаг Байршуулалтын симуляцын ирээдүйтэй нэмэлт гэж үздэг. Энэ талаар илүү олон үр дүнг энэ дагалдах Alignment блог нийтлэлээс(шинэ цонхонд нээгдэнэ) үзнэ үү.

Хязгаарлалтууд

Байршуулалтын симуляц нь сөргөлдөгч үнэлгээ, red-teaming болон зорилтот сүүл хэсгийн эрсдэлийн шинжилгээг орлох бус, нэмэлт арга юм. Зарим хүсээгүй загварын зан төлөвийг илрүүлэх нь бодлын хэлхээг хянах боломжтой байдалд тулгуурладаг: ирээдүйн загварууд бага ойлгомжтой сэтгэн бодож, гол алхмуудыг орхиж, эсвэл санаагаа нууж сурвал бид эдгээр хүсээгүй зан төлөвийн хэлбэрийг илрүүлж чадахгүй байж болно. Түүнчлэн үйлдвэрлэлийн өгөгдөл хувийн тул хөгжүүлэгчид одоогоор гадаад аудиторуудтай харьцуулахад төлөөлөх нөхцөлд илүү хүчтэй хандалттай байна. Илүү сайн нийтийн өгөгдлийн багцууд энэ зөрүүг багасгаж чадна.

Байршуулалтын симуляц нь түүвэрлэсэн угтваруудад илрэхэд хангалттай ойр ойрхон тохиолддог зан төлөвт хамгийн хэрэгтэй. Арван сая ярианд нэг удаа тохиолддог алдаа сая түүврийн гүйлтэд илрэх магадлал бага тул сөргөлдөгч үнэлгээ, red-teaming болон зорилтот сүүл хэсгийн эрсдэлийн шинжилгээ шаардлагатай хэвээр байна. Урьдчилсан туршилтуудад олон эргэлт симуляцлах нь манай тооцоог мэдэгдэхүйц сайжруулаагүй тул бид одоогоор нэг туслахын хариуг симуляцлахад төвлөрч байна. Энэ нь ирээдүйд симуляцын үнэнч байдлыг сайжруулах чухал чиглэл байж магадгүй.

Энэ арга мөн угтварын тархалт буюу дахин түүвэрлэж буй яриануудын холимогоос хамаарна. Түүхэн урсгал нь томоохон бүтээгдэхүүний өөрчлөлт, шинэ хэрэгсэл гаргах, дэлхийн үйл явдал эсвэл улирлын шилжилтийн дараа хэрэглэгчид илүү чадвартай загвартай хэрхэн харилцахтай таарахгүй байж болно. Бүрэн өгүүллийн шинжилгээнээс харахад энэ асуудлыг боломжит хамгийн сүүлийн үеийн өгөгдлийг ашигласнаар бууруулж болно.

Дүгнэлт

Байршуулалтын симуляц нь хэлний загварууд бодит ертөнцөд хэрхэн авирлаж болохыг таамаглах, байршуулалтаас өмнө үүсгэж буй эрсдэлийг ойлгоход хил хязгаар лабораториуд болон үнэлэгчдэд тусалдаг байршуулалтын өмнөх эрсдэлийн үнэлгээний шинэ арга юм. Энэ нь одоогийн аюулгүй байдлын үнэлгээ, red-teaming болон зорилтот шинжилгээнд үйлдвэрлэлтэй илүү төстэй таамгийн давхарга нэмж, байршуулалтын зан төлөвийн тооцоог сайжруулах, үнэлгээний мэдлэгтэй байдлын нөлөөг бууруулах, байршуулалтын өмнөх таамгийг гаргасны дараа шалгаж болох болгох замаар тэдгээрийг нөхдөг. Уламжлалт үнэлгээтэй хамт ашиглавал Байршуулалтын симуляц нь загварын эрсдэлийн үнэлгээг илүү бодитой, илүү тоон, байршуулалтын шийдвэрт илүү хэрэгтэй болгоход тусална.

Зохиогч

OpenAI