Гоблинууд хаанаас ирсэн бэ
GPT‑5.1‑ээс эхлэн манай загварууд хачирхалтай зуршил үүсгэж эхэлсэн: тэд зүйрлэлдээ гоблинууд, гремлин болон бусад амьтдыг улам бүр дурдаж байв. Үнэлгээ огцом унах эсвэл сургалтын үзүүлэлт огцом өсөхөөр илэрч, тодорхой өөрчлөлт рүү шууд чиглүүлдэг загварын алдаанаас ялгаатай нь энэ нь маш аажмаар, далд байдлаар нэвтэрсэн. Хариултад ганц “жижиг гоблин” байх нь хоргүй, бүр заримдаа хөгжилтэй байж ч болох юм. Загварын үе үеийн хувилбаруудын турш энэ хандлага үл анзаарагдах аргагүй болсон: гоблинууд улам олширсоор байсан бөгөөд бид тэд хаанаас гарч ирж байгааг тогтоох шаардлагатай болсон.

Codex-д хийсэн анхны туршилтуудад GPT‑5.5 нь “гоблин” зүйрлэлд ер бусын хүчтэй татагдах хандлагатай байгааг харуулсан.
Богино хариулт нь загварын зан төлөв олон жижиг урамшууллаар хэлбэрждэг гэсэн үг. Энэ тохиолдолд тэдгээр урамшууллын нэг нь загварыг хувийн шинж чанар тохируулах(шинэ цонхонд нээгдэнэ) боломж-д зориулан, ялангуяа “номын” зан төлөвт нийцүүлэн сургаснаас үүдэлтэй. Бид мэдэлгүйгээр амьтдын тухай зүйрлэлд онцгой өндөр шагнал өгсөн. Тэндээс гоблинууд тархсан.

Гоблинууд эхэндээ инээдтэй байсан ч ажилчдын мэдүүлэгийн тоо нэмэгдэхийн хэрээр санаа зовоосон зүйл болжээ.

GPT‑5.5‑тай манай ахлах эрдэмтний хийсэн сонирхолтой харилцаа.
Бид энэ зүй тогтлыг анх тодорхой ажигласан нь GPT‑5.1‑ийг гаргасны дараа буюу арваннэгдүгээр сард байсан бөгөөд гэхдээ энэ нь үүнээс ч өмнө эхэлсэн байж магадгүй(шинэ цонхонд нээгдэнэ). Хэрэглэгчид загвар нь ярианы явцад хэтэрхий танил гэж гомдоллосон тул тодорхой үгний тикүүдийг өгөгдөл болсон. Аюулгүй байдлын судлаач хэд хэдэн “гоблин” болон “гремлин”-тэй тааралдсан бөгөөд тэднийг шалгалтад оруулахыг хүссэн. Бид шалгаж үзэхэд GPT‑5.1 нэвтэрсний дараа ChatGPT‑д “гоблин” үгний хэрэглээ 175%-иар өссөн бол “гремлин” 52%-иар өссөн байсан.
GPT‑5.1‑д хэмжиж болохуйц жижиг үгийн сангийн онцлог.
Тухайн үед гоблинуудын тархалт тийм ч аймшигтай харагдаж байгаагүй. Хэдэн сарын дараа гоблинууд биднийг илүү тодорхой, хуулбарлах боломжтой хэлбэрээр эргэж ирэв.
GPT‑5.4‑тэй хамт, Дараах оролтууд нь нэг догол мөр боловч тусдаа хэсгүүд юм: бид болон манай хэрэглэгчид(шинэ цонхонд нээгдэнэ) эдгээр “амьтдын” тухай дурдлагууд илүү ихэссэнийг анзаарсан. Энэ нь дотоод нэмэлт шинжилгээг өдөөж, үндсэн шалтгаантай анхны холбоосыг илрүүлсэн: “амьтны” төрлийн хэллэг нь ялангуяа “номын” зан төлөвийг сонгосон хэрэглэгчдийн үйлдвэрлэлийн урсгалд түгээмэл байсан. “Номын” нь дараах системийн зааврыг ашигладаг байсан бөгөөд энэ нь тухайн хачирхалтай байдлыг хэсэгчлэн тайлбарлаж байв:
Та бол илэн далангүй "номын", зүггүй, ухаалаг AI зөвлөгч юм. Та үнэн, мэдлэг, философи, шинжлэх ухааны арга зүй, шүүмжлэлт сэтгэлгээг сурталчлахад маш их урам зоригтой. [...] Та хэллэгийг хөгжилтэй ашиглан сүржин, хиймэл ихэмсэг өнгө аясыг сааруулах ёстой. Дэлхий ертөнц бол нарийн төвөгтэй бөгөөд хачин бөгөөд түүний хачин байдлыг хүлээн зөвшөөрч, шинжилж, таашаах хэрэгтэй. Өөрийгөө чухалчлах занганд авталгүйгээр чухал сэдвүүдийг хөндөөрэй. [...]
Хэрэв энэ зан үйл нь зүгээр л интернетийн өргөн хүрээний чиг хандлага байсан бол бид үүнийг илүү жигд тархахыг хүлээж байна. Үүний оронд үүнийг тоглоомтой, "номын" хэв маягт зориулан системийн хэсэгт тодорхой байдлаар бүлэглэсэн байв. “Номын” зан чанар нь нийт ChatGPT хариултуудын зөвхөн 2.5%-ийг эзэлж байсан ч ChatGPT‑ийн бүх “гоблин” дурдлагын 66.7%-ийг бүрдүүлж байв.
Энэ зан авир нь "Номын" зан чанарт маш их төвлөрсөн байв.
Манай загварын хувилбарууд гарах тусам "гоблин"-ийн давтамж нэмэгдэж байгаа мэт харагдсан тул манай зан төлөв болон заавар дагах сургалтын ямар нэг зүйл үүнийг улам нэмэгдүүлж байна гэсэн сэжиг төрсөн.
Codex нь RL сургалтын үеэр “гоблин” эсвэл “гремлин” агуулсан загварын гаралтуудыг ижил даалгаврын, гэхдээ тэдгээр үгс агуулаагүй гаралтуудтай харьцуулахад бидэнд тусалсан. Нэг урамшууллын дохио шууд ялгарч харагдсан: анх “Номын” зан төлөвийг дэмжихээр бүтээгдсэн тэр дохио нь “гоблин”, “гремлин” төрлийн үгтэй гаралтуудад тогтмол илүү эерэг үнэлгээ өгч байв. Аудитад хамрагдсан бүх өгөгдлийн багц дээр “Номын” зан төлөвийн урамшуулал нь ижил асуудлын “гоблин” эсвэл “гремлин” агуулсан гаралтуудыг агуулаагүй гаралтуудаас илүү өндөр үнэлэх тодорхой хандлагатай байсан бөгөөд өгөгдлийн багцуудын 76.2%-д нь эерэг өсөлт ажиглагдсан.
Энэ нь тухайн зан төлөв “Номын” хувийн зан чанарын өгөгдөлтэй үед яагаад илүү хүчтэй илэрснийг тайлбарласан боловч, тэр өгөгдөлгүйгээр мөн яагаад илэрснийг тайлбарлаагүй. Тухайн хэв маяг дамжин шилжиж байгаа эсэхийг шалгахын тулд бид сургалтын явц дахь дурдлагын түвшинг “Номын” өгөгдөлтэй болон өгөгдөлгүй нөхцөлд хоёуланд нь хянасан.
Гоблин болон гремлиний дурдсанаар “Номын” зан чанарын дор нэмэгдсэн тул түүнгүй дээжинд бараг ижил харьцангуй харьцаагаар нэмэгдсэн. Нийтэд нь авч үзвэл, нотолгоонууд энэ өргөн хүрээний зан төлөв нь “Номын” зан төлөвийн сургалтаас дамжин шилжсэний үр дүнд бий болсон болохыг харуулж байна.
Шагналуудыг зөвхөн "номын" нөхцөлд хэрэглэдэг байсан ч бататгах сургалт нь сурсан зан үйлүүд үүсгэсэн нөхцөлд яг таг хамаарахыг баталгаажуулдаггүй. Нэг удаа стилийн тикийг шагнасан тохиолдолд дараагийн сургалт үүнийг өөр газарт тархааж эсвэл бэхжүүлж чадна, ялангуяа хэрэв тэр гаралтүүдийг хяналттай нарийн тохиргоо эсвэл сонголтын өгөгдөлд дахин ашиглавал.
Энэ нь санал хүсэлтийн давталт үүсгэдэг.
- Хөгжилтэй хэв маягийг үнэлнэ
- Зарим шагнагдсан жишээнд тодорхой ялгарах лексикийн өвөрмөц шинж агуулагддаг.
- Энэ жижиг заншил нь ярианууд дээр илүү олон удаа илэрдэг.
- Загвараар үүсгэсэн rollout-ыг хяналттай нарийн тохиргоонд (SFT) ашигладаг.
- Энэ загвар нь тикийг үйлдвэрлэхэд бүр ч илүү тухтай болдог.
GPT‑5.5‑ийн тусламжтайгаар хийсэн хайлт. SFT өгөгдөлд “гоблин” болон “гремлин” агуулсан олон өгөгдлийн цэгүүд илэрсэн. Цаашдын нарийвчилсан шинжилгээгээр бусад сонин “амьтдын” бүхэл бүтэн бүлэг илэрсэн: “элбэнх”, “тролл”, “огр”, “тагтаа” зэрэг үгс нь бусад тик үгс гэж тодорхойлогдсон бол “мэлхий” үгийн ихэнх хэрэглээ нь жинхэнэ утгатай байсан.
Гоблин ба гремлиний үйлдвэрлэлийн тархалтын нэг долоо хоногийн дундаж үзүүлэлт. GPT‑5.4 дахь бууралт "Номын" дүрийг гуравдугаар сарын дундуур тэтгэвэрт гаргасны үр дүн нь сэтгэхүй байв. GPT‑5.5 нь “Номын” зан төлөвтэйгөөр огт нээлтээ хийгээгүй бөгөөд (“Номын” байхгүй байсан ч) GPT‑5.4‑өөс дахин өсөлт үзүүлсэн.
Бид GPT‑5.4‑ийг гаргасны дараа гуравдугаар сард “Номын” зан төлөвийг хэрэглээнээс гаргасан. Сургалтын үеэр бид гоблин-аффины үйлдлээ зөв хийснийг илэрхийлэх дохиог арилгаж, амьтдын үгсийг агуулсан сургалтын өгөгдлийг шүүсэн нь гоблинууд хэт их гарч ирэх эсвэл зохисгүй нөхцөлд гарч ирэх магадлалыг бууруулсан. Харамсалтай нь, бид гоблинуудын үндсэн шалтгааныг олж тогтоохоос өмнө GPT‑5.5 сургалтаа эхлүүлсэн. Бид Codex дотор GPT‑5.5‑ыг туршиж эхлэхэд OpenAI-ийн ажилтнууд гоблинуудад хачирхалтай татагдах хандлагыг тэр даруй анзаарсан бөгөөд үүнийг сааруулахын тулд бид хөгжүүлэгчийн өгөгдөл заавар(шинэ цонхонд нээгдэнэ) нэмсэн. Codex нь эцсийн дүндээ нэлээд “номын” шинжтэй юм.s
“Хэрэв та Codex дээр амьтдын чөлөөтэй байдлыг зөвшөөрөхийг хүсвэл, гоблинтэй холбоотой хэллэгүүдийг хориглох системийн зааврыг устгасан байдлаар Codex-ийг ажиллуулахын тулд энэ командыг ажиллуулж болно.”
Хэнээс асууснаас хамааран гоблинууд нь загварын бахдам эсвэл ядаргаатай онцлог шинж чанар юм. Гэхдээ эдгээр нь үйлдлээ зөв хийснийг илэрхийлэх дохио нь загварын зан төлөвийг гэнэтийн байдлаар хэрхэн өөрчилж чаддаг, мөн загварууд тодорхой нөхцөл байдалд үйлдлээ зөв хийснийг илэрхийлэх дохиог холбоогүй нөхцөл байдалд хэрхэн ерөнхийлж сурч чаддаг болохыг харуулсан хүчтэй жишээ юм. Загвар яагаад ер бусын байдлаар ажиллаж байгааг ойлгоход цаг гаргаж, тэдгээр хэв маягийг хурдан судлан шинжлэх арга замуудыг бий болгох нь манай судалгааны багийн хувьд чухал чадавх юм. Энэхүү шинжилгээний үр дүнд судалгааны багт загварын зан төлөвийг шалган үнэлэх, зан төлөвийн асуудлуудыг суурь шалтгаанаас нь засах шинэ хэрэгслүүд бий болсон.


