Үндсэн агуулга руу алгасах
OpenAI

2025 оны есдүгээр сарын 5

СудалгааНийтлэл

Хэлний загварууд яагаад хий үзэгдэл үүсгэдэг вэ

Хүрээ даяар диагоналиар зөөлөн, урсгал мэт судлаар ууссан ногоовтор цэнхэр, хөх, цайвар ягаан өнгийн градиент бүхий хийсвэр зураг.
Ачаалж байна…

OpenAI-д бид AI системүүдийг илүү хэрэгцээтэй, найдвартай болгохын төлөө шаргуу ажиллаж байна. Хэлний загварууд илүү чадварлаг болж байгаа ч бүрэн шийдэхэд туйлын хэцүү нэг асуудал байсаар байна: хий үзэгдэл. Үүгээр бид загвар үнэн биш хариултыг өөртөө итгэлтэйгээр үүсгэх тохиолдлуудыг хэлж байна. Манай шинэ судалгааны өгүүлэл(шинэ цонхонд нээгдэнэ)-д хэлний загварууд тодорхойгүйгээ хүлээн зөвшөөрөхөөс илүү таамаглахыг стандарт сургалт ба үнэлгээний журам урамшуулдаг учраас хий үзэгдэл үүсгэдэг гэж тайлбарласан.

ChatGPT мөн хий үзэгдэл үүсгэдэг. GPT‑5‑д хий үзэгдэл ялангуяа сэтгэн бодох үед мэдэгдэхүйц цөөн боловч бүрэн арилгагдаагүй. Хий үзэгдэл нь бүх том хэлний загварын үндсэн сорилт хэвээр байгаа ч бид үүнийг улам багасгахын төлөө шаргуу ажиллаж байна.

Хий үзэгдэл гэж юу вэ?

Хий үзэгдэл гэдэг нь хэлний загваруудын үүсгэдэг үнэмшилтэй боловч худал мэдэгдлүүд юм. Энгийн мэт асуултуудад ч энэ нь санаанд оромгүй байдлаар илэрч болно. Жишээлбэл, бид өргөн хэрэглэгддэг чатботоос энэ өгүүллийн зохиогчдын нэг Адам Тауман Калаигийн докторын диссертацийн нэрийг асуухад тэр өөртөө итгэлтэйгээр гурван өөр хариулт өгсөн бөгөөд нэг нь ч зөв байгаагүй. Харин төрсөн өдрийг нь асуухад гурван өөр огноо хэлсэн бөгөөд мөн л бүгд буруу байсан.

Шалгалтад тааруулж сургах нь

Одоогийн үнэлгээний аргууд буруу өдөөлт бий болгодог тул хий үзэгдэл хэсэгчлэн үргэлжилсээр байна. Үнэлгээ өөрөө шууд хий үзэгдэл үүсгэдэггүй ч ихэнх үнэлгээ загварын гүйцэтгэлийг тодорхойгүй байдлын талаар үнэнч байхыг бус, таамаглахыг дэмжих хэлбэрээр хэмждэг.

Үүнийг олон сонголттой шалгалттай адилтгаж бодоорой. Хариултыг мэдэхгүй атлаа зүгээр л таавал аз таарч зөв болох магадлалтай. Харин хоосон орхивол тэг оноо авах нь баталгаатай. Яг үүнтэй адил, загваруудыг зөвхөн үнэн зөвөөр нь, өөрөөр хэлбэл яг зөв хариулсан асуултын хувиар нь дүгнэхэд тэд “Мэдэхгүй” гэж хэлэхээсээ илүү таамаглахад өдөөгдөнө.

Өөр нэг жишээ авъя. Хэлний загвараас хэн нэгний төрсөн өдрийг асуусан ч мэдэхгүй байж болно. Хэрэв “9-р сарын 10” гэж таавал зөв байх магадлал нь 365-аас 1. Харин “Мэдэхгүй” гэж хэлбэл тэг оноо авах нь баталгаатай. Мянга мянган тестийн асуултын туршид таамагладаг загвар нь тодорхойгүйгээ хүлээн зөвшөөрдөг болгоомжтой загвараас онооны хүснэгт дээр илүү сайн харагддаг.

Нэг л “зөв хариулт”-тай асуултуудын хувьд хариултыг үнэн зөв хариулт, алдаа, мөн загвар таамаг дэвшүүлэхгүй байх татгалзал гэсэн гурван ангиллаар авч үзэж болно. Татгалзах нь даруу байдал-ын нэг хэсэг бөгөөд энэ нь OpenAI-ийн үндсэн үнэт зүйлсийн нэг юм. Ихэнх онооны хүснэгт загваруудыг үнэн зөвөөр нь эрэмбэлдэг боловч алдаа нь татгалзлаас илүү муу. Манай Model Spec(шинэ цонхонд нээгдэнэ)-т буруу байж мэдэх мэдээллийг өөртөө итгэлтэйгээр өгөхөөс илүү тодорхойгүйгээ илэрхийлэх эсвэл тодруулга хүсэх нь дээр гэж заасан байдаг.

Тодорхой жишээ болгон SimpleQA үнэлгээGPT5 системийн карт(шинэ цонхонд нээгдэнэ)-аас авч үзье.

Хэмжүүр

gpt-5-thinking-mini

OpenAI o4-mini

Татгалзсан түвшин
(тодорхой хариулт өгөөгүй)

52%

1%

Үнэн зөвийн түвшин
(зөв хариулт, өндөр байх тусам сайн)

22%

24%

Алдааны түвшин
(буруу хариулт, бага байх тусам сайн)

26%

75%

Нийт

100%

100%

Үнэн зөвийн хувьд хуучин OpenAI o4-mini загвар арай дээр үзүүлэлттэй. Гэвч түүний алдааны түвшин (өөрөөр хэлбэл хий үзэгдлийн түвшин) мэдэгдэхүйц өндөр. Тодорхойгүй үед стратегийн байдлаар таамаглах нь үнэн зөвийг нэмэгдүүлдэг ч алдаа болон хий үзэгдлийг өсгөдөг.

Олон арван үнэлгээний дүнг дундажлахад ихэнх жишиг үзүүлэлтүүд үнэн зөвийн хэмжүүрийг л сугалан авч үздэг боловч энэ нь зөв ба буруугийн хооронд хуурамч хоёрдмол байдал үүсгэдэг. SimpleQA шиг энгийн үнэлгээн дээр зарим загвар бараг 100% үнэн зөвт хүрч, ингэснээр хий үзэгдлийг арилгаж чадна. Гэвч илүү хэцүү үнэлгээ болон бодит хэрэглээнд үнэн зөв 100%-иас доош хязгаарлагддаг. Учир нь мэдээлэл байхгүй, жижиг загварын бодох чадвар хязгаарлагдмал, эсвэл тодруулах шаардлагатай хоёрдмол байдал зэрэг олон шалтгаанаар хариуг нь тогтоох боломжгүй асуултууд байдаг.

Гэсэн ч зөвхөн үнэн зөвт тулгуурласан онооны хүснэгтүүд тэргүүлэгч жагсаалт болон загварын картуудад давамгайлсаар байгаа нь хөгжүүлэгчдийг биеэ барихаас илүү таамагладаг загвар бүтээхэд түлхэц өгдөг. Энэ нь загварууд улам дэвшилттэй болсон ч яагаад хий үзэгдэл үүсгэсээр, тодорхойгүйгээ хүлээн зөвшөөрөхийн оронд өөртөө итгэлтэйгээр буруу хариулт өгдгийн нэг шалтгаан юм.

Үнэлгээг дүгнэх илүү сайн арга

Энгийн шийдэл бий. Тодорхойгүй байдлыг шийтгэснээсээ илүү өөртөө итгэлтэй алдааг хатуу шийтгэж, тодорхойгүй байдлыг зөв илэрхийлсэн тохиолдолд хэсэгчилсэн оноо өг. Энэ санаа шинэ биш. Зарим стандарт шалгалт буруу хариултад сөрөг үнэлгээ өгөх, эсвэл асуултыг хоосон орхисонд хэсэгчилсэн оноо өгөх хувилбаруудыг удаан хугацаанд ашиглаж, сохроор таамаглахаас сэргийлж ирсэн. Хэд хэдэн судалгааны бүлэг мөн тодорхойгүй байдал болон калибровкийг тооцсон үнэлгээнүүдийг судалсан байдаг.

Бидний гол санаа өөр. Хажууд нь тодорхойгүй байдалд мэдрэмтгий хэдэн шинэ тест нэмэх нь хангалтгүй. Өргөн хэрэглэгддэг, үнэн зөвт суурилсан үнэлгээнүүдийн онооллыг таамаглалыг дэмжихгүй байхаар шинэчлэх хэрэгтэй. Хэрэв гол онооны хүснэгтүүд азтай таамгийг үргэлжлүүлэн шагнасаар байвал загварууд ч мөн таамаглаж суралцсаар байх болно. Онооны хүснэгтийг засах нь шинээр боловсруулсан болон өмнөх судалгаанаас гарсан хий үзэгдлийг бууруулах аргуудын хэрэглээг өргөжүүлж чадна.

Хий үзэгдэл дараагийн үгийг таамаглахаас хэрхэн үүсдэг вэ

Хий үзэгдлийг арилгахад яагаад ийм хэцүү байдгийг бид ярьсан, харин эдгээр маш нарийн бодит алдаанууд анхнаасаа хаанаас гарч ирдэг вэ? Эцсийн эцэст урьдчилан сургагдсан том загварууд үсгийн алдаа эсвэл хаалт зөрөх зэрэг өөр төрлийн алдааг бараг гаргадаггүй. Ялгаа нь өгөгдөл дотор ямар төрлийн хэв маяг байгаатай холбоотой.

Хэлний загварууд эхлээд урьдчилсан сургалт-аар, өөрөөр хэлбэл асар их хэмжээний текстээс дараагийн үгийг таамаглах үйл явцаар суралцдаг. Уламжлалт машин сургалтын асуудлуудаас ялгаатай нь мэдэгдэл бүрт “үнэн/худал” гэсэн шошго байдаггүй. Загвар зөвхөн урсгалтай хэлний эерэг жишээнүүдийг харж, ерөнхий тархцыг ойролцоолох ёстой болдог.

Хүчингүй гэж шошголсон жишээ огт байхгүй үед зөв мэдэгдлийг буруугаас ялгах нь бүр ч хэцүү. Гэхдээ шошготой байсан ч зарим алдаа зайлшгүй гарна. Яагаад гэдгийг ойлгохын тулд илүү энгийн адилтгал авч үзье. Дүрс танихад сая сая муур, нохойн зургийг “муур” эсвэл “нохой” гэж шошголбол алгоритмууд тэднийг найдвартай ангилж сурч чадна. Харин үүний оронд гэрийн тэжээвэр амьтны зураг бүрийг тухайн амьтны төрсөн өдрөөр шошголно гэж төсөөлөөд үз. Төрсөн өдөр нь үндсэндээ санамсаргүй тул алгоритм хэчнээн дэвшилттэй байсан ч энэ даалгавар үргэлж алдаа гаргана.

Яг энэ зарчим урьдчилсан сургалтад мөн үйлчилдэг. Үсэглэл болон хаалт нь тогтвортой хэв маяг дагадаг тул тэндэх алдаа цар хүрээ нэмэгдэхийн хэрээр арилдаг. Харин гэрийн тэжээвэр амьтны төрсөн өдөр шиг дурын, бага давтамжтай баримтуудыг зөвхөн хэв маягаас урьдчилан таамаглах боломжгүй учир хий үзэгдэлд хүргэдэг. Манай шинжилгээ дараагийн үгийг таамаглахаас ямар төрлийн хий үзэгдэл үүсэх ёстойг тайлбарлаж байна. Хамгийн сайн тохиолдолд урьдчилсан сургалтын дараах шатнууд тэдгээрийг арилгах ёстой ч өмнөх хэсэгт тайлбарласан шалтгаануудын улмаас энэ нь бүрэн амжилттай болдоггүй.

Дүгнэлт

Манай өгүүлэл дэх статистикийн өнцөг хий үзэгдлийн мөн чанарыг тодруулж, түгээмэл ташаа ойлголтуудад няцаалт өгнө гэж бид найдаж байна:

  • Нэхэмжлэл: Үнэн зөвийг сайжруулснаар хий үзэгдэл арилна, учир нь 100% үнэн зөв загвар хэзээ ч хий үзэгдэл үүсгэхгүй.
    Олдвор:
    Загварын хэмжээ, хайлт болон сэтгэн бодох чадвараас үл хамааран бодит ертөнцийн зарим асуултад угаасаа хариулах боломжгүй тул үнэн зөв хэзээ ч 100%-д хүрэхгүй.
  • Нэхэмжлэл: Хий үзэгдэл зайлшгүй.
    Олдвор:
    Тийм биш, учир нь хэлний загварууд тодорхойгүй үед хариулахаас татгалзаж чадна.
  • Нэхэмжлэл: Хий үзэгдлээс зайлсхийхийн тулд зөвхөн илүү том загваруудаар л хүрч болох оюуны түвшин шаардлагатай.
    Олдвор:
    Жижиг загварт өөрийн хязгаарыг мэдэх нь илүү амар байж болно. Жишээлбэл, маори хэл дээрх асуултад хариулахыг хүсэхэд маори огт мэдэхгүй жижиг загвар зүгээр л “Мэдэхгүй” гэж хэлж чадна. Харин маори бага зэрэг мэддэг загвар өөрийн итгэлийн түвшнийг тогтоох шаардлагатай болдог. Өгүүлэлд хэлэлцсэнчлэн “калибрлагдсан” байх нь үнэн зөв байхаас хавьгүй бага тооцоолол шаарддаг.
  • Нэхэмжлэл: Хий үзэгдэл нь орчин үеийн хэлний загваруудын тайлагдашгүй доголдол.
    Олдвор:
    Хий үзэгдэл үнэлгээнүүдэд хэрхэн үүсэж, хэрхэн урамшуулагддаг статистикийн механизмуудыг бид ойлгож байна.
  • Нэхэмжлэл: Хий үзэгдлийг хэмжихийн тулд бидэнд зүгээр л сайн хий үзэгдлийн үнэлгээ хэрэгтэй.
    Олдвор:
    Хий үзэгдлийн үнэлгээнүүд аль хэдийн хэвлэгдсэн. Гэвч даруу байдлыг шийтгэж, таамгийг шагнадаг уламжлалт үнэн зөвт суурилсан зуун зуун үнэлгээний эсрэг нэг сайн хий үзэгдлийн үнэлгээний нөлөө бага. Үүний оронд үндсэн бүх үнэлгээний хэмжүүрийг тодорхойгүй байдлыг илэрхийлснийг урамшуулах байдлаар дахин боловсруулах хэрэгтэй.

Манай хамгийн сүүлийн загваруудад хий үзэгдлийн түвшин бага болсон бөгөөд хэлний загваруудын маань гаргадаг өөртөө итгэлтэй алдааны түвшнийг цаашид улам бууруулахын төлөө бид үргэлжлүүлэн шаргуу ажиллаж байна.

Зарын хувь нэмэр оруулагчид

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke