2025 оны арван нэгдүгээр сарын 19

Үнэлгээнүүд бизнесийн AI-ийн дараагийн үе шатыг хэрхэн хөдөлгөж байна вэ

Энэхүү танилцуулга нь бизнесийн удирдагчдад үнэлгээний хүрээ (“evals”) нь бизнесийн зорилгыг хэрхэн тогтвортой үр дүнд хувиргадгийг тайлбарлана.

Ачаалж байна…

Дэлхий даяарх нэг сая гаруй бизнес⁠ илүү өндөр үр ашиг, үнэ цэн бүтээхэд AI-ийг ашиглаж байна. Гэвч зарим байгууллага хүссэн үр дүндээ хүрэхэд бэрхшээлтэй байна. Энэ зөрүүний шалтгаан юу вэ?

OpenAI-д бид өндөр зорилгодоо хүрэхийн тулд AI-ийг дотооддоо ашиглаж байна. Бидний ашигладаг гол хэрэгслүүдийн нэг нь үнэлгээнүүд бөгөөд эдгээр нь AI систем хүлээлтийг хэр сайн хангаж байгааг хэмжиж, сайжруулах аргууд юм.

Бүтээгдэхүүний шаардлагын баримт бичигтэй төстэйгээр үнэлгээнүүд бүдэг зорилго, хийсвэр санаануудыг тодорхой, ил тод болгодог. Үнэлгээг стратегийн байдлаар ашигласнаар хэрэглэгчидтэй харьцдаг бүтээгдэхүүн эсвэл дотоод хэрэгслийг өргөн хүрээнд илүү найдвартай болгож, өндөр ноцтой алдааг бууруулж, сөрөг эрсдэлээс хамгаалж, байгууллагад ROI-гаа нэмэгдүүлэх хэмжигдэхүйц замыг өгч чадна.

OpenAI-д манай загварууд өөрсдөө бүтээгдэхүүнүүд тул судлаачид маань өөр өөр салбарт загварууд хэр сайн ажиллаж байгааг хэмжихийн тулд хатуу хил хязгаар үнэлгээнүүд⁠(шинэ цонхонд нээгдэнэ) ¹-ийг ашигладаг. Хэдийгээр хил хязгаар үнэлгээнүүд бидэнд илүү сайн загваруудыг илүү хурдан гаргахад тусалдаг ч тодорхой бизнесийн орчин дахь тодорхой ажлын урсгал дээр загвар хэрхэн ажиллахыг баталгаажуулахад шаардлагатай бүх нарийн ялгааг илрүүлж чаддаггүй. Тиймээс дотоод багууд мөн тодорхой бүтээгдэхүүн эсвэл дотоод ажлын урсгал доторх гүйцэтгэлийг үнэлэхэд зориулсан олон арван контекстчилсэн үнэлгээнүүд-ийг бүтээсэн. Мөн энэ нь бизнесийн удирдагчид байгууллагынхаа хэрэгцээ, үйл ажиллагааны орчинд тохирсон контекстчилсэн үнэлгээнүүдийг хэрхэн бүтээхийг сурах ёстой шалтгаан юм.

Энэ бол байгууллагадаа үнэлгээ хэрэглэхийг хүсэж буй бизнесийн удирдагчдад зориулсан танилцуулга юм. Тодорхой байгууллагын ажлын урсгал эсвэл бүтээгдэхүүнд зориулан бүтээгддэг контекстчилсэн үнэлгээнүүд нь идэвхтэй хөгжиж буй чиглэл бөгөөд эцсийн тогтсон процессууд хараахан бүрдээгүй байна. Иймээс энэ нийтлэлд бид олон нөхцөлд үр дүнтэй гэж харсан өргөн хүрээний суурь хүрээг танилцуулж байна. Энэ салбар цаашид хөгжиж, бизнесийн тодорхой нөхцөл ба зорилгод чиглэсэн илүү олон хүрээ бий болно гэж бид үзэж байна. Жишээлбэл, хамгийн сүүлийн үеийн, AI-ээр баяжуулсан хэрэглээний бүтээгдэхүүнд зориулсан маш сайн үнэлгээ нь стандарт үйл ажиллагааны журамд тулгуурласан дотоод автоматжуулалтад зориулсан үнэлгээнээс өөр процесс шаардаж магадгүй. Доор танилцуулсан хүрээ нь аль ч тохиолдолд шилдэг туршлагын цуглуулга болж, танай байгууллагын хэрэгцээнд тохирсон үнэлгээнүүдийг бүтээхэд хэрэгтэй гарын авлага болно гэж бид үзэж байна.

Үнэлгээ хэрхэн ажилладаг вэ: Тодорхойлох → Хэмжих → Сайжруулах

“Eval Blog” нэртэй диаграм нь үнэлгээний бүрэлдэхүүн хэсэг, процессын урсгалыг харуулж, цайвар дэвсгэр дээр өнгөт блокууд болон сумнуудаар загварын үнэлгээний логикийг дүрсэлсэн байна.

1. Тодорхойлох: “Маш сайн” гэж юу болохыг тодорхойл

AI системийнхээ зорилгыг энгийнээр бичиж чаддаг, жижиг боловч эрх мэдэлтэй багаас эхэл. Жишээлбэл: “Брэндийн өнгө аясыг хадгалан, шаардлага хангасан орж ирсэн имэйлүүдийг товлосон демо болгон хувиргах.”

Энэ баг нь техникийн болон салбарын мэдлэгтэй хүмүүсийн хослол байх ёстой (дээрх жишээнд багт борлуулалтын мэргэжилтнүүд хэрэгтэй). Тэд хэмжих хамгийн чухал үр дүнг тодорхойлж, ажлын урсгалыг эхнээс нь дуустал зураглаж, AI систем тань тулгарах чухал шийдвэрийн цэг бүрийг илрүүлж чаддаг байх ёстой. Тэр урсгалын алхам бүрт баг нь амжилт ямар харагдахыг, мөн юунаас зайлсхийх ёстойг тодорхойлох хэрэгтэй. Энэ процесс нь олон арван жишээ оролтыг (ж.нь. орж ирсэн имэйлүүд) системээс гаргахыг хүсэж буй гаралттай нь холбосон зураглалыг үүсгэнэ. Үүний үр дүнд бий болох жишээнүүдийн алтан багц нь “маш сайн” гэж юу болох талаарх хамгийн чадварлаг мэргэжилтнүүдийн тань дүгнэлт, мэдрэмжийн амьд, эрх бүхий лавлагаа байх ёстой.

Хүйтэн эхлэлээс болж бүү дарамтад ор, эсвэл бүхнийг нэг дор шийдэх гэж бүү оролд. Процесс нь давталттай бөгөөд эмх замбараагүй байдаг. Эрт үеийн прототипчлол асар их тус болдог. Системийн эрт хувилбараас гарсан 50-100 гаралтыг хянаснаар систем тань хэрхэн, хэзээ бүтэлгүйтэж байгааг илрүүлнэ. Энэ “алдааны шинжилгээ” нь систем сайжрах явцад хянах өөр өөр төрлийн алдааны (мөн тэдгээрийн давтамжийн) ангиллыг бий болгоно.

Энэ процесс нь дан ганц техникийн биш—энэ нь олон чиг үүргийг хамарсан бөгөөд бизнесийн зорилго, хүссэн процессыг тодорхойлоход төвлөрдөг. Хэрэглэгчдэд хамгийн сайн нь юу болох, эсвэл бүтээгдэхүүн, борлуулалт, HR зэрэг бусад багийн хэрэгцээнд юу хамгийн нийцэхийг техникийн багуудаар дангаар нь шийдүүлэх ёсгүй. Иймээс салбарын мэргэжилтнүүд, техникийн удирдагчид болон бусад гол оролцогч талууд хамтран эзэмших ёстой.

2. Хэмжих: Бодит нөхцөлд турших

Дараагийн алхам бол хэмжих. Хэмжилтийн зорилго нь систем хэрхэн, хэзээ алдаж байгаагийн тодорхой жишээг найдвартайгаар ил гаргах явдал юм. Үүний тулд зүгээр нэг демо эсвэл өгөгдлийн туршилтын талбар биш, бодит нөхцөлийг ойролцоогоор тусгасан тусгай тестийн орчныг бүрдүүл. Гүйцэтгэлийг танай алтан багц болон алдааны шинжилгээний эсрэг, систем тань бодитоор тулгарах дарамт ба захын тохиолдлуудын дор үнэл.

Рубрикууд нь системийн гаралтыг шүүхэд бодитой байдлыг нэмэхэд тусалж болох ч нийт зорилгынхоо зардлаар өнгөц зүйлсийг хэт онцлох эрсдэлтэй. Цаашлаад, зарим чанарыг хэмжих хэцүү эсвэл боломжгүй байдаг. Зарим тохиолдолд уламжлалт бизнесийн хэмжүүрүүд чухал байна. Бусад тохиолдолд та шинэ хэмжүүр зохиох хэрэгтэй болно. Сэдвийн мэргэжилтнүүдээ бүх явцын турш оролцуулж, процессыг үндсэн зорилгуудтайгаа нягт уялдуул.

Системийг бодитоор туршихын тулд боломжтой үедээ бодит нөхцөлөөс авсан жишээг ашигла, мөн буруу боловсруулагдвал ховор ч өндөр өртөгтэй захын тохиолдлуудыг оруул эсвэл зохио.

Зарим үнэлгээг LLM шалгагч-ийг ашиглан өргөтгөж болно. Энэ нь мэргэжилтэн шиг гаралтыг үнэлдэг AI загвар юм; гэсэн ч хүнийг процесст байлгах нь чухал хэвээр. Танай салбарын мэргэжилтэн LLM шалгагчдын үнэн зөвийг тогтмол аудитлах хэрэгтэй бөгөөд мөн системийн зан төлөвийн логуудыг шууд хянах ёстой.

Үнэлгээнүүд нь систем хэзээ нэвтрүүлэхэд бэлэн болсныг шийдэхэд тусалж чадна, гэхдээ нэвтрүүлснээр дуусахгүй. Та системийн бодит оролтоос үүссэн бодит гаралтын чанарыг тасралтгүй хэмжих ёстой. Аль ч бүтээгдэхүүний адил эцсийн хэрэглэгчдээс ирэх дохио (гадаад эсвэл дотоод аль нь ч бай) онцгой чухал бөгөөд үүнийг үнэлгээндээ тусгах ёстой.

3. Сайжруулах: Алдаанаас суралцах

Сүүлийн алхам бол тасралтгүй сайжруулалтын процессыг бий болгох явдал юм. Үнэлгээгээр илэрсэн асуудлыг шийдэх нь олон хэлбэртэй байж болно: өгөгдлүүдийг сайжруулах, өгөгдөлд хандах хандалтыг тохируулах, зорилгоо илүү сайн тусгахын тулд үнэлгээг өөрийг нь шинэчлэх гэх мэт. Шинэ төрлийн алдаануудыг илрүүлэх тусам тэдгээрийг алдааны шинжилгээндээ нэмж, шийд. Давталт бүр өмнөх дээрээ нэмэгддэг: шинэ шалгуур болон системийн зан төлөвийн талаар илүү тодорхой хүлээлтүүд нь засах шаардлагатай шинэ захын тохиолдол, нарийн төвөгтэй зөрүүд асуудлуудыг илрүүлэхэд тусалдаг.

Энэ давталтыг дэмжихийн тулд өгөгдлийн flywheel байгуул. Оролт, гаралт, үр дүнг логло; эдгээр логуудыг тогтсон хуваариар түүвэрлэж, тодорхойгүй эсвэл өндөр өртөгтэй тохиолдлуудыг автоматаар мэргэжилтний хяналтад шилжүүл. Эдгээр мэргэжилтний дүгнэлтүүдийг үнэлгээ болон алдааны шинжилгээндээ нэмээд, өгөгдөл, хэрэгсэл эсвэл загваруудаа шинэчлэхэд ашигла. Энэ давталтаар та системд тавих хүлээлтээ илүү тодорхой тодорхойлж, түүнийг тэр хүлээлттэй илүү нягт нийцүүлэн, хянах шаардлагатай нэмэлт хамааралтай гаралт, үр дүнг илрүүлнэ. Энэ процессыг өргөн хүрээнд нэвтрүүлснээр хуулбарлахад бэрх, их хэмжээний, ялгарахуйц, контекстэд суурилсан өгөгдлийн багц бий болдог—танай байгууллага зах зээлдээ хамгийн сайн бүтээгдэхүүн эсвэл процессыг бүтээхдээ ашиглаж болох үнэ цэнтэй хөрөнгө юм.

Үнэлгээнүүд нь AI системээ сайжруулах системтэй арга замыг бүрдүүлдэг ч шинэ бүтэлгүйтлийн хэлбэрүүд гарч ирж болно. Бодит амьдрал дээр загвар, өгөгдөл, бизнесийн зорилгууд хувьсан өөрчлөгдөхийн хэрээр үнэлгээнүүдийг мөн тасралтгүй арчилж, өргөжүүлж, стресс тест хийх ёстой.

Гадагш чиглэсэн нэвтрүүлэлтийн хувьд үнэлгээнүүд нь уламжлалт A/B тест болон бүтээгдэхүүний туршилтыг орлохгүй. Эдгээр нь уламжлалт туршилтыг нөхдөг бөгөөд хоорондоо чиглүүлж, таны хийж буй өөрчлөлтүүд бодит гүйцэтгэлд хэрхэн нөлөөлж байгааг харагдуулахад тусалдаг.

Үнэлгээнүүд бизнесийн удирдагчдад юу гэсэн үг вэ

Томоохон технологийн өөрчлөлт бүр үйл ажиллагааны шилдэг байдал болон өрсөлдөөний давуу талыг дахин тодорхойлдог. OKR, KPI зэрэг хүрээнүүд нь big data аналитикийн эрин үед байгууллагуудад бизнесийнхээ хувьд “чухлыг хэмжих”-д чиглэн ажиллахад тусалсан. Үнэлгээнүүд бол AI-ийн эрин үеийн хэмжилтийн байгалийн үргэлжлэл юм.

Магадлалд суурилсан системүүдтэй ажиллах нь шинэ төрлийн хэмжилт болон зөрчилцөл, сонголтуудыг илүү гүн авч үзэхийг шаарддаг. Удирдагчид хэзээ нарийвчлал зайлшгүй хэрэгтэй, хэзээ илүү уян хатан байж болох, мөн хурд ба найдвартай байдлыг хэрхэн тэнцвэржүүлэхээ шийдэх ёстой.

Үнэлгээнүүдийг хэрэгжүүлэх хэцүү байдаг нь яг л гайхалтай бүтээгдэхүүн бүтээх хэцүү байдагтай ижил шалтгаантай; тэд нягт нямбай байдал, алсын хараа, мэдрэмж шаарддаг. Хэрэв сайн хийвэл үнэлгээнүүд өвөрмөц ялгарал болдог. Мэдээлэл дэлхий даяар чөлөөтэй хүртээмжтэй, мэдлэг чадвар ардчилсан болсон энэ ертөнцөд таны давуу тал системүүд тань өөрийн контекст дотор хэр сайн гүйцэтгэж чадахаас хамаарна. Хүчирхэг үнэлгээнүүд систем тань сайжрахын хэрээр хуримтлагдах давуу тал болон байгууллагын ноу-хауг бий болгодог.

Үндсэндээ үнэлгээнүүд нь бизнесийн нөхцөл байдал болон зорилгыг гүн ойлгох тухай юм. Хэрэв та өөрийн хэрэглээний тохиолдолд “маш сайн” гэж юу болохыг тодорхойлж чадахгүй бол түүнд хүрэх магадлал бага. Энэ утгаараа үнэлгээнүүд AI-ийн эрин үеийн нэг чухал сургамжийг тодруулдаг: менежментийн ур чадвар бол AI-ийн ур чадвар мөн. Тодорхой зорилго, шууд санал хүсэлт, болгоомжтой дүгнэлт, мөн өөрийн үнэ цэнийн санал, стратеги, процессын тодорхой ойлголт нь урьдынхаас ч илүү чухал хэвээр байна.

Илүү олон шилдэг туршлага, хүрээнүүд гарч ирэхийн хэрээр бид тэдгээрийг хуваалцах болно. Тэр хүртэл бид таныг үнэлгээнүүдийг туршиж үзэн, өөрийн хэрэгцээнд хамгийн сайн тохирох процессыг олж нээхийг уриалж байна. Эхлэхийн тулд шийдэх асуудлаа болон салбарын мэргэжилтнээ тодорхойлж, жижиг багаа цуглуулаад, хэрэв та манай API дээр бүтээж байгаа бол манай Платформын баримт бичгүүд⁠(шинэ цонхонд нээгдэнэ)-ийг үзээрэй.

“Маш сайн”-ыг зүгээр бүү найд. Түүнийг тодорхойл, хэмж, түүнд хүрэхээр сайжруул.

2025

Зохиогч

OpenAI

Зүүлт тайлбар

1
Хэрэв та дараагийн үеийн AI загваруудыг бүтээх бидний ажлыг дэмжихийг хүсвэл AI загварууд бодит ертөнцийн даалгаварт хэрхэн ажилладгийг хэмждэг манай хамгийн сүүлийн жишиг болох GDPVal⁠-д хувь нэмрээ оруулахыг урьж байна. Хэрэв та GDPVal-д хувь нэмэр оруулах сонирхолтой салбарын мэргэжилтэн бол энд сонирхлоо илэрхийлнэ үү⁠. Хэрэв та OpenAI-тай хамтран ажилладаг хэрэглэгч бөгөөд GDPVal-ийн дараагийн шатанд хувь нэмэр оруулахыг хүсвэл энд сонирхлоо илэрхийлнэ үү⁠.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Кодчиллын үнэлгээнд дохиог шуугианаас ялгах

Судалгаа2026 оны 7-р сарын 8

GeneBench-Pro-г танилцуулж байна

Судалгаа2026 оны 6-р сарын 30

A near-autonomous AI chemist improves a challenging reaction

Бараг бие даасан хиймэл оюун ухаант химич эмийн химийн сорилттой урвалыг сайжруулна

Судалгаа2026 оны 6-р сарын 17