Манай загваруудын бодит ертөнцийн ажлууд дээрх гүйцэтгэлийг хэмжих нь
Бид GDPval-ийг танилцуулж байна. Энэ нь 44 мэргэжлийн хүрээнд эдийн засгийн үнэ цэнтэй бодит ажлууд дээр загварын гүйцэтгэлийг хэмждэг шинэ үнэлгээ юм.
Манай эрхэм зорилго бол Ерөнхий хиймэл оюун ухаан хүн төрөлхтөнд бүхэлд нь ашиг тусаа өгөхийг хангах явдал юм. Энэхүү зорилгынхоо хүрээнд бид AI загварууд бодит амьдрал дээр хүмүүст хэрхэн тусалж чадах талаарх ахицыг ил тод мэдээлэхийг хүсдэг. Тиймээс бид GDPval-ийг танилцуулж байна: манай болон бусдын загварууд эдийн засгийн үнэ цэнтэй, бодит ажлууд дээр хэр сайн ажиллаж байгааг хянахад туслах зорилготой шинэ үнэлгээ. Бид энэ үнэлгээг GDPval гэж нэрлэсэн нь Дотоодын нийт бүтээгдэхүүн (GDP)-ийг эдийн засгийн гол үзүүлэлт гэж үзэн, GDP-д хамгийн их хувь нэмэр оруулдаг салбаруудын гол мэргэжлүүдээс ажлуудыг сонгож авсантай холбоотой.
Хүмүүс AI нийгэмд үзүүлэх өргөн хүрээний нөлөөний талаар байнга таамагладаг ч түүний боломжийг ойлгох хамгийн тод арга бол загварууд яг одоо юуг хийж чаддагийг харах явдал юм. Түүхээс харахад интернетээс ухаалаг утас хүртэлх томоохон технологиуд нээлтээсээ өргөн хэрэглээнд хүрэх хүртлээ арав гаруй жил зарцуулсан байдаг. GDPval шиг үнэлгээнүүд ирээдүйн AI сайжруулалтын талаарх яриаг таамаг биш нотолгоонд тулгуурлуулахад тусалдаг бөгөөд цаг хугацааны явцад загварын сайжруулалтыг хянахад мөн дэм болдог.
Хүнд академик шалгалтууд, өрсөлдөөнт кодчиллын сорилтууд зэрэг өмнөх AI үнэлгээнүүд загварын сэтгэн бодох чадварын хил хязгаарыг тэлэхэд чухал үүрэг гүйцэтгэсэн ч олон хүний өдөр тутмын ажил дээр хийдэг төрлийн ажлуудад тэр бүр нийцдэггүй.
Энэ зөрүүг арилгахын тулд бид улам бодитой, эдийн засгийн хувьд ач холбогдолтой чадварыг хэмжих үнэлгээнүүдийг хөгжүүлж ирсэн. Энэхүү ахиц нь MMLU (олон арван сэдвийн шалгалтын хэв маягийн асуултууд) зэрэг сонгодог академик бенчмаркээс эхлэн, SWE-Bench (програм хангамжийн инженерчлэлийн алдаа засварлах ажлууд), MLE-Bench (загвар сургах, шинжилгээ хийх зэрэг машин сургалтын инженерчлэлийн ажлууд), Paper-Bench (судалгааны өгүүллүүд дээрх шинжлэх ухааны сэтгэн бодох, шүүмжлэл) зэрэг илүү хэрэглээний үнэлгээнүүд рүү, мөн сүүлийн үед SWE-Lancer (бодит төлбөрт суурилсан чөлөөт програм хангамжийн инженерчлэлийн төслүүд) зэрэг зах зээлд суурилсан үнэлгээнүүд рүү шилжсэн.
GDPval бол энэ ахицын дараагийн алхам юм. Энэ нь олон төрлийн мэргэжил, салбар дахь туршлагатай мэргэжилтнүүдийн бодит мэдлэгийн ажлаас шууд авсан ажлууд дээрх загварын гүйцэтгэлийг хэмжиж, загварууд эдийн засгийн үнэ цэнтэй ажлууд дээр хэрхэн ажиллаж байгааг илүү тодорхой харуулдаг. Бодит мэргэжлийн ажлууд дээр загваруудыг үнэлэх нь тэд лабораторид хэр сайн ажиллаж байгаагаас гадна хүмүүсийн өдөр бүр хийдэг ажилд хэрхэн дэмжлэг үзүүлж болохыг ойлгоход тусалдаг.
GDPval-ийн энэхүү эхний хувилбар нь АНУ-ын GDP-д хамгийн их хувь нэмэр оруулдаг шилдэг 9 салбараас сонгосон 44 мэргэжлийг хамардаг. GDPval-ийн бүрэн багцад 1,320 мэргэшсэн ажил (үүнээс 220 нь нээлттэй эхтэй gold багцад) багтдаг бөгөөд эдгээрийг эдгээр салбарын дунджаар 14-өөс дээш жилийн туршлагатай мэргэжилтнүүд маш нямбай боловсруулж, шалгасан. Ажил бүр нь хуулийн тайлбар бичиг, инженерийн зураг төсөл, хэрэглэгчийн дэмжлэгийн яриа, эсвэл сувилахуйн асаргааны төлөвлөгөө зэрэг бодит ажлын бүтээгдэхүүнд суурилсан.
GDPval нь үнэлж буй ажлуудын бодит байдал, олон талт байдлаараа онцлог. Эдийн засгийн үнэ цэнтэй холбоотой бусад үнэлгээнүүд тодорхой домэйнд төвлөрдөг бол (жишээ нь SWE-Lancer), GDPval олон төрлийн ажил, мэргэжлийг хамардаг. Мөн академик шалгалт, тестийн хэв маягаар синтетик аргаар ажлууд бүтээдэг бенчмаркуудаас (жишээ нь Humanity’s Last Exam эсвэл MMLU) ялгаатай нь GDPval нь өнөөдөр бодитоор оршиж буй ажлын хэсэг, бүтээгдэхүүн эсвэл түүнтэй төстэйгээр бүтээгдсэн ажлын бүтээгдэхүүнд суурилсан ажлуудад төвлөрдөг.
Уламжлалт бенчмаркуудаас ялгаатай нь GDPval ажлууд нь зүгээр нэг текст өгөгдөл биш. Тэдгээр нь лавлах файл, нөхцөл мэдээлэлтэй бөгөөд хүлээгдэж буй хүргэх материал нь баримт бичиг, слайд, диаграмм, хүснэгт, мультимедиа зэргийг хамардаг. Энэ бодит байдал нь GDPval-ийг загварууд мэргэжилтнүүдийг хэрхэн дэмжиж болохыг илүү бодитоор шалгах сорил болгодог.
GDPval бол олон эдийн засгийн ажлын бүх нарийн ялгааг тусгаж чадахгүй эхний алхам юм. Хэдийгээр 44 мэргэжил, хэдэн зуун мэдлэгийн ажлыг хамардаг ч одоогоор нэг оролдлого үнэлгээгээр хязгаарлагдаж байгаа тул загвар нөхцөл ойлголт бүрдүүлэх эсвэл олон нооргоор сайжрах шаардлагатай тохиолдлыг тусгадаггүй. Ирээдүйн хувилбарууд бодит мэдлэгийн ажлын төвөгтэй байдлыг илүү сайн тусгахын тулд илүү интерактив ажлын урсгал, нөхцөл мэдээлэл ихтэй ажлууд руу өргөжнө (доорх Хязгаарлалтууд хэсгээс дэлгэрэнгүй үзнэ үү).
GDPval нь 9 салбарын 44 мэргэжлийн ажлуудыг хамардаг бөгөөд ирээдүйн хувилбарууд хамрах хүрээг цаашид өргөжүүлэх болно. Эхний 9 салбарыг Сент-Луисын Холбооны Нөөцийн Банкны өгөгдлөөр АНУ-ын GDP-д 5%-иас дээш хувь нэмэр оруулдаг салбаруудаас сонгосон. Дараа нь бид 2024 оны 5-р сарын АНУ-ын Хөдөлмөрийн статистикийн товчооны (BLS) мэргэжлийн ажил эрхлэлтийн тайлан(шинэ цонхонд нээгдэнэ)-гийн цалин, ажил эрхлэлтийн өгөгдлийг ашиглан тухайн салбар бүрийн нийт цалин, нөхөн олговорт хамгийн их хувь нэмэр оруулдаг, мөн голчлон мэдлэгийн ажилд хамаарах 5 мэргэжлийг сонгосон. Мэргэжлүүд нь голчлон мэдлэгийн ажил мөн эсэхийг тодорхойлохын тулд бид АНУ-ын Хөдөлмөрийн яамны ивээн тэтгэдэг АНУ-ын мэргэжлийн мэдээллийн сан болох O*NET(шинэ цонхонд нээгдэнэ)-ийн ажлын өгөгдлийг ашигласан. Бид O*NET дахь мэргэжил тус бүрийн ажил бүрийг мэдлэгийн ажил уу, эсвэл биеийн ертөнцөд үйлдэл хийх шаардлагатай физик ажил/гар ажиллагааны ажил уу гэж ангилсан. Хэрэв тухайн мэргэжлийн бүрэлдэхүүн ажлуудын дор хаяж 60%-ийг физик ажил эсвэл гар ажиллагаа шаардахгүй гэж ангилсан бол тэр мэргэжлийг нийтэд нь “голчлон мэдлэгийн ажил” гэж үзсэн. GDPval-ийн эхний хувилбарын хувьд бодит бүтээмжид AI хамгийн өндөр нөлөө үзүүлж болох мэргэжлүүдэд төвлөрөх зорилгоор бид энэ 60%-ийн босгыг эхлэлийн цэг болгон сонгосон.
Энэ үйл явцын үр дүнд 44 мэргэжил хамруулахад сонгогдсон.
Үл хөдлөх хөрөнгө, түрээс ба лизинг
Консьержүүд
Өмч, үл хөдлөх хөрөнгө, оршин суугчдын холбооны менежерүүд
Үл хөдлөх хөрөнгийн борлуулалтын агентууд
Үл хөдлөх хөрөнгийн брокерууд
Лангуу болон түрээсийн бичээчид
Төрийн байгууллага
Чөлөөт цагийн ажилтнууд
Нийцлийн ажилтнууд
Цагдаа болон мөрдөгчдийн анхан шатны ахлагчид
Захиргааны үйлчилгээний менежерүүд
Хүүхэд, гэр бүл, сургуулийн нийгмийн ажилтнууд
Үйлдвэрлэл
Механик инженерүүд
Үйлдвэрлэлийн инженерүүд
Худалдан авагчид ба худалдан авалтын агентууд
Ачилт, хүлээн авалт, бараа материалын бичээчид
Үйлдвэрлэл ба ашиглалтын ажилтнуудын анхан шатны ахлагчид
Мэргэжлийн, шинжлэх ухаан, техникийн үйлчилгээ
Програм хангамж хөгжүүлэгчид
Хуульчид
Нягтлан бодогчид ба аудиторууд
Компьютер болон мэдээллийн системийн менежерүүд
Төслийн удирдлагын мэргэжилтнүүд
Эрүүл мэндийн тусламж, нийгмийн үйлчилгээ
Бүртгэлтэй сувилагчид
Ахисан түвшний сувилагчид
Эмнэлгийн болон эрүүл мэндийн үйлчилгээний менежерүүд
Оффис болон захиргааны дэмжлэгийн ажилтнуудын анхан шатны ахлагчид
Эмнэлгийн нарийн бичгүүд ба захиргааны туслахууд
Санхүү ба даатгал
Харилцагчийн үйлчилгээний төлөөлөгчид
Санхүү, хөрөнгө оруулалтын шинжээчид
Санхүүгийн менежерүүд
Хувийн санхүүгийн зөвлөхүүд
Үнэт цаас, бараа бүтээгдэхүүн, санхүүгийн үйлчилгээний борлуулалтын агентууд
Жижиглэн худалдаа
Эм зүйчид
Жижиглэнгийн борлуулалтын ажилтнуудын анхан шатны ахлагчид
Ерөнхий болон үйл ажиллагааны менежерүүд
Хувийн мөрдөгчид ба байцаагчид
Бөөний худалдаа
Борлуулалтын менежерүүд
Захиалгын бичээчид
Жижиглэн бус борлуулалтын ажилтнуудын анхан шатны ахлагчид
Техник, шинжлэх ухааны бүтээгдэхүүнээс бусад бөөний худалдаа, үйлдвэрлэлийн борлуулалтын төлөөлөгчид
Техник, шинжлэх ухааны бүтээгдэхүүний бөөний худалдаа, үйлдвэрлэлийн борлуулалтын төлөөлөгчид
Мэдээлэл
Аудио, видео техникчид
Продюсерууд ба найруулагчид
Мэдээний шинжээчид, сурвалжлагчид, сэтгүүлчид
Кино ба видео эвлүүлэгчид
Редакторууд
Мэргэжил бүрийн хувьд бид туршлагатай мэргэжилтнүүдтэй хамтран тэдний өдөр тутмын ажлыг тусгасан төлөөлөх чадвартай ажлуудыг боловсруулсан. Эдгээр мэргэжилтнүүд дунджаар 14 жилийн туршлагатай, ахиц дэвшлийн хүчтэй түүхтэй байсан. Төлөөлөх чадварыг нэмэгдүүлэхийн тулд бид өөр өөр практик чиглэл, өөр өөр хэмжээний фирмүүдээс хуульчид зэрэг өргөн хүрээний мэргэжилтнүүдийг зориуд сонгон оролцуулсан.
Ажил бүр бодит ажлыг төлөөлж байгаа эсэх, өөр нэг мэргэжилтэн гүйцэтгэх боломжтой эсэх, мөн үнэлэхэд ойлгомжтой эсэхийг баталгаажуулахын тулд олон үе шаттай хяналтын процессоор дамжсан. Дунджаар ажил бүр 5 удаагийн мэргэжилтний хяналт авсан бөгөөд үүнд бусад ажил бичигчдийн шалгалт, нэмэлт мэргэжлийн хянан шалгагчид, загварт суурилсан баталгаажуулалт багтсан.
Ингэснээр үүссэн өгөгдлийн сан нь мэргэжил бүрт бүрэн хянагдсан 30 ажил (бүрэн багц), мөн манай нээлттэй эхтэй gold багцад мэргэжил бүрт 5 ажил багтаасан бөгөөд энэ нь бодит мэдлэгийн ажил дээрх загварын гүйцэтгэлийг үнэлэх бат бөх суурийг бүрдүүлдэг.
GDPval ажлуудын жишээнүүд
Өгөгдөл + даалгаврын контекст
Туршлагатай хүний хүргэх үр дүн

GDPval ажлууд дээрх загварын гүйцэтгэлийг үнэлэхдээ бид “үнэлэгч” мэргэжилтнүүдэд тулгуурладаг—энэ нь өгөгдлийн санд төлөөлөгдсөнтэй ижил мэргэжлийн туршлагатай хүмүүсийн бүлэг юм. Эдгээр үнэлэгчид загварын үүсгэсэн хүргэх материалыг ажил зохиогчдын бүтээсэнтэй (AI эсвэл хүн үүсгэсэн гэдгийг нь мэдэхгүйгээр) сохроор харьцуулж, шүүмжлэл, эрэмбэ өгдөг. Дараа нь үнэлэгчид хүний болон AI-ийн хүргэх материалыг эрэмбэлж, AI-ийн хүргэх материалыг хооронд нь “илүү сайн”, “адил сайн”, эсвэл “муу” гэж ангилдаг.
Мөн ажил зохиогчид өөрсдийн мэргэжилд зориулсан нарийвчилсан үнэлгээний рубрик боловсруулсан нь үнэлгээний процессод тогтвортой байдал, ил тод байдлыг нэмдэг. Бид мөн “автомат үнэлэгч” бүтээсэн бөгөөд энэ нь хүний мэргэжилтнүүд тухайн хүргэх материалыг хэрхэн шүүхийг таамаглахад сургагдсан AI систем юм. Өөрөөр хэлбэл, бүрэн хэмжээний мэргэжилтний хяналт явуулахын оронд автомат үнэлэгч хүмүүс аль үр дүнг илүүд үзэхийг хурдан таамаглаж чадна. Бид энэ хэрэгслийг evals.openai.com дээр туршилтын судалгааны үйлчилгээ хэлбэрээр гаргаж байгаа ч энэ нь мэргэжлийн үнэлэгчид шиг хараахан найдвартай биш тул тэднийг орлуулахад ашигладаггүй.
Өнөөгийн шилдэг хил хязгаар загварууд аль хэдийн салбарын мэргэжилтнүүдийн бүтээсэн ажлын чанарт ойртож байгааг бид олж тогтоосон. Үүнийг шалгахын тулд бид салбарын мэргэжилтнүүдээр хэд хэдэн тэргүүлэх загварын—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4—гаргасан хүргэх материалыг хүний бүтээсэн ажилтай сохроор харьцуулсан үнэлгээ хийсэн. GDPval gold багцын 220 ажил дээр бид загварын үр дүнг салбарын мэргэжилтнүүдийн хүргэх материалаас илүү гэж (“ялалт”) эсвэл ижил түвшинд гэж (“тэнцээ”) үнэлэгдсэн тохиолдлуудыг доорх баганан графикт үзүүлсний дагуу бүртгэсэн. Claude Opus 4.1 нь багц дотор хамгийн өндөр гүйцэтгэлтэй загвар байсан бөгөөд ялангуяа гоо зүйд (жишээлбэл, баримтын формат, слайдын байрлал) хүчтэй байсан бол GPT‑5 нь ялангуяа нарийвчлалд (жишээлбэл, домэйнд хамаарах мэдлэг олох) онцгой байв. Мөн эдгээр ажлууд дээр цаг хугацааны явцад тод ахиц харагдаж байна. Гүйцэтгэл GPT‑4o‑оос (2024 оны хавар гарсан) GPT‑5 хүртэл (2025 оны зун гарсан) хоёр дахинаас илүү өсөж, тодорхой шугаман чиг хандлагыг дагасан.
Нэмж дурдахад, хил хязгаар загварууд GDPval ажлуудыг салбарын мэргэжилтнүүдээс ойролцоогоор 100 дахин хурдан, 100 дахин хямд гүйцэтгэж чаддагийг бид тогтоосон. Гэхдээ эдгээр тоо нь цэвэр загварын inference хугацаа болон API төлбөрийн тарифыг илэрхийлдэг тул бодит ажлын орчинд манай загваруудыг ашиглахад шаардагдах хүний хяналт, давталт, нэгтгэлийн алхмуудыг тусгадаггүй. Гэсэн ч, ялангуяа загваруудын маш хүчтэй байдаг ажлуудын дэд багц дээр хүний өмнө эхлээд загварт даалгавал цаг, мөнгө хэмнэнэ гэж бид үзэж байна.
Мэргэжлийн үнэлэгчид тэргүүлэх загваруудын гаргасан ажлын үр дүнг хүний мэргэжилтнүүдийнхтэй харьцуулсан. Өнөөгийн хил хязгаар загварууд аль хэдийн салбарын мэргэжилтнүүдийн бүтээсэн ажлын чанарт ойртож байна. Claude Opus 4.1 нь ажлуудын бараг талд нь хүнийхтэй адил эсвэл илүү сайн гэж үнэлэгдсэн үр дүн гаргасан.
GPT‑4o‑оос GPT‑5 хүртэл GDPval ажлууд дээрх гүйцэтгэл нэг жилийн дотор гурав дахин илүү өссөн.
Эцэст нь бид GDPval дээрх гүйцэтгэлийг сайжруулж чадах эсэхийг үнэлэхийн тулд GPT‑5‑ийн дотоод, туршилтын хувилбарыг шат дараатайгаар сургасан. Энэ процесс гүйцэтгэлийг сайжруулж, цаашдын боломжит сайжруулалтын замыг нээж байгааг бид олж мэдсэн. Бусад хяналттай туршилтууд ч үүнийг баталж байна: загварын хэмжээг нэмэх, илүү олон сэтгэн бодох алхмыг дэмжих, ажлын нөхцөл мэдээллийг баяжуулах нь тус бүр хэмжигдэхүйц ахиц авчирсан.
Та манай өгүүллээс бүрэн үр дүнг унших боломжтой. Мөн бид бусад судлаачид энэ ажлыг үргэлжлүүлэн хөгжүүлэхийн тулд GDPval ажлуудын gold дэд багц болон нийтийн үнэлгээний үйлчилгээг гаргаж байна.
AI илүү чадвартай болохын хэрээр хөдөлмөрийн зах зээлд өөрчлөлт гарах магадлалтай. GDPval-ийн эхний үр дүнгүүдээс харахад загварууд давтагддаг, тодорхой заасан зарим ажлыг мэргэжилтнүүдээс хурдан, бага өртгөөр аль хэдийн гүйцэтгэж чадна. Гэхдээ ихэнх ажил нь зүгээр л бичиж тэмдэглэж болох ажлуудын цуглуулгаас илүү өргөн хүрээтэй. GDPval нь AI хаана хэвшмэл ажлуудыг хийж чадахыг тодруулснаар хүмүүс ажлын бүтээлч, ихээхэн дүгнэлт шаардсан хэсгүүдэд илүү их цаг зарцуулах боломжтой болдог. AI ийм байдлаар ажилтнуудыг нөхөн дэмжихэд энэ нь эдийн засгийн мэдэгдэхүйц өсөлтөд хүргэж чадна. Манай зорилго бол эдгээр хэрэгслийн хүртээмжийг ардчилж, өөрчлөлтийн үед ажилтнуудыг дэмжиж, өргөн оролцоог урамшуулдаг системүүдийг бүтээснээр AI-ийн “дээш өргөгч”-д хүн бүрийг хамт байлгах явдал юм.
GDPval бол эхний алхам. Энэ нь 44 мэргэжил, хэдэн зуун ажлыг хамардаг ч бид туршилтынхаа хүрээг өргөжүүлж, үр дүнг илүү утга учиртай болгохын тулд аргачлалаа цаашид сайжруулсаар байна. Одоогийн үнэлгээ нь мөн нэг оролдлого тул загвар нөхцөл ойлголт бүрдүүлэх эсвэл олон нооргоор сайжрах шаардлагатай тохиолдлыг тусгадаггүй—жишээлбэл, харилцагчийн санал хүсэлтийн дараа хуулийн тайлбар бичгийг засварлах, эсвэл хэвийн бус байдал илрүүлсний дараа өгөгдлийн шинжилгээг давтан сайжруулах зэрэг. Түүнчлэн бодит ертөнцөд ажлууд үргэлж өгөгдөл ба лавлах файлаар тодорхой заагдсан байдаггүй; жишээлбэл, хуульч хүн үйлчлүүлэгчдээ туслах зөв арга нь хуулийн тайлбар бичиг боловсруулах мөн эсэхийг шийдэхээсээ өмнө тодорхойгүй байдлыг удирдаж, үйлчлүүлэгчтэйгээ ярилцах шаардлагатай байж болно. Бид GDPval-ийг илүү олон мэргэжил, салбар, ажлын төрлийг хамруулсан, илүү их интерактив шинжтэй, тодорхойгүй байдлыг удирдахыг шаардсан ажлуудтай болгон өргөжүүлэхээр төлөвлөж байгаа бөгөөд урт хугацааны зорилго нь олон төрлийн мэдлэгийн ажил дээрх ахицыг илүү сайн хэмжих явдал юм.
- Хэрэв та салбарын мэргэжилтэн бол GDPval-д хувь нэмэр оруулах сонирхолтой бол энд сонирхлоо илэрхийлнэ үү.
- Хэрэв та OpenAI-тай хамтран ажилладаг хэрэглэгч бол GDPval-ийн ирээдүйн шатанд хувь нэмэр оруулахыг хүсвэл энд сонирхлоо илэрхийлнэ үү.
Нийгэмлэгийн оролцоо маш чухал—ажил дээр хүмүүст илүү хэрэгтэй AGI бүтээх нийтлэг зорилгыг хуваалцдаг судлаачид, практикчид, байгууллагуудтай хамтран GDPval-ийг бүтээхдээ бид баяртай байна.


