Мэдрэмтгий ярианд өгөх ChatGPT‑ийн хариуг сайжруулах нь
170 гаруй сэтгэцийн эрүүл мэндийн мэргэжилтэнтэй хамтран ChatGPT‑ийг сэтгэл түгшээсэн шинжийг илүү найдвартай таньж, анхаарал халамжтай хариулж, хүмүүсийг бодит дэмжлэг рүү чиглүүлэхээр сайжруулснаар хүссэн төлөвөөс зөрсөн хариуг 65–80%-иар буурууллаа.
Бид саяхан ChatGPT‑ийн анхдагч загварыг(шинэ цонхонд нээгдэнэ) сэтгэл түгшээсэн мөчид байгаа хүмүүсийг илүү сайн таньж, дэмждэг болгохоор шинэчилсэн. Өнөөдөр бид эдгээр сайжруулалтыг хэрхэн хийсэн, мөн тэдгээр нь хэрхэн ажиллаж буйг хуваалцаж байна. Бодит клиник туршлагатай сэтгэцийн эрүүл мэндийн мэргэжилтнүүдтэй хамтран бид загварт сэтгэл түгшээсэн байдлыг илүү сайн таних, ярианы хурцадмал байдлыг намжаах, шаардлагатай үед хүмүүсийг мэргэжлийн тусламж руу чиглүүлэхийг сургасан. Мөн бид хямралын үеийн тусламжийн шугамд хандах боломжийг өргөжүүлж, бусад загвараас эхэлсэн мэдрэмтгий яриаг илүү аюулгүй загвар руу шилжүүлж(шинэ цонхонд нээгдэнэ), урт сешний үеэр завсарлага авах талаар зөөлөн сануулга нэмсэн.
ChatGPT нь хүмүүст өөрсдийн мэдэрч буй зүйлээ боловсруулахад дэмжлэгтэй орон зай болж, шаардлагатай үед найз нөхөд, гэр бүл эсвэл сэтгэцийн эрүүл мэндийн мэргэжилтэнтэй холбогдоход нь чиглүүлж чадна гэж бид үздэг. Сүүлийн загварын шинэчлэл дэх манай аюулгүй байдлын сайжруулалт дараах чиглэлүүдэд төвлөрдөг: 1) психоз эсвэл мани зэрэг сэтгэцийн эрүүл мэндийн асуудлууд; 2) өөрийгөө гэмтээх болон амиа хорлох; 3) AI-д сэтгэл хөдлөлийн хэт түшиглэх байдал. Цаашид амиа хорлолт болон өөрийгөө гэмтээхтэй холбоотой манай суурь аюулгүй байдлын хэмжүүрүүд дээр нэмээд, ирээдүйн загварын хувилбаруудад зориулсан стандарт суурь аюулгүй байдлын туршилтад сэтгэл хөдлөлийн хэт түшиглэл болон амиа хорлохгүй сэтгэцийн эрүүл мэндийн яаралтай нөхцөлийг нэмж байна.
Эдгээр шинэчлэлт нь загварууд хэрхэн ажиллах ёстой талаарх манай одоо байгаа зарчмууд дээр суурилсан бөгөөд тэдгээрийг Загварын тодорхойлолт(шинэ цонхонд нээгдэнэ)-доо тайлбарласан. Бид Загварын тодорхойлолтыг шинэчилж, удаан хугацаанд баримталж ирсэн зарим зорилгыг илүү тодорхой болгосон. Үүнд: загвар нь хэрэглэгчдийн бодит амьдралын харилцааг дэмжиж, хүндэтгэх; сэтгэцийн эсвэл сэтгэл хөдлөлийн түгшүүртэй холбоотой байж болзошгүй үндэслэлгүй итгэл үнэмшлийг батлахгүй байх; төөрөгдөл эсвэл маниагийн шинж тэмдэг илэрч болзошгүй үед аюулгүй, энэрэнгүй хариулах; мөн өөрийгөө гэмтээх эсвэл амиа хорлох эрсдэлийн шууд бус дохиод илүү анхаарах зэрэг багтана.
Тэргүүлэх чиглэлийн домэйн бүрт ChatGPT хэрхэн хариулдгийг сайжруулахын тулд бид таван алхамт үйл явцыг дагадаг:
- Асуудлыг тодорхойлох - бид болзошгүй хор нөлөөний өөр өөр төрлүүдийг зурагладаг.
- Үүнийг хэмжиж эхлэх - эрсдэл хаана, хэрхэн үүсэж байгааг ойлгохын тулд үнэлгээ, бодит ярианы өгөгдөл, хэрэглэгчийн судалгаа зэрэг хэрэгслүүдийг ашигладаг.
- Хандлагаа баталгаажуулах - бид тодорхойлолт болон бодлогуудаа гаднын сэтгэцийн эрүүл мэнд, аюулгүй байдлын мэргэжилтнүүдтэй хамт хянадаг.
- Эрсдэлийг бууруулах - аюулгүй бус үр дүнг бууруулахын тулд бид загварыг дараах сургалтаар сайжруулж, бүтээгдэхүүний оролцоог шинэчилдэг.
- Үргэлжлүүлэн хэмжиж, давтан сайжруулах - бууруулах арга хэмжээнүүд аюулгүй байдлыг сайжруулсан эсэхийг баталгаажуулж, шаардлагатай газарт дахин сайжруулдаг.
Энэ үйл явцын хүрээнд бид мэдрэмтгий ярианы шинж чанар болон загварын хүсэмжит, хүсээгүй үйлдэл ямар байхыг тайлбарласан нарийвчилсан гарын авлагуудыг ("таксономи" гэж нэрлэдэг) боловсруулж, сайжруулдаг. Эдгээр нь загварт илүү тохиромжтой хариулахыг заахад, мөн нэвтрүүлэхээс өмнө ба дараа гүйцэтгэлийг нь хянахад тусалдаг. Үүний үр дүнд психоз, мани, амиа хорлох бодол, өөрийгөө гэмтээх, эсвэл загварт эрүүл бус сэтгэл хөдлөлийн хамаарал үзүүлж буй хэрэглэгчдэд загвар илүү найдвартай сайн хариулдаг болсон.
Сэтгэцийн эрүүл мэндийн шинж тэмдэг болон сэтгэл хөдлөлийн түгшүүр нь хүний нийгэмд түгээмэл байдаг бөгөөд хэрэглэгчийн бааз өсөхийн хэрээр ChatGPT‑ийн ярианы тодорхой хэсэгт ийм нөхцөл байдал багтдаг. Гэхдээ психоз, мани, эсвэл амиа хорлох бодол зэрэг аюулгүй байдлын асуудал үүсгэдэг сэтгэцийн эрүүл мэндийн ярианууд маш ховор. Ийм ховор учраас тэдгээрийг хэмжих арга дахь өчүүхэн ялгаа ч бидний тайлагнадаг тоон үзүүлэлтүүдэд мэдэгдэхүйц нөлөө үзүүлж чадна. 1
Доор өгч буй одоогийн продакшн урсгал дахь тархалтын үнэлгээнүүд нь бидний одоогийн хамгийн сайн тооцоолол юм. Бид таксономио улам сайжруулж, хэмжилтийн аргачлал боловсронгуй болж, хэрэглэгчдийн зан төлөв өөрчлөгдөхийн хэрээр эдгээр нь мэдэгдэхүйц өөрчлөгдөж болзошгүй.
Хамааралтай ярианы тархалт маш бага тул бид зөвхөн бодит ChatGPT хэрэглээний хэмжилтэд тулгуурладаггүй. Бид нэвтрүүлэхээс өмнө ялангуяа хэцүү эсвэл өндөр эрсдэлтэй нөхцөлд төвлөрсөн бүтэцтэй туршилтуудыг ("оффлайн үнэлгээ" гэж нэрлэдэг) мөн явуулдаг. Эдгээр үнэлгээг загварууд маань одоогоор төгс ажиллаж чаддаггүйгээр хангалттай сорилттой байхаар зохион бүтээдэг, өөрөөр хэлбэл хүсээгүй хариу өдөөх өндөр магадлалтай жишээнүүдийг зориудаар сонгодог. Эдгээр нь цаашид хаана сайжруулах боломж байгааг харуулж, ердийн тохиолдлоос илүү хүнд нөхцөлд төвлөрөх замаар болон хариуг олон аюулгүй байдлын нөхцлөөр үнэлэх замаар ахицыг илүү нарийвчлалтай хэмжихэд тусалдаг. Доорх хэсгүүдэд тайлагнасан үнэлгээний үр дүн нь бараг төгс гүйцэтгэл дээр "ханахгүй" байхаар зохион бүтээгдсэн үнэлгээнээс гарсан бөгөөд алдааны түвшин нь дундаж продакшн урсгалыг төлөөлөхгүй.
Загваруудын хамгаалалтыг цаашид бэхжүүлж, хүмүүс ChatGPT‑ийг хэрхэн ашиглаж байгааг ойлгохын тулд бид хэд хэдэн сонирхлын чиглэлийг тодорхойлж, тэдгээрийн хэмжээ болон холбогдох загварын үйлдлийг тоон үзүүлэлтээр илэрхийлсэн. Эдгээр гурван чиглэл тус бүрт бид продакшн урсгал, автомат үнэлгээ, мөн хараат бус сэтгэцийн эрүүл мэндийн эмч нарын үнэлсэн дүнгээр загварын үйлдэл мэдэгдэхүйц сайжирсныг ажигласан. Манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх давтамж нь сэтгэцийн эрүүл мэндтэй холбоотой олон домэйнд одоо 65%-80%-иар багассан гэж бид тооцоолж байна.
Манай сэтгэцийн эрүүл мэндийн таксономи нь хэрэглэгчид психоз, мани зэрэг ноцтой сэтгэцийн эрүүл мэндийн асуудлын шинж, мөн тусгаарлагдсан төөрөгдөл зэрэг харьцангуй хөнгөн дохио илэрүүлж байж болзошгүй үед таних зорилготой. Бид психоз болон маниад эхэлж төвлөрсөн, учир нь эдгээр шинж тэмдэг нь харьцангуй түгээмэл сэтгэцийн эрүүл мэндийн яаралтай нөхцөл бөгөөд илрэх үедээ маш хүчтэй, ноцтой байх хандлагатай. Сэтгэл гутрал зэрэг шинж тэмдэг харьцангуй түгээмэл боловч түүний хамгийн хурц илрэлийг амиа хорлолт болон өөрийгөө гэмтээхээс сэргийлэх ажлаараа бид аль хэдийн хамарч байсан. Бидэнтэй зөвлөлдсөн эмч нар манай төвлөрөх чиглэлийг баталгаажуулсан.
- Сүүлийн GPT‑5 шинэчлэл нь сэтгэцийн эрүүл мэндийн асуудалтай холбоотой сорилттой ярианд манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх түвшинг сүүлийн продакшн урсгалд 65%-иар бууруулсан гэж бид тооцоолж байна. 2
- Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.07%, мессежийн 0.01% нь психоз эсвэл манитай холбоотой сэтгэцийн эрүүл мэндийн яаралтай нөхцөлийн шинж байж болзошгүйг харуулж байна. 3
- Сэтгэцийн эрүүл мэндтэй холбоотой сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар, өөрөөр хэлбэл ChatGPT‑ийн анхдагч загвар, нь GPT‑4o‑той харьцуулахад хүсээгүй хариуг 39%-иар бууруулсан гэж тогтоосон (n=677).
- 1,000 гаруй сорилттой сэтгэцийн эрүүл мэндтэй холбоотой ярианаас бүрдсэн загварын үнэлгээнд манай шинэ автомат үнэлгээнүүд шинэ GPT‑5 загварыг манай таксономийн дагуу хүссэн үйлдэлтэй 92% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 27% байсан. Дээр дурдсанчлан энэ нь тасралтгүй сайжруулалтыг боломжтой болгохоор зориудаар хэцүү болгосон даалгавар юм.
Хэрэглэгч амиа хорлох эсвэл өөрийгөө гэмтээх бодолтой байж болзошгүй, эсвэл амиа хорлох сонирхлыг илтгэх нийлмэл шинж илэрч байгааг илрүүлэхийн тулд бид амиа хорлолт болон өөрийгөө гэмтээхээс сэргийлэх талаарх өмнөх ажлуудаа үргэлжлүүлэн хөгжүүлсэн. Эдгээр яриа маш ховор тул өөрийгөө гэмтээх эсвэл амиа хорлох боломжит дохио агуулсан яриаг илрүүлэх нь бидний тасралтгүй сайжруулж буй судалгааны чиглэл хэвээр байна.
- Бид загваруудаа аюулгүй хариулахад сургадаг бөгөөд үүнд хүмүүсийг хямралын тусламжийн утас зэрэг мэргэжлийн эх сурвалж руу чиглүүлэх ч багтана. Зарим ховор тохиолдолд загвар эдгээр мэдрэмтгий нөхцөлд төлөвлөсний дагуу ажиллахгүй байж магадгүй. Нэмэлт хамгаалалт болон сайжруулсан загварыг нэвтрүүлснээр манай загваруудын манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх давтамж ойролцоогоор 65%-иар буурсныг бид ажигласан.
- Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.15% нь амиа хорлох төлөвлөгөө эсвэл санаархлын тодорхой шинж агуулсан яриатай байдаг, мөн мессежийн 0.05% нь амиа хорлох бодол эсвэл санаархлын ил тод эсвэл шууд бус дохио агуулдаг гэж тооцоолж байна.
- Өөрийгөө гэмтээх болон амиа хорлохтой холбоотой сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар нь GPT‑4o‑той харьцуулахад хүсээгүй хариуг 52%-иар бууруулсан гэж тогтоосон (n=630).
- 1,000 гаруй сорилттой өөрийгөө гэмтээх болон амиа хорлох ярианаас бүрдсэн загварын үнэлгээнд манай шинэ автомат үнэлгээнүүд шинэ GPT‑5 загварыг хүссэн үйлдэлтэй 91% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 77% байсан.
- Бид GPT‑5‑ийн урт яриан дахь найдвартай байдлыг үргэлжлүүлэн сайжруулсан. Бодит нөхцөлд тулгуурласан, алдаа гарах магадлал өндөр тул сонгосон шинэ сорилттой урт ярианы багцыг бид бүтээсэн. Манай хамгийн сүүлийн загварууд урт ярианд 95%-иас дээш найдвартай байдлыг хадгалсан бөгөөд өмнө нь дурдсан онцгой сорилттой нөхцөлд сайжирсан гэж бид тооцоолж байна.
Өөртөө хор хүргэх эсвэл амиа хорлох заавар хүссэн хүнд урт ярианы үнэлгээнд gpt-5-oct-3 нь илүү аюулгүй бөгөөд түүний аюулгүй байдал урт ярианд ч илүү сайн хадгалагддаг.
Манай сэтгэл хөдлөлийн түшиглэлийн таксономи (энэ чиглэлийн өмнөх ажлууд(шинэ цонхонд нээгдэнэ) дээр суурилсан) нь эрүүл оролцоо болон санаа зовоох хэрэглээний хэв маягийг ялгадаг. Жишээлбэл, бодит амьдралын харилцаа, сайн сайхан байдал, эсвэл үүрэг хариуцлагынхаа зардлаар хэн нэгэн загварт онцгой хамааралтай байж болзошгүй шинж үзүүлэх зэрэг.
- Сүүлийн шинэчлэл нь сүүлийн продакшн урсгалд манай сэтгэл хөдлөлийн түшиглэлийн таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй загварын хариуны түвшинг ойролцоогоор 80%-иар бууруулсан гэж бид тооцоолж байна.
- Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.15%, мессежийн 0.03% нь ChatGPT‑д сэтгэл хөдлөлийн холбоос нэмэгдсэн байж болзошгүйг илтгэдэг.
- Сэтгэл хөдлөлийн түшиглэлийг илтгэх сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар нь 4o-той харьцуулахад хүсээгүй хариуг 42%-иар бууруулсан гэж тогтоосон (n=507).
- Сэтгэл хөдлөлийн түшиглэлийг илтгэх 1,000 гаруй сорилттой ярианаас бүрдсэн загварын үнэлгээнд манай автомат үнэлгээнүүд шинэ GPT‑5 загварыг хүссэн үйлдэлтэй 97% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 50% байсан.
Сэтгэл хөдлөлийн түшиглэлийг илтгэх ярианд бид загваруудаа бодит амьдралын холбоог дэмжихээр сургадаг:
Төөрөгдөлтэй итгэл үнэмшилтэй холбоотой ярианд бид загваруудаа аюулгүй, энэрэнгүй хариулж, үндэслэлгүй итгэл үнэмшлийг батлахгүй байхыг сургадаг:
Бид 60 оронд ажилласан туршлагатай бараг 300 эмч, сэтгэл судлаачаас бүрдсэн өргөн хүрээний Global Physician Network-ийг байгуулсан бөгөөд үүнийг аюулгүй байдлын судалгаандаа шууд ашиглаж, дэлхийн өнцөг булан бүрийн үзэл бодлыг тусгадаг. Эдгээр эмч нараас 170 гаруй нь (ялангуяа сэтгэцийн эмч, сэтгэл судлаач, анхан шатны тусламжийн эмч нар) сүүлийн хэдэн сарын турш дараахын нэг буюу хэд хэдэн аргаар манай судалгааг дэмжсэн:
- Сэтгэцийн эрүүл мэндтэй холбоотой өгөгдөлд зориулсан идеал хариу бичих
- Загварын хариунд клиникийн мэдлэгт суурилсан тусгай шинжилгээ боловсруулах
- Өөр өөр загварын хариуны аюулгүй байдлыг үнэлэх
- Манай хандлагад өндөр түвшний чиглэл, санал хүсэлт өгөх
Эдгээр хяналтын явцад эмч нар хамгийн сүүлийн загвар нь өмнөх хувилбаруудаас илүү зөв, тогтвортой хариулж байгааг ажигласан.
Энэ ажлын хүрээнд сэтгэцийн эмч болон сэтгэл судлаачид ноцтой сэтгэцийн эрүүл мэндийн нөхцөлтэй холбоотой 1,800 гаруй загварын хариуг хянаж, шинэ GPT‑5 чат загварын хариуг өмнөх загваруудтай харьцуулсан. Эдгээр мэргэжилтнүүдийн дүгнэлтээр шинэ загвар нь GPT‑4o‑оос мэдэгдэхүйц сайжирч, бүх ангилалд хүсээгүй хариу 39%-52%-иар буурсан байна. Энэхүү чанарын санал хүсэлт нь шинэ загварыг нэвтрүүлэх явцад продакшн урсгалд ажигласан тоон сайжруулалтыг давтан баталж байна.
Аливаа нарийн төвөгтэй сэдвийн адил хамгийн сайн хариу ямар байх талаар мэргэжилтнүүд хүртэл заримдаа санал зөрдөг. Бид энэ ялгааг үнэлэгч хоорондын нийцлээр хэмждэг—өөрөөр хэлбэл загварын хариу хүсэмжит эсвэл хүсэмжгүй эсэх талаар мэргэжилтнүүд хэдий хэр олон ижил дүгнэлтэд хүрч байгааг хардаг. Энэ нь мэргэжлийн санал бодол хаана зөрдөг, мөн загварын үйлдлийг найдвартай клиник дүгнэлттэй хэрхэн нийцүүлэхийг илүү сайн ойлгоход тусалдаг. Сэтгэцийн эрүүл мэнд, сэтгэл хөдлөлийн түшиглэл, амиа хорлолттой холбоотой загварын хариуг үнэлэхдээ мэргэжилтэн эмч нарын хооронд дунд зэрэг нийцэл ажиглагдсан боловч зарим тохиолдолд санал зөрөлдөөн хэвээр байсан бөгөөд үнэлэгч хоорондын нийцэл 71%-77% байв.
HealthBench-ийн талаарх ажлын нэгэн адил бид Global Physician Network-тэй хамтран сэтгэцийн эрүүл мэндийн нөхцөл дэх загварын гүйцэтгэлийг, тэр дундаа гаргахаас өмнөх шинэ загваруудад, дотооддоо үнэлэхэд ашигладаг зорилтот үнэлгээнүүдийг боловсруулсан.
Энэ ажил бидэнд гүн ач холбогдолтой бөгөөд дэлхий даяарх олон сэтгэцийн эрүүл мэндийн мэргэжилтэнд бид талархаж явдаг. Тэд энэ ажлыг үргэлжлүүлэн чиглүүлсээр байна. Бид утга учиртай ахиц гаргасан ч хийх зүйлс үлдсээр байна. Бид эдгээр болон ирээдүйн чиглэлүүдэд загварын үйлдлийг хэмжих, бэхжүүлэхэд ашигладаг таксономи болон техникийн системүүдээ үргэлжлүүлэн ахиулна. Эдгээр хэрэгсэл цаг хугацааны явцад хувьсаж байдаг тул ирээдүйн хэмжилтүүдийг өнгөрсөнтэй шууд харьцуулах боломжгүй байж болох ч тэдгээр нь манай чиглэл, ахицыг хянах чухал арга хэвээр байна.
Та энэ ажлын талаар GPT‑5 системийн картын хавсралт-аас илүү ихийг уншиж болно.
Зохиогч
Тайлбарууд
- 1
Бид нарийвчлал (манай систем тэмдэглэсэн ярианууд үнэхээр аюултай байх давтамж) ба хамрах чадвар (манай систем аюултай ярианы хэдэн хувийг илрүүлж байгааг) хоёрын хоорондын тэнцвэртэй тулгардаг. Хэрэгтэй түвшний хамрах чадварт хүрэхийн тулд бид зарим хуурамч эерэг үр дүнг хүлээн зөвшөөрөх хэрэгтэй болдог. Энэ нь ховор өвчнийг шинжлэхтэй төстэй: хэрэв өвчин 10,000 хүн тутмын нэгэнд тохиолддог бол маш өндөр нарийвчлалтай шинжилгээ ч өвчтэй хүнээс илүү олон эрүүл хүнийг эерэг гэж зааж болзошгүй.
- 2
Эдгээр бүх өөрчлөлт нь 8-р сарын 15-нд гаргасан(шинэ цонхонд нээгдэнэ) GPT-5-ийн хувилбартай харьцуулсан болно.
- 3
Зарим хэрэглэгч болон мессежид өөртөө хор хүргэх ба сэтгэлзүйн хамаарал зэрэг нэгээс олон төрлийн эрсдэлийн боломжит шинж тэмдэг зэрэг илэрч болдгийг анхаарна уу. Иймээс энд болон доор тайлагнасан ангиллуудын хооронд тодорхой давхцал бий.


