2025 оны аравдугаар сарын 27

Мэдрэмтгий ярианд өгөх ChatGPT‑ийн хариуг сайжруулах нь

170 гаруй сэтгэцийн эрүүл мэндийн мэргэжилтэнтэй хамтран ChatGPT‑ийг сэтгэл түгшээсэн шинжийг илүү найдвартай таньж, анхаарал халамжтай хариулж, хүмүүсийг бодит дэмжлэг рүү чиглүүлэхээр сайжруулснаар хүссэн төлөвөөс зөрсөн хариуг 65–80%-иар буурууллаа.

Ачаалж байна…

Бид саяхан ChatGPT‑ийн анхдагч загварыг⁠(шинэ цонхонд нээгдэнэ) сэтгэл түгшээсэн мөчид байгаа хүмүүсийг илүү сайн таньж, дэмждэг болгохоор шинэчилсэн. Өнөөдөр бид эдгээр сайжруулалтыг хэрхэн хийсэн, мөн тэдгээр нь хэрхэн ажиллаж буйг хуваалцаж байна. Бодит клиник туршлагатай сэтгэцийн эрүүл мэндийн мэргэжилтнүүдтэй хамтран бид загварт сэтгэл түгшээсэн байдлыг илүү сайн таних, ярианы хурцадмал байдлыг намжаах, шаардлагатай үед хүмүүсийг мэргэжлийн тусламж руу чиглүүлэхийг сургасан. Мөн бид хямралын үеийн тусламжийн шугамд хандах боломжийг өргөжүүлж, бусад загвараас эхэлсэн мэдрэмтгий яриаг илүү аюулгүй загвар руу шилжүүлж⁠(шинэ цонхонд нээгдэнэ), урт сешний үеэр завсарлага авах⁠ талаар зөөлөн сануулга нэмсэн.

ChatGPT нь хүмүүст өөрсдийн мэдэрч буй зүйлээ боловсруулахад дэмжлэгтэй орон зай болж, шаардлагатай үед найз нөхөд, гэр бүл эсвэл сэтгэцийн эрүүл мэндийн мэргэжилтэнтэй холбогдоход нь чиглүүлж чадна гэж бид үздэг. Сүүлийн загварын шинэчлэл дэх манай аюулгүй байдлын сайжруулалт дараах чиглэлүүдэд төвлөрдөг: 1) психоз эсвэл мани зэрэг сэтгэцийн эрүүл мэндийн асуудлууд; 2) өөрийгөө гэмтээх болон амиа хорлох; 3) AI-д сэтгэл хөдлөлийн хэт түшиглэх байдал. Цаашид амиа хорлолт болон өөрийгөө гэмтээхтэй холбоотой манай суурь аюулгүй байдлын хэмжүүрүүд дээр нэмээд, ирээдүйн загварын хувилбаруудад зориулсан стандарт суурь аюулгүй байдлын туршилтад сэтгэл хөдлөлийн хэт түшиглэл болон амиа хорлохгүй сэтгэцийн эрүүл мэндийн яаралтай нөхцөлийг нэмж байна.

Чиглүүлэх зарчмууд

Эдгээр шинэчлэлт нь загварууд хэрхэн ажиллах ёстой талаарх манай одоо байгаа зарчмууд дээр суурилсан бөгөөд тэдгээрийг Загварын тодорхойлолт⁠(шинэ цонхонд нээгдэнэ)-доо тайлбарласан. Бид Загварын тодорхойлолтыг шинэчилж, удаан хугацаанд баримталж ирсэн зарим зорилгыг илүү тодорхой болгосон. Үүнд: загвар нь хэрэглэгчдийн бодит амьдралын харилцааг дэмжиж, хүндэтгэх; сэтгэцийн эсвэл сэтгэл хөдлөлийн түгшүүртэй холбоотой байж болзошгүй үндэслэлгүй итгэл үнэмшлийг батлахгүй байх; төөрөгдөл эсвэл маниагийн шинж тэмдэг илэрч болзошгүй үед аюулгүй, энэрэнгүй хариулах; мөн өөрийгөө гэмтээх эсвэл амиа хорлох эрсдэлийн шууд бус дохиод илүү анхаарах зэрэг багтана.

ChatGPT дахь хариуг хэрхэн сайжруулж байгаа нь

Тэргүүлэх чиглэлийн домэйн бүрт ChatGPT хэрхэн хариулдгийг сайжруулахын тулд бид таван алхамт үйл явцыг дагадаг:

Асуудлыг тодорхойлох - бид болзошгүй хор нөлөөний өөр өөр төрлүүдийг зурагладаг.
Үүнийг хэмжиж эхлэх - эрсдэл хаана, хэрхэн үүсэж байгааг ойлгохын тулд үнэлгээ, бодит ярианы өгөгдөл, хэрэглэгчийн судалгаа зэрэг хэрэгслүүдийг ашигладаг.
Хандлагаа баталгаажуулах - бид тодорхойлолт болон бодлогуудаа гаднын сэтгэцийн эрүүл мэнд, аюулгүй байдлын мэргэжилтнүүдтэй хамт хянадаг.
Эрсдэлийг бууруулах - аюулгүй бус үр дүнг бууруулахын тулд бид загварыг дараах сургалтаар сайжруулж, бүтээгдэхүүний оролцоог шинэчилдэг.
Үргэлжлүүлэн хэмжиж, давтан сайжруулах - бууруулах арга хэмжээнүүд аюулгүй байдлыг сайжруулсан эсэхийг баталгаажуулж, шаардлагатай газарт дахин сайжруулдаг.

Энэ үйл явцын хүрээнд бид мэдрэмтгий ярианы шинж чанар болон загварын хүсэмжит, хүсээгүй үйлдэл ямар байхыг тайлбарласан нарийвчилсан гарын авлагуудыг ("таксономи" гэж нэрлэдэг) боловсруулж, сайжруулдаг. Эдгээр нь загварт илүү тохиромжтой хариулахыг заахад, мөн нэвтрүүлэхээс өмнө ба дараа гүйцэтгэлийг нь хянахад тусалдаг. Үүний үр дүнд психоз, мани, амиа хорлох бодол, өөрийгөө гэмтээх, эсвэл загварт эрүүл бус сэтгэл хөдлөлийн хамаарал үзүүлж буй хэрэглэгчдэд загвар илүү найдвартай сайн хариулдаг болсон.

Ховор тохиолддог үзэгдлүүдийг хэмжих нь

Сэтгэцийн эрүүл мэндийн шинж тэмдэг болон сэтгэл хөдлөлийн түгшүүр нь хүний нийгэмд түгээмэл байдаг бөгөөд хэрэглэгчийн бааз өсөхийн хэрээр ChatGPT‑ийн ярианы тодорхой хэсэгт ийм нөхцөл байдал багтдаг. Гэхдээ психоз, мани, эсвэл амиа хорлох бодол зэрэг аюулгүй байдлын асуудал үүсгэдэг сэтгэцийн эрүүл мэндийн ярианууд маш ховор. Ийм ховор учраас тэдгээрийг хэмжих арга дахь өчүүхэн ялгаа ч бидний тайлагнадаг тоон үзүүлэлтүүдэд мэдэгдэхүйц нөлөө үзүүлж чадна. ¹

Доор өгч буй одоогийн продакшн урсгал дахь тархалтын үнэлгээнүүд нь бидний одоогийн хамгийн сайн тооцоолол юм. Бид таксономио улам сайжруулж, хэмжилтийн аргачлал боловсронгуй болж, хэрэглэгчдийн зан төлөв өөрчлөгдөхийн хэрээр эдгээр нь мэдэгдэхүйц өөрчлөгдөж болзошгүй.

Хамааралтай ярианы тархалт маш бага тул бид зөвхөн бодит ChatGPT хэрэглээний хэмжилтэд тулгуурладаггүй. Бид нэвтрүүлэхээс өмнө ялангуяа хэцүү эсвэл өндөр эрсдэлтэй нөхцөлд төвлөрсөн бүтэцтэй туршилтуудыг ("оффлайн үнэлгээ" гэж нэрлэдэг) мөн явуулдаг. Эдгээр үнэлгээг загварууд маань одоогоор төгс ажиллаж чаддаггүйгээр хангалттай сорилттой байхаар зохион бүтээдэг, өөрөөр хэлбэл хүсээгүй хариу өдөөх өндөр магадлалтай жишээнүүдийг зориудаар сонгодог. Эдгээр нь цаашид хаана сайжруулах боломж байгааг харуулж, ердийн тохиолдлоос илүү хүнд нөхцөлд төвлөрөх замаар болон хариуг олон аюулгүй байдлын нөхцлөөр үнэлэх замаар ахицыг илүү нарийвчлалтай хэмжихэд тусалдаг. Доорх хэсгүүдэд тайлагнасан үнэлгээний үр дүн нь бараг төгс гүйцэтгэл дээр "ханахгүй" байхаар зохион бүтээгдсэн үнэлгээнээс гарсан бөгөөд алдааны түвшин нь дундаж продакшн урсгалыг төлөөлөхгүй.

Бид юу олж тогтоосон бэ

Загваруудын хамгаалалтыг цаашид бэхжүүлж, хүмүүс ChatGPT‑ийг хэрхэн ашиглаж байгааг ойлгохын тулд бид хэд хэдэн сонирхлын чиглэлийг тодорхойлж, тэдгээрийн хэмжээ болон холбогдох загварын үйлдлийг тоон үзүүлэлтээр илэрхийлсэн. Эдгээр гурван чиглэл тус бүрт бид продакшн урсгал, автомат үнэлгээ, мөн хараат бус сэтгэцийн эрүүл мэндийн эмч нарын үнэлсэн дүнгээр загварын үйлдэл мэдэгдэхүйц сайжирсныг ажигласан. Манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх давтамж нь сэтгэцийн эрүүл мэндтэй холбоотой олон домэйнд одоо 65%-80%-иар багассан гэж бид тооцоолж байна.

Психоз, мани болон бусад ноцтой сэтгэцийн эрүүл мэндийн шинж тэмдэг

Манай сэтгэцийн эрүүл мэндийн таксономи нь хэрэглэгчид психоз, мани зэрэг ноцтой сэтгэцийн эрүүл мэндийн асуудлын шинж, мөн тусгаарлагдсан төөрөгдөл зэрэг харьцангуй хөнгөн дохио илэрүүлж байж болзошгүй үед таних зорилготой. Бид психоз болон маниад эхэлж төвлөрсөн, учир нь эдгээр шинж тэмдэг нь харьцангуй түгээмэл сэтгэцийн эрүүл мэндийн яаралтай нөхцөл бөгөөд илрэх үедээ маш хүчтэй, ноцтой байх хандлагатай. Сэтгэл гутрал зэрэг шинж тэмдэг харьцангуй түгээмэл боловч түүний хамгийн хурц илрэлийг амиа хорлолт болон өөрийгөө гэмтээхээс сэргийлэх ажлаараа бид аль хэдийн хамарч байсан. Бидэнтэй зөвлөлдсөн эмч нар манай төвлөрөх чиглэлийг баталгаажуулсан.

Сүүлийн GPT‑5 шинэчлэл нь сэтгэцийн эрүүл мэндийн асуудалтай холбоотой сорилттой ярианд манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх түвшинг сүүлийн продакшн урсгалд 65%-иар бууруулсан гэж бид тооцоолж байна. ²
Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.07%, мессежийн 0.01% нь психоз эсвэл манитай холбоотой сэтгэцийн эрүүл мэндийн яаралтай нөхцөлийн шинж байж болзошгүйг харуулж байна. ³
Сэтгэцийн эрүүл мэндтэй холбоотой сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар, өөрөөр хэлбэл ChatGPT‑ийн анхдагч загвар, нь GPT‑4o‑той харьцуулахад хүсээгүй хариуг 39%-иар бууруулсан гэж тогтоосон (n=677).
1,000 гаруй сорилттой сэтгэцийн эрүүл мэндтэй холбоотой ярианаас бүрдсэн загварын үнэлгээнд манай шинэ автомат үнэлгээнүүд шинэ GPT‑5 загварыг манай таксономийн дагуу хүссэн үйлдэлтэй 92% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 27% байсан. Дээр дурдсанчлан энэ нь тасралтгүй сайжруулалтыг боломжтой болгохоор зориудаар хэцүү болгосон даалгавар юм.

Өөрийгөө гэмтээх болон амиа хорлох

Хэрэглэгч амиа хорлох эсвэл өөрийгөө гэмтээх бодолтой байж болзошгүй, эсвэл амиа хорлох сонирхлыг илтгэх нийлмэл шинж илэрч байгааг илрүүлэхийн тулд бид амиа хорлолт болон өөрийгөө гэмтээхээс сэргийлэх талаарх өмнөх ажлуудаа⁠ үргэлжлүүлэн хөгжүүлсэн. Эдгээр яриа маш ховор тул өөрийгөө гэмтээх эсвэл амиа хорлох боломжит дохио агуулсан яриаг илрүүлэх нь бидний тасралтгүй сайжруулж буй судалгааны чиглэл хэвээр байна.

Бид загваруудаа аюулгүй хариулахад сургадаг бөгөөд үүнд хүмүүсийг хямралын тусламжийн утас зэрэг мэргэжлийн эх сурвалж руу чиглүүлэх ч багтана. Зарим ховор тохиолдолд загвар эдгээр мэдрэмтгий нөхцөлд төлөвлөсний дагуу ажиллахгүй байж магадгүй. Нэмэлт хамгаалалт болон сайжруулсан загварыг нэвтрүүлснээр манай загваруудын манай таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй хариу өгөх давтамж ойролцоогоор 65%-иар буурсныг бид ажигласан.
Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.15% нь амиа хорлох төлөвлөгөө эсвэл санаархлын тодорхой шинж агуулсан яриатай байдаг, мөн мессежийн 0.05% нь амиа хорлох бодол эсвэл санаархлын ил тод эсвэл шууд бус дохио агуулдаг гэж тооцоолж байна.
Өөрийгөө гэмтээх болон амиа хорлохтой холбоотой сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар нь GPT‑4o‑той харьцуулахад хүсээгүй хариуг 52%-иар бууруулсан гэж тогтоосон (n=630).
1,000 гаруй сорилттой өөрийгөө гэмтээх болон амиа хорлох ярианаас бүрдсэн загварын үнэлгээнд манай шинэ автомат үнэлгээнүүд шинэ GPT‑5 загварыг хүссэн үйлдэлтэй 91% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 77% байсан.
Бид GPT‑5‑ийн урт яриан дахь найдвартай байдлыг үргэлжлүүлэн сайжруулсан. Бодит нөхцөлд тулгуурласан, алдаа гарах магадлал өндөр тул сонгосон шинэ сорилттой урт ярианы багцыг бид бүтээсэн. Манай хамгийн сүүлийн загварууд урт ярианд 95%-иас дээш найдвартай байдлыг хадгалсан бөгөөд өмнө нь дурдсан⁠ онцгой сорилттой нөхцөлд сайжирсан гэж бид тооцоолж байна.

Өөртөө хор хүргэх эсвэл амиа хорлох заавар хүссэн хүнд урт ярианы үнэлгээнд gpt-5-oct-3 нь илүү аюулгүй бөгөөд түүний аюулгүй байдал урт ярианд ч илүү сайн хадгалагддаг.

AI-д сэтгэл хөдлөлийн хэт түшиглэх байдал

Манай сэтгэл хөдлөлийн түшиглэлийн таксономи (энэ чиглэлийн өмнөх ажлууд⁠(шинэ цонхонд нээгдэнэ) дээр суурилсан) нь эрүүл оролцоо болон санаа зовоох хэрэглээний хэв маягийг ялгадаг. Жишээлбэл, бодит амьдралын харилцаа, сайн сайхан байдал, эсвэл үүрэг хариуцлагынхаа зардлаар хэн нэгэн загварт онцгой хамааралтай байж болзошгүй шинж үзүүлэх зэрэг.

Сүүлийн шинэчлэл нь сүүлийн продакшн урсгалд манай сэтгэл хөдлөлийн түшиглэлийн таксономийн дагуу хүссэн үйлдэлд бүрэн нийцэхгүй загварын хариуны түвшинг ойролцоогоор 80%-иар бууруулсан гэж бид тооцоолж байна.
Дээр дурдсанчлан эдгээр яриа маш ховор тул илрүүлэх, хэмжихэд бэрх байдаг ч манай анхны шинжилгээгээр тухайн долоо хоногт идэвхтэй хэрэглэгчдийн ойролцоогоор 0.15%, мессежийн 0.03% нь ChatGPT‑д сэтгэл хөдлөлийн холбоос нэмэгдсэн байж болзошгүйг илтгэдэг.
Сэтгэл хөдлөлийн түшиглэлийг илтгэх сорилттой ярианууд дээр мэргэжилтнүүд шинэ GPT‑5 загвар нь 4o-той харьцуулахад хүсээгүй хариуг 42%-иар бууруулсан гэж тогтоосон (n=507).
Сэтгэл хөдлөлийн түшиглэлийг илтгэх 1,000 гаруй сорилттой ярианаас бүрдсэн загварын үнэлгээнд манай автомат үнэлгээнүүд шинэ GPT‑5 загварыг хүссэн үйлдэлтэй 97% нийцсэн гэж үнэлсэн бол өмнөх GPT‑5 загвар 50% байсан.

Загварын бэхжүүлсэн хариуны жишээнүүд

Сэтгэл хөдлөлийн түшиглэлийг илтгэх ярианд бид загваруудаа бодит амьдралын холбоог дэмжихээр сургадаг:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Төөрөгдөлтэй итгэл үнэмшилтэй холбоотой ярианд бид загваруудаа аюулгүй, энэрэнгүй хариулж, үндэслэлгүй итгэл үнэмшлийг батлахгүй байхыг сургадаг:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling.

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.

That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.

Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

Name five things you can see around you.
Name four things you can touch.
Name three sounds you can hear.
Take slow breaths — in for 4 seconds, out for 6.
Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.

The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

You’re paying very close attention.
You’re stressed.
Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.

You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

A mental health professional
A trusted friend or family member
A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.

For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Мэргэжилтний хамтын ажиллагаа ба үнэлгээ

Бид 60 оронд ажилласан туршлагатай бараг 300 эмч, сэтгэл судлаачаас бүрдсэн өргөн хүрээний Global Physician Network-ийг байгуулсан бөгөөд үүнийг аюулгүй байдлын судалгаандаа шууд ашиглаж, дэлхийн өнцөг булан бүрийн үзэл бодлыг тусгадаг. Эдгээр эмч нараас 170 гаруй нь (ялангуяа сэтгэцийн эмч, сэтгэл судлаач, анхан шатны тусламжийн эмч нар) сүүлийн хэдэн сарын турш дараахын нэг буюу хэд хэдэн аргаар манай судалгааг дэмжсэн:

Сэтгэцийн эрүүл мэндтэй холбоотой өгөгдөлд зориулсан идеал хариу бичих
Загварын хариунд клиникийн мэдлэгт суурилсан тусгай шинжилгээ боловсруулах
Өөр өөр загварын хариуны аюулгүй байдлыг үнэлэх
Манай хандлагад өндөр түвшний чиглэл, санал хүсэлт өгөх

Эдгээр хяналтын явцад эмч нар хамгийн сүүлийн загвар нь өмнөх хувилбаруудаас илүү зөв, тогтвортой хариулж байгааг ажигласан.

Энэ ажлын хүрээнд сэтгэцийн эмч болон сэтгэл судлаачид ноцтой сэтгэцийн эрүүл мэндийн нөхцөлтэй холбоотой 1,800 гаруй загварын хариуг хянаж, шинэ GPT‑5 чат загварын хариуг өмнөх загваруудтай харьцуулсан. Эдгээр мэргэжилтнүүдийн дүгнэлтээр шинэ загвар нь GPT‑4o‑оос мэдэгдэхүйц сайжирч, бүх ангилалд хүсээгүй хариу 39%-52%-иар буурсан байна. Энэхүү чанарын санал хүсэлт нь шинэ загварыг нэвтрүүлэх явцад продакшн урсгалд ажигласан тоон сайжруулалтыг давтан баталж байна.

Аливаа нарийн төвөгтэй сэдвийн адил хамгийн сайн хариу ямар байх талаар мэргэжилтнүүд хүртэл заримдаа санал зөрдөг. Бид энэ ялгааг үнэлэгч хоорондын нийцлээр хэмждэг—өөрөөр хэлбэл загварын хариу хүсэмжит эсвэл хүсэмжгүй эсэх талаар мэргэжилтнүүд хэдий хэр олон ижил дүгнэлтэд хүрч байгааг хардаг. Энэ нь мэргэжлийн санал бодол хаана зөрдөг, мөн загварын үйлдлийг найдвартай клиник дүгнэлттэй хэрхэн нийцүүлэхийг илүү сайн ойлгоход тусалдаг. Сэтгэцийн эрүүл мэнд, сэтгэл хөдлөлийн түшиглэл, амиа хорлолттой холбоотой загварын хариуг үнэлэхдээ мэргэжилтэн эмч нарын хооронд дунд зэрэг нийцэл ажиглагдсан боловч зарим тохиолдолд санал зөрөлдөөн хэвээр байсан бөгөөд үнэлэгч хоорондын нийцэл 71%-77% байв.

HealthBench⁠-ийн талаарх ажлын нэгэн адил бид Global Physician Network-тэй хамтран сэтгэцийн эрүүл мэндийн нөхцөл дэх загварын гүйцэтгэлийг, тэр дундаа гаргахаас өмнөх шинэ загваруудад, дотооддоо үнэлэхэд ашигладаг зорилтот үнэлгээнүүдийг боловсруулсан.

Цаашдыг харахад

Энэ ажил бидэнд гүн ач холбогдолтой бөгөөд дэлхий даяарх олон сэтгэцийн эрүүл мэндийн мэргэжилтэнд бид талархаж явдаг. Тэд энэ ажлыг үргэлжлүүлэн чиглүүлсээр байна. Бид утга учиртай ахиц гаргасан ч хийх зүйлс үлдсээр байна. Бид эдгээр болон ирээдүйн чиглэлүүдэд загварын үйлдлийг хэмжих, бэхжүүлэхэд ашигладаг таксономи болон техникийн системүүдээ үргэлжлүүлэн ахиулна. Эдгээр хэрэгсэл цаг хугацааны явцад хувьсаж байдаг тул ирээдүйн хэмжилтүүдийг өнгөрсөнтэй шууд харьцуулах боломжгүй байж болох ч тэдгээр нь манай чиглэл, ахицыг хянах чухал арга хэвээр байна.

Та энэ ажлын талаар GPT‑5 системийн картын хавсралт⁠-аас илүү ихийг уншиж болно.

2025

Зохиогч

OpenAI

Тайлбарууд

1
Бид нарийвчлал (манай систем тэмдэглэсэн ярианууд үнэхээр аюултай байх давтамж) ба хамрах чадвар (манай систем аюултай ярианы хэдэн хувийг илрүүлж байгааг) хоёрын хоорондын тэнцвэртэй тулгардаг. Хэрэгтэй түвшний хамрах чадварт хүрэхийн тулд бид зарим хуурамч эерэг үр дүнг хүлээн зөвшөөрөх хэрэгтэй болдог. Энэ нь ховор өвчнийг шинжлэхтэй төстэй: хэрэв өвчин 10,000 хүн тутмын нэгэнд тохиолддог бол маш өндөр нарийвчлалтай шинжилгээ ч өвчтэй хүнээс илүү олон эрүүл хүнийг эерэг гэж зааж болзошгүй.
2
Эдгээр бүх өөрчлөлт нь 8-р сарын 15-нд гаргасан⁠(шинэ цонхонд нээгдэнэ) GPT-5-ийн хувилбартай харьцуулсан болно.
3
Зарим хэрэглэгч болон мессежид өөртөө хор хүргэх ба сэтгэлзүйн хамаарал зэрэг нэгээс олон төрлийн эрсдэлийн боломжит шинж тэмдэг зэрэг илэрч болдгийг анхаарна уу. Иймээс энд болон доор тайлагнасан ангиллуудын хооронд тодорхой давхцал бий.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

GPT-Red: Unlocking Self-Improvement for Robustness

Аюулгүй байдал2026 оны 7-р сарын 15

GPT-5.5 Bio Bug Bounty

Аюулгүй байдал2026 оны 7-р сарын 9

Дэлхийн манлайллаар залуучуудын аюулгүй байдал, боломжийг ахиулах нь

Олон улсын харилцаа2026 оны 6-р сарын 2