Үндсэн агуулга руу алгасах
OpenAI

2026 оны дөрөвдүгээр сарын 23

БүтээгдэхүүнГаргалт

GPT‑5.5‑ийг танилцуулж байна

Бодит ажилд зориулсан шинэ түвшний оюун ухаан

Ачаалж байна…

2026 оны 4-р сарын 24-ний шинэчлэлт: GPT‑5.5 болон GPT‑5.5 Pro одоо API-д ашиглах боломжтой боллоо. Системийн карт мөн хэрэгжиж буй нэмэлт хамгаалалтуудыг тайлбарлахаар шинэчлэгдсэн.


Бид өнөөдрийг хүртэлх хамгийн ухаалаг, хамгийн зөн совинтой ашиглагддаг загвар болох GPT‑5.5‑ыг танилцуулж байна. Энэ нь компьютер дээр ажлаа хийдэг шинэ арга руу чиглэсэн дараагийн алхам юм.

GPT‑5.5 таны юу хийх гэж байгааг илүү хурдан ойлгож, ажлын ихэнх хэсгийг өөрөө гүйцэтгэж чадна. Код бичих, алдаа засах, онлайнаар судалгаа хийх, өгөгдөл шинжлэх, баримт бичиг ба хүснэгт үүсгэх, программ хангамж ажиллуулах, мөн даалгавар дуусах хүртэл янз бүрийн хэрэгслээр ажиллахдаа онцгой сайн. Алхам бүрийг нягт удирдахын оронд та GPT‑5.5‑д эмх цэгцгүй, олон хэсэгтэй даалгавар өгөөд төлөвлөх, хэрэгсэл ашиглах, ажлаа шалгах, тодорхойгүй нөхцөл дундуур чиг олох, цааш үргэлжлүүлэхийг нь итгэн даатгаж болно.

Ахиц нь ялангуяа агент маягийн кодчилол, компьютер ашиглалт, мэдлэгийн ажил, шинжлэх ухааны эрт үеийн судалгаанд хүчтэй харагдаж байна—эдгээр нь контекст дундуур сэтгэн бодож, хугацааны явцад үйлдэл хийхээс шалтгаалдаг салбарууд юм. GPT‑5.5 энэ түвшний оюуны ахицыг хурдыг алдагдуулахгүйгээр өгдөг: илүү том, илүү чадвартай загварууд ихэвчлэн удаан ажилладаг ч GPT‑5.5 нь бодит орчин дахь үйлчилгээний per-token саатлын хувьд GPT‑5.4‑тэй ижил мөртлөө 훨씬 өндөр түвшний оюун ухаантай ажилладаг. Мөн ижил Codex даалгавруудыг дуусгахад мэдэгдэхүйц цөөн токен ашигладаг тул илүү чадвартайгаас гадна илүү үр ашигтай.

Бид GPT‑5.5‑ыг өнөөдрийг хүртэлх хамгийн хүчтэй хамгаалалтын иж бүрдэлтэйгээр гаргаж байна. Энэ нь сайн зорилготой ажлын хүртээмжийг хадгалахтай зэрэгцэн буруугаар ашиглах эрсдэлийг бууруулахад зориулагдсан. Бид энэ загварыг аюулгүй байдал болон бэлэн байдлын хүрээний бүх иж бүрэн үнэлгээгээр шалгаж, дотоод болон гадаад red team-уудтай хамтран ажиллаж, ахисан түвшний кибер аюулгүй байдал болон биологийн чадамжид чиглэсэн нэмэлт тестүүд нэмж, гаргахаас өмнө эрт хандалтын бараг 200 итгэмжлэгдсэн түншээс бодит хэрэглээний санал хүсэлт цуглуулсан.

Өнөөдрөөс GPT‑5.5 нь ChatGPT болон Codex дахь Plus, Pro, Business, Enterprise хэрэглэгчдэд, харин GPT‑5.5 Pro нь ChatGPT дахь Pro, Business, Enterprise хэрэглэгчдэд шат дараатай нээгдэж байна. API-д нэвтрүүлэхэд өөр төрлийн хамгаалалт шаардлагатай бөгөөд үүнийг өргөн хэмжээнд аюулгүй, найдвартай хүргэх шаардлагын талаар бид түншүүд, хэрэглэгчидтэй нягт хамтран ажиллаж байна. Бид GPT‑5.5 болон GPT‑5.5 Pro-г тун удахгүй API-д авчирна.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Дотоод)

73.1%

68.5%

-

-

-

-

GDPval (ялалт эсвэл тэнцээ)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath түвшин 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath түвшин 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

Загварын чадамжууд

OpenAI агент маягийн AI-д зориулсан дэлхийн дэд бүтцийг байгуулж байгаа бөгөөд ингэснээр дэлхий даяарх хүмүүс, байгууллагууд AI ашиглан ажлаа хийж чадна. Өнгөрсөн нэг жилийн хугацаанд AI программ хангамжийн инженерчлэлийг эрчимтэй хурдасгаж байгааг бид харлаа. Codex болон ChatGPT дахь GPT‑5.5‑тай хамт энэ өөрчлөлт одоо шинжлэх ухааны судалгаа болон хүмүүсийн компьютер дээр хийдэг илүү өргөн хүрээний ажил руу тэлж эхэлж байна.

Эдгээр бүх чиглэлд GPT‑5.5 нь зөвхөн илүү ухаалаг биш; мөн асуудлыг шийдэхдээ илүү үр ашигтай ажилладаг бөгөөд ихэвчлэн цөөн токен, цөөн дахин оролдлогоор илүү чанартай үр дүнд хүрдэг. Artificial Analysis-ийн Coding Index дээр GPT‑5.5 нь өрсөлдөгч хил хязгаарын кодчиллын загваруудын өртгийн талд нь state-of-the-art түвшний оюуны гүйцэтгэл үзүүлдэг.

Artificial Analysis Intelligence Index(шинэ цонхонд нээгдэнэ) нь гаднын байгууллагын явуулсан 10 үнэлгээний жинлэсэн дундаж юм: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Агент маягийн кодчилол

GPT‑5.5 нь одоогийн байдлаар бидний хамгийн хүчтэй агент маягийн кодчиллын загвар юм. Төлөвлөлт, давталт, хэрэгслийн уялдаа шаардсан командын мөрийн төвөгтэй урсгалуудыг шалгадаг Terminal-Bench 2.0 дээр 82.7%-ийн state-of-the-art нарийвчлалд хүрсэн. GitHub-ийн бодит асуудал шийдвэрлэлтийг үнэлдэг SWE-Bench Pro дээр 58.6%-д хүрч, өмнөх загваруудаас илүү олон даалгаврыг нэг оролдлогоор төгсгөлөөс төгсгөл хүртэл шийддэг. Хүний дундаж гүйцэтгэх хугацаа 20 цаг гэж тооцогддог урт хугацааны кодчиллын даалгаварт зориулсан манай дотоод хил хязгаарын үнэлгээ болох Expert-SWE дээр GPT‑5.5 нь мөн GPT‑5.4‑өөс илүү үзүүлэлттэй.

Эдгээр гурван үнэлгээний бүгдэд GPT‑5.5 нь GPT‑5.4‑ийн оноог ахиулж, үүний зэрэгцээ цөөн токен ашигласан.

Загварын кодчиллын давуу тал Codex дээр ялангуяа тод харагддаг. Тэнд энэ нь хэрэгжүүлэлт, refactor-аас эхлээд алдаа засах, тестлэх, баталгаажуулах хүртэл инженерийн ажлыг хийж чадна. Эрт үеийн туршилтууд GPT‑5.5 нь бодит инженерийн ажилд чухал байдаг зан төлөвүүдэд илүү сайн болохыг харуулж байна. Үүнд том системүүдийн дунд контекст хадгалах, тодорхойгүй алдаануудыг сэтгэн бодож тайлах, хэрэгслээр таамаглалаа шалгах, мөн өөрчлөлтийг хүрээлэх кодын санд бүхэлд нь шингээн хэрэгжүүлэх зэрэг орно.

Дүрсэлсэн траектор нь Orion, Сар, Нарны NASA/JPL Horizons вектор өгөгдлийг ашигласан бөгөөд уншихад хялбар болгохын тулд дэлгэцийн масштабыг хэрэглэсэн.

Өгөгдөл: [хавсаргасан зураг] Үүнийг Artemis II нислэгийн бодит өгөгдлийг ашиглан webgl ба vite-ээр шинэ апп болгон хэрэгжүүл. Апп бүрэн ажиллахуйц болж, зураг дээрх апп шиг харагдах хүртэл маш сайн туршиж шалгаарай. Гаригууд болон нислэгийн замын дүрслэлд онцгой анхаар. Би 3D дүрслэлтэй харилцан ажиллаж чаддаг байхыг хүсэж байна. Бодитой тойрог замын механиктай байхыг ханга.

Бенчмаркээс цааш, эрт тестлэгчид GPT‑5.5 нь системийн бүтцийг ойлгох илүү хүчтэй чадвартай гэж хэлсэн: яагаад ямар нэг зүйл бүтэлгүйтэж байна, засвар яг хаана хийх ёстой, мөн кодын санд өөр юу нөлөөлөх вэ гэдгийг.

alt

“Миний ашигласан, үнэхээр ноцтой концепцын тодорхой байдалтай анхны кодчиллын загвар.”

Dan Shipper, Every-ийн үүсгэн байгуулагч, CEO, GPT‑5.5‑ийг “миний ашигласан, үнэхээр ноцтой концепцын тодорхой байдалтай анхны кодчиллын загвар” гэж тодорхойлсон.

Апп гаргасны дараа тэр гаргасны дараах асуудлыг хэдэн өдрийн турш засварлаж байгаад эцэст нь хамгийн сайн инженерүүдийнхээ нэгийг дуудаж системийн нэг хэсгийг дахин бичүүлжээ. GPT‑5.5‑ыг туршихын тулд тэр бараг цагийг ухраасан: загвар эвдэрсэн төлөвийг хараад инженерийн эцэст нь сонгосон шиг дахин бичилтийг гаргаж чадах уу? GPT‑5.4 чадсангүй. GPT‑5.5 чадсан.

alt

“Би үнэхээр илүү өндөр оюун ухаантай хамт ажиллаж байгаа юм шиг мэдрэмж төрдөг, бүр бараг хүндэтгэл мэдрэгддэг.”

Pietro Schirano, MagicPath-ийн CEO, GPT‑5.5 хэдэн зуун frontend болон refactor өөрчлөлттэй салбарыг өөрөө ихээхэн өөрчлөгдсөн main салбарт нэгтгэж, ажлыг нэг оролдлогоор 20 орчим минутын дотор шийдсэнийг хараад ижил төрлийн том үсрэлтийг анзаарсан.

Загварыг туршсан ахлах инженерүүд GPT‑5.5 нь сэтгэн бодох болон бие даасан ажиллагааны хувьд GPT‑5.4 болон Claude Opus 4.7-оос мэдэгдэхүйц хүчтэй байсан гэж хэлсэн бөгөөд ил тод өгөгдөл өгөхгүйгээр урьдчилан асуудал олж, тест болон review-ийн хэрэгцээг таамаглаж чадсан. Нэг тохиолдолд инженер түүнээс хамтын markdown editor дахь comment системийг дахин архитектурчлахыг хүсээд буцаж ирэхэд бараг бүрэн болсон 12-diff stack бэлэн байсан. Бусад нь хэрэгжүүлэлтийн засвар маш бага шаардсан бөгөөд GPT‑5.4‑тэй харьцуулахад GPT‑5.5‑ын төлөвлөгөөнд илүү итгэлтэй байсан гэж хэлсэн.

Загварт эрт хандсан NVIDIA-ийн нэг инженер бүр ингэж хэлсэн: “GPT‑5.5‑д хандах эрхээ алдах нь миний нэг мөчийг тайруулчихсан юм шиг санагдана.”

“GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early, which matters most for the complex, long-running work our users delegate to Cursor.”
— Michael Truell, Co-founder & CEO at Cursor

Мэдлэгийн ажил

GPT‑5.5‑ыг код бичихэд хүчирхэг болгодог эдгээр чанарууд нь түүнийг компьютер дээрх өдөр тутмын ажилд мөн хүчтэй болгодог. Загвар санааг илүү сайн ойлгодог учраас мэдлэгийн ажлын бүтэн мөчлөгөөр илүү байгалийн байдлаар явж чадна: мэдээлэл олох, юу чухал болохыг ойлгох, хэрэгсэл ашиглах, гаралтыг шалгах, түүхий материалыг хэрэгтэй зүйл болгон хувиргах.

Codex дээр GPT‑5.5 нь GPT‑5.4‑өөс баримт бичиг, хүснэгт, слайд танилцуулга үүсгэхдээ илүү сайн. Alpha тестлэгчид үүнийг operational research, spreadsheet modeling, мөн эмх цэгцгүй бизнесийн оролтыг төлөвлөгөө болгон хувиргах зэрэг ажлуудад өмнөх загваруудаас илүү байсан гэж хэлсэн. Codex-ийн компьютер ашиглах чадвартай хослоход GPT‑5.5 нь загвар үнэхээр тантай хамт компьютер ашиглаж чаддаг мэт мэдрэмжид биднийг ойртуулж байна: дэлгэцэн дээр юу байгааг харах, товших, бичих, интерфэйсээр чиглүүлэх, хэрэгслүүдийн хооронд нарийвчлалтай шилжих.

OpenAI дахь багууд эдгээр давуу талыг аль хэдийн бодит ажлын урсгалд ашиглаж байна. Өнөөдөр компанийн 85%-иас дээш нь долоо хоног бүр Codex-ийг ашигладаг бөгөөд үүнд программ хангамжийн инженерчлэл, санхүү, харилцаа холбоо, маркетинг, өгөгдлийн шинжлэх ухаан, бүтээгдэхүүний удирдлага зэрэг чиглэлүүд орно. Comms баг GPT‑5.5‑ыг Codex-д ашиглан зургаан сарын илтгэлийн хүсэлтийн өгөгдлийг шинжилж, оноо ба эрсдэлийн хүрээ боловсруулан, бага эрсдэлтэй хүсэлтүүдийг автоматаар шийдэж, өндөр эрсдэлтэй хүсэлтүүдийг хүний review руу шилжүүлдэг автомат Slack агент-г баталгаажуулсан. Finance баг Codex-ийг ашиглан нийт 71,637 хуудас бүхий 24,771 K-1 татварын маягтыг шалгасан бөгөөд хувийн мэдээллийг хассан ажлын урсгалаар өмнөх онтой харьцуулахад ажлыг хоёр долоо хоногоор хурдлуулсан. Go-to-Market багт нэг ажилтан долоо хоног тутмын бизнесийн тайлан үүсгэхийг автоматжуулснаар долоо хоногт 5-10 цаг хэмнэсэн.

ChatGPT дээр GPT‑5.5 Thinking нь илүү хэцүү асуудлуудад хурдан тусламж нээж өгдөг бөгөөд ухаалаг, илүү товч хариултуудаараа төвөгтэй ажлыг илүү үр ашигтай даван туулахад тусалдаг. Ялангуяа plugin ашиглах үед кодчилол, судалгаа, мэдээллийн нэгтгэл ба шинжилгээ, их хэмжээний баримт бичигтэй ажил зэрэг мэргэжлийн ажлуудад онцгой сайн.

GPT‑5.5 Pro дээр эрт тестлэгчид ChatGPT‑ийн хийж чадах ажлын төвөгшил болон чанар аль алинд нь мэдэгдэхүйц ахиц харж байна. Саатлын сайжруулалтууд нь үүнийг шаардлага өндөртэй даалгаварт 훨씬 илүү практик болгожээ. GPT‑5.4 Pro-той харьцуулахад тестлэгчид GPT‑5.5 Pro-ийн хариултуудыг мэдэгдэхүйц илүү иж бүрэн, бүтэцтэй, үнэн зөв, хамааралтай, хэрэгтэй гэж үнэлсэн бөгөөд ялангуяа бизнес, хууль, боловсрол, өгөгдлийн шинжлэх ухаанд хүчтэй гүйцэтгэлтэй байв.

GPT‑5.5 нь ийм төрлийн ажлыг тусгасан олон бенчмарк дээр state-of-the-art гүйцэтгэлд хүрч байна. 44 мэргэжил дээр сайн тодорхойлогдсон мэдлэгийн ажил гаргах агентуудын чадварыг шалгадаг GDPval⁠ дээр GPT‑5.5 84.9% авсан. Загвар бодит компьютерийн орчинд өөрөө ажиллаж чадах эсэхийг хэмждэг OSWorld-Verified дээр 78.7%-д хүрсэн. Мөн төвөгтэй хэрэглэгчийн үйлчилгээний урсгалыг шалгадаг Tau2-bench Telecom дээр өгөгдөл тааруулахгүйгээр 98.0%-д хүрсэн. GPT‑5.5 нь мэдлэгийн ажлын бусад бенчмарк дээр ч хүчтэй үзүүлэлттэй: FinanceAgent дээр 60.0%, дотоод хөрөнгө оруулалтын банкны моделчлолын даалгавар дээр 88.5%, OfficeQA Pro дээр 54.1%.

Tau2-bench Telecom-ийг prompt tuning-гүйгээр (мөн GPT‑4.1‑ийг хэрэглэгчийн загвар болгон) ажиллуулсан. GPT‑5.5 нь даалгаврын зорилгыг илүү сайн ойлгож, өмнөх хувилбаруудаасаа токены хувьд илүү үр ашигтай.

“GPT-5.5 нь гүйцэтгэл их шаарддаг ажлын хувьд хэрэгтэй тогтвортой гүйцэтгэлийг өгдөг. NVIDIA GB200 NVL72 систем дээр бүтээгдэж, ажиллуулсан энэ загвар нь манай багуудад байгалийн хэлний өгөгдлөөс төгсгөлөөс төгсгөл хүртэлх функцийг гаргах, дебаг хийх хугацааг өдрөөс цаг болгон багасгах, мөн төвөгтэй кодын сан дээр хэдэн долоо хоногийн туршилтыг нэг шөнийн ахиц болгож хувиргах боломж олгодог. Энэ нь зүгээр хурдан кодчилол биш—хүмүүсийг үндсээрээ өөр хурдтай ажиллахад тусалдаг шинэ ажлын арга юм.”
— Justin Boitano, NVIDIA-ийн Enterprise AI хариуцсан VP

Шинжлэх ухааны судалгаа

GPT‑5.5 нь шинжлэх ухаан болон техникийн судалгааны урсгал дээр ч ахиц үзүүлж байна. Эдгээр нь зөвхөн хэцүү асуултад хариулахоос илүүг шаарддаг. Судлаачид санаа судлах, нотолгоо цуглуулах, таамаглал шалгах, үр дүн тайлбарлах, дараа нь юуг туршихаа шийдэх хэрэгтэй болдог. GPT‑5.5 энэ мөчлөгийн турш бусад загваруудаас илүү тууштай ажилладаг.

Ялангуяа GPT‑5.5 нь генетик болон тоон биологийн олон үе шаттай шинжлэх ухааны өгөгдлийн шинжилгээнд төвлөрсөн шинэ үнэлгээ болох GeneBench(шинэ цонхонд нээгдэнэ) дээр GPT‑5.4‑өөс тодорхой сайжирсан. Эдгээр асуудлууд нь загваруудаас хамгийн бага хяналтын заавартайгаар тодорхойгүй эсвэл алдаатай байж болох өгөгдлийн талаар сэтгэн бодох, нуугдмал confounder эсвэл QC failure зэрэг бодит саадыг даван туулах, мөн орчин үеийн статистикийн аргуудыг зөв хэрэгжүүлж тайлбарлахыг шаарддаг. Эндэх ажлууд олонтаа шинжлэх ухааны мэргэжилтнүүдийн олон өдрийн төслүүдтэй тэнцдэгийг бодоход загварын гүйцэтгэл онцгой юм.

Үүнтэй адил, бодит био-информатик болон өгөгдлийн шинжилгээнд суурилсан бенчмарк болох BixBench(шинэ цонхонд нээгдэнэ) дээр GPT‑5.5 нь нийтлэгдсэн оноотой загваруудын дунд тэргүүлэх гүйцэтгэл үзүүлсэн. Загварын шинжлэх ухааны чадамж нь одоо биоанагаахын судалгааны хил хязгаар дээрх ахицыг жинхэнэ хамтран судлаачийн хувиар утга учиртай хурдасгахуйц хэмжээнд хүрсэн.

Өөр нэг жишээ нь, custom harness-тай GPT‑5.5‑ын дотоод хувилбар нь комбинаторикийн төв ойлголтуудын нэг болох Ramsey тоонуудын талаар шинэ баталгаа(шинэ цонхонд нээгдэнэ) олоход тусалсан. Комбинаторик нь граф, сүлжээ, олонлог, хэв маяг зэрэг салангид объектууд хэрхэн холбогддогийг судалдаг. Ramsey тоо нь, бүдүүн тоймоор хэлбэл, тодорхой төрлийн эмх цэгц заавал үүсэхийн өмнө сүлжээ хэр том байх ёстойг асуудаг. Энэ салбарын үр дүн ховор бөгөөд ихэвчлэн техникийн хувьд хэцүү байдаг. Энд GPT‑5.5 нь off-diagonal Ramsey тоонуудын удаан хугацаанд нээлттэй байсан асимптотик баримтын баталгааг олж, дараа нь Lean-д баталгаажуулсан. Энэ үр дүн нь GPT‑5.5 зөвхөн код эсвэл тайлбар биш, харин үндсэн судалгааны салбарт гэнэтийн атлаа хэрэгтэй математик аргумент оруулж чадсаны тод жишээ юм.

Эрт тестлэгчид ChatGPT дахь GPT‑5.5 Pro-г нэг оролдлогын хариу гаргагч хөдөлгүүрээс илүүтэй судалгааны хамтрагч шиг ашигласан: гар бичмэлийг олон давталтаар шүүмжлэх, техникийн аргументыг стресс-тестлэх, шинжилгээ санал болгох, код, тэмдэглэл, PDF контексттэй хамт ажиллах зэрэгт. Нийтлэг утас нь GPT‑5.5 нь судлаачдад асуултаас туршилт руу, тэндээс үр дүн рүү шилжихэд илүү сайн тусалдагт оршиж байна.

Derya Unutmaz, Jackson Laboratory for Genomic Medicine-ийн дархлаа судлалын профессор, судлаач, GPT‑5.5 Pro-г ашиглан 62 сорьц, бараг 28,000 гентэй генийн илэрхийллийн өгөгдлийн багцыг шинжилж, олдворуудыг нэгтгээд зогсохгүй гол асуулт, ойлголтуудыг гаргаж ирсэн дэлгэрэнгүй судалгааны тайлан гаргасан—энэ ажлыг түүний хэлснээр баг нь хэдэн сар хийх байсан.

Bartosz Naskręcki, Польшийн Познань дахь Adam Mickiewicz их сургуулийн математикийн туслах профессор, GPT‑5.5‑ийг Codex дээр ашиглан ганц өгөгдлөөс 11 минутын дотор алгебрийн геометрийн апп бүтээж, квадрат гадаргуун огтлолцлыг дүрслэн, гарсан муруйг Weierstrass загварт хөрвүүлсэн.

Тэр дараа нь аппыг илүү тогтвортой онцгой цэгийн дүрслэл, цаашдын ажилд дахин ашиглаж болох яг коэффициентүүдээр өргөтгөсөн. Түүний хувьд илүү том өөрчлөлт нь Codex одоо өмнө нь тусгай хэрэгсэл шаарддаг байсан захиалгат математик дүрслэл болон компьютер-алгебрын ажлын урсгалуудыг хэрэгжүүлэхэд тусалж чаддаг болсон явдал юм. Эдгээр жишээнүүд нийлээд GPT‑5.5 нь мэргэжилтний зорилгыг ажилладаг судалгааны хэрэгсэл, шинжилгээ болгон хувиргаж байгааг харуулж байна.

""

Credit: Bartosz Naskręcki(шинэ цонхонд нээгдэнэ)

Өгөгдөл: # Алгебрийн геометрийн гадаргуугийн огтлолцол

Хоёр квадрат гадаргууг зурж, огтлолцлын муруйг улаанаар буддаг апп хий. Үүнийг Weierstrass муруй руу хөрвүүлэхийн тулд тооцооллын Riemann-Roch теоремыг ашигла.

## Үндсэн цонх

Бага зэрэг тунгалаг сүүдэрлэлтэй, өндөр чанартай дүрслэлтэй хоёр өнгөтэй гадаргуу улаан өнгийн алгебрийн муруйн дагуу огтлолцоно

Хулганаар хоёр чиглэлд эргүүлэх, zoom-д зориулсан бүрэн pinch механизм, гадаргуу бүрийн коэффициентийг өөрчлөх slider-уудтай жижиг цэсийг харуулах haptic press; Z-buffor түвшнээр илрүүлэх

## Баруун талын цонх

Үр дүнтэй Riemann-Roch теоремын томъёогоор явц дунд нь тооцоологдох богино Weierstrass тэгшитгэл (Q дээр эсвэл квадрат талбарын өргөтгөл дээр)

## Бүх удирдлагууд нуусан ambient горим бөгөөд хэрэглэгч дүрсүүдийн гоо сайхныг бишрэн харж чадна

## Үзүүлэлтүүд

Апп хөтөч дээр ажиллана, бүрэн стек хамгийн сүүлийн үеийн сангуудтай хөнгөн хэрэгжилттэй, зөөврийн, байршуулж болохуйц

## Баримтжуулалт

Git repo, journal, plan (Markdown файлууд)

“OpenAI-ийн шинэ GPT-5.5 загварыг манай harness-д ашиглаж, хүний эмийн үр дүнг таамаглахын тулд асар их биохимийн өгөгдлийн багц дээр сэтгэн бодож ажиллуулчхаад, дараа нь манай хамгийн хэцүү эм нээх үнэлгээнүүд дээр мэдэгдэхүйц нарийвчлалын өсөлт гаргаж байгааг харах үнэхээр их эрч хүч өгдөг. Хэрэв OpenAI ийм эрчээрээ үргэлжлүүлбэл, оны эцэс гэхэд эм нээлтийн суурь үндэс өөрчлөгдөнө.”
— Brandon White, Axiom Bio-гийн хамтран үүсгэн байгуулагч, CEO

Дараагийн үеийн inference үр ашиг

GPT‑5.5‑ыг GPT‑5.4‑ийн сааталтай ижил түвшинд хүргэхийн тулд inference-ийг тус тусдаа оновчлолын цуглуулга биш, харин нэгдмэл систем гэж дахин бодох шаардлагатай болсон. GPT‑5.5 нь NVIDIA GB200 болон GB300 NVL72 системүүдэд зориулагдан хамтран зохиогдож, сургагдаж, ажиллуулсан. Codex болон GPT‑5.5 нь бид гүйцэтгэлийн зорилтоо хэрхэн биелүүлсэнд чухал үүрэг гүйцэтгэсэн. Codex багт санаанаас benchmarkable implementation хүртэл илүү хурдан очиход тусалж, хандлагуудын ноорог гаргах, туршилтуудыг холбох, мөн аль оновчлолд гүнзгий хөрөнгө оруулалт хийх нь зүйтэйг тодорхойлоход тусалсан. GPT‑5.5 өөрөө стекийн чухал сайжруулалтуудыг олох, хэрэгжүүлэхэд тусалсан. Энгийнээр хэлбэл, загвар өөрт нь үйлчилдэг дэд бүтцийг сайжруулахад тусалсан.

Ийм сайжруулалтын нэг нь ачаалал тэнцвэржүүлэх, partition хийх heuristics байв. GPT‑5.5‑аас өмнө бид accelerator дээрх хүсэлтүүдийг тооцооллын цөмүүдийн хооронд ажлыг тэнцвэржүүлэхийн тулд тогтмол тооны хэсэгт хувааж, том жижиг хүсэлтүүд нэг GPU дээр хамт ажиллах боломжтой болгож байсан. Гэхдээ урьдчилан тогтоосон static chunk-ийн тоо бүх төрлийн урсгалд хамгийн оновчтой биш. GPU-уудыг илүү сайн ашиглахын тулд Codex нь үйлдвэрлэлийн орчны олон долоо хоногийн урсгалын хэв маягийг шинжилж, ажлыг оновчтой хувааж тэнцвэржүүлэх тусгай heuristic алгоритмууд бичсэн. Энэ ажил асар их нөлөө үзүүлж, токен үүсгэх хурдыг 20%-иас дээш нэмэгдүүлсэн.

Хүн бүрийн аюулгүй байдлын төлөө кибер аюулгүй байдлыг ахиулах нь

Аюулгүй байдлын эмзэг байдлыг олох, нөхөхдөө маш сайн загваруудад дэлхийг бэлтгэх нь багийн спорт бөгөөд үүнд бүх экосистем уян хатан байдлыг бий болгохын тулд чармайн ажиллах шаардлагатай. Үүнд загварт ардчилсан хандалт болон кибер хамгаалалтын дараагийн эрин-д зориулсан шаталсан нэвтрүүлэлт хэрэгтэй.

Хил хязгаарын загварууд кибер аюулгүй байдлын хувьд улам чадвартай болж байна. Тэдгээр чадвар өргөн тархах бөгөөд бидний үзэж байгаагаар хамгийн зөв зам нь тэдгээрийг кибер хамгаалалтыг хурдасгах, экосистемийг бэхжүүлэхэд ашиглаж болохоор болгох явдал юм.

GPT‑5.5 нь кибер аюулгүй байдал зэрэг дэлхийн хамгийн хэцүү асуудлуудын заримыг шийдэж чадах AI руу чиглэсэн аажим боловч чухал алхам юм. 12-р сард GPT‑5.2‑ыг гаргахдаа бид загваруудаа кибер зорилгоор буруугаар ашиглах боломжийг хязгаарлахад шаардлагатай кибер хамгаалалтуудыг урьдчилан нэвтрүүлсэн; одоо GPT‑5.5‑тай хамт бид цаг хугацааны явцад тааруулан сайжруулах илүү хатуу кибер эрсдэлийн ангилагчдыг нэвтрүүлж байгаа бөгөөд зарим хэрэглэгчдэд энэ нь эхэндээ бага зэрэг төвөгтэй санагдаж магадгүй.

Манай загварууд аажмаар сайжирсаар ирсэн энэ хугацаанд бид хариу арга хэмжээг шат дараатай боловсруулж, тааруулж байх зуур кибер аюулгүй байдлыг Preparedness Framework(шинэ цонхонд нээгдэнэ)-ийнхаа нэг ангилал болгон олон жилийн турш тодорхойлсон. Ингэснээр утга учиртай кибер аюулгүй байдлын чадвартай загваруудыг хариуцлагатайгаар гаргах боломж бүрдэнэ.

  • Бид энэ түвшний кибер чадамжид зориулж салбартаа тэргүүлэх хамгаалалтуудыг нэвтрүүлж байна. Өнгөрсөн жил бид GPT‑5.2(шинэ цонхонд нээгдэнэ)-той хамт киберт тусгайлсан хамгаалалтуудыг анх танилцуулсан бөгөөд дараагийн нэвтрүүлэлтүүд дээр тэдгээрийг үргэлжлүүлэн тестэлж, сайжруулж, хөгжүүлсэн. GPT‑5.5‑ын хувьд бид өндөр эрсдэлтэй үйл ажиллагаа, эмзэг кибер хүсэлтүүдийн эргэн тойронд илүү чанга хяналтууд боловсруулж, давтан буруугаар ашиглахад хамгаалалт нэмсэн. Өргөн хүртээмж нь загварын аюулгүй байдал, баталгаажсан хэрэглээ, зөвшөөрөгдөхгүй ашиглалтыг хянах манай хөрөнгө оруулалтаар боломжтой болж байна. Бид эдгээр хамгаалалтын бат бөх байдлыг боловсруулах, турших, давтан сайжруулахын тулд олон сарын турш гадаад мэргэжилтнүүдтэй хамтран ажилласан. GPT‑5.5‑тай хамт бид хөгжүүлэгчид кодоо хялбар хамгаалах боломжийг хангахын зэрэгцээ хор хөнөөл учруулах магадлалтай кибер урсгалууд дээр илүү хүчтэй хяналтууд тавьж байна.
  • Бид бүх түвшинд кибер хамгаалалтыг хурдасгахын тулд хүртээмжийг өргөжүүлж байна. Бид киберт илүү зөвшөөрөмтгий загваруудаа Trusted Access for Cyber хөтөлбөрөөр, эхний ээлжид Codex-оор дамжуулан нээж байна. Үүнд эхний шатанд тодорхой итгэлийн дохио(шинэ цонхонд нээгдэнэ) хангах баталгаажсан хэрэглэгчдэд GPT‑5.5‑ын ахисан түвшний кибер аюулгүй байдлын чадамжид цөөн хязгаарлалттай өргөтгөсөн хандалт багтана. чухал дэд бүтцийг хамгаалах үүрэгтэй байгууллагууд GPT‑5.4‑Cyber зэрэг киберт илүү зөвшөөрөмтгий загваруудад хандахаар хүсэлт гаргаж болох бөгөөд эдгээр загварыг дотоод системээ хамгаалахад ашиглахын тулд хатуу аюулгүй байдлын шаардлага хангасан байх ёстой. Ингэснээр баталгаажсан хамгаалагчдын өргөн хүрээ хууль ёсны аюулгүй байдлын ажилд илүү чадвартай хэрэгсэл ашиглах боломжтой болох бөгөөд чухал хамгаалалтын чадамжид хандах эрхийг ардчилж, шаардлагагүй саадыг багасгана. Хэрэглэгчид баталгаажсан хамгаалалтын ажилд GPT‑5.5 ашиглах үед шаардлагагүй татгалзалтыг бууруулахын тулд chatgpt.com/cyber(шинэ цонхонд нээгдэнэ) дээр trusted access-д хүсэлт гаргаж болно.
  • Бид төрийн түншүүдтэй хамтран олон нийтэд чухал дэд бүтцийг хамгаалахад тусалж байна. Хүмүүсийн өдөр тутам түшиглэдэг системүүдийг хариуцдаг итгэмжлэгдсэн албан тушаалтнуудын хамгаалалтын ажлыг ахисан AI хэрхэн дэмжиж болохыг бид хамтран судалж байна. Үүнд татвар төлөгчдийн чухал өгөгдлийг хамгаалдаг дижитал системүүдээс эхлээд орон нутгийн нийгэмлэгүүдийн эрчим хүчний сүлжээ, усан хангамж хүртэл орно.

Бид GPT‑5.5‑ын био/хими болон кибер аюулгүй байдлын чадамжуудыг Preparedness Framework(шинэ цонхонд нээгдэнэ)-ийн дагуу High гэж үзэж байна. GPT‑5.5 нь Critical түвшний кибер чадамжид хүрээгүй ч манай үнэлгээ, тестүүд түүний кибер аюулгүй байдлын чадамж GPT‑5.4‑өөс нэг шат ахисан болохыг харуулсан.

Үүнээс гадна GPT‑5.5 нь гаргахаас өмнө манай аюулгүй байдал ба засаглалын бүрэн үйл явцыг давсан. Үүнд preparedness үнэлгээнүүд, домэйнд тусгайлсан тестүүд, ахисан биологи болон кибер аюулгүй байдлын чадамжид чиглэсэн шинэ зорилтот үнэлгээнүүд, мөн гадаад мэргэжилтнүүдтэй хийсэн бат бөх туршилтууд орно. Дэлгэрэнгүйг GPT‑5.5‑ын системийн карт(шинэ цонхонд нээгдэнэ)-аас үзнэ үү.

Энэ ажил нь манай илүү өргөн AI уян хатан байдлын хандлагыг илэрхийлж байна. Загварын чадамж ахихын хэрээр ийм хандлага шаардлагатай гэж бид үздэг. Бид хүчирхэг AI-г систем, байгууллага, олон нийтийг хамгаалахад ашиглаж буй хүмүүст нээлттэй байлгахыг хүсэж байна. Боломжтой зам нь trusted access, чадамжтай хамт өсөх бат бөх хамгаалалтууд, мөн ноцтой буруугаар ашиглалтыг илрүүлж, хариу үйлдэл үзүүлэх үйл ажиллагааны чадавх юм.

Бэлэн байдал ба үнэ

Өнөөдрөөс GPT‑5.5 нь ChatGPT болон Codex дахь Plus, Pro, Business, Enterprise хэрэглэгчдэд, харин GPT‑5.5 Pro нь ChatGPT дахь Pro, Business, Enterprise хэрэглэгчдэд шат дараатай нээгдэж байна. Бид GPT‑5.5 болон GPT‑5.5 Pro-г тун удахгүй API-д авчирна.

ChatGPT дээр GPT‑5.5 Thinking нь Plus, Pro, Business, Enterprise хэрэглэгчдэд нээлттэй. Илүү хэцүү асуулт болон илүү өндөр нарийвчлал шаардсан ажилд зориулагдсан GPT‑5.5 Pro нь Pro, Business, Enterprise хэрэглэгчдэд нээлттэй.

Codex дээр GPT‑5.5 нь 400K контекст цонхтойгоор Plus, Pro, Business, Enterprise, Edu, Go төлөвлөгөөнүүдэд нээлттэй. GPT‑5.5 нь мөн Fast горимд боломжтой бөгөөд 2.5x өртгөөр токенуудыг 1.5x хурдан үүсгэнэ.

API хөгжүүлэгчдэд зориулж gpt-5.5 нь тун удахгүй Responses болон Chat Completions API-уудад 1M input token тутамд $5, 1M output token тутамд $30 үнээр, 1M контекст цонхтойгоор боломжтой болно. Batch болон Flex үнэ нь стандарт API үнээс хагас, харин Priority боловсруулалт нь стандарт үнээс 2.5x байна. Мөн бид API-д илүү өндөр нарийвчлалтай gpt-5.5-pro-г 1M input token тутамд $30, 1M output token тутамд $180 үнээр гаргана. Дэлгэрэнгүйг үнэний хуудас-аас үзнэ үү.

GPT‑5.5 нь GPT‑5.4‑өөс үнэтэй хэдий ч илүү ухаалаг бөгөөд токены үр ашиг 훨씬 өндөр. Codex дээр бид туршлагыг нягт тохируулсан тул GPT‑5.5 нь ихэнх хэрэглэгчдэд GPT‑5.4‑өөс цөөн токеноор илүү сайн үр дүн өгдөг бөгөөд үүний зэрэгцээ захиалгын түвшин бүрт өгөөмөр хэрэглээг хадгалсаар байна.

Үнэлгээнүүд

Кодчилол

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (Нийтийн) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Дотоод)

73.1%

68.5%

-

-

-

-

*Лабораториуд энэ үнэлгээн дээр цээжилсэн байж болзошгүй нотолгоо(шинэ цонхонд нээгдэнэ) байгааг тэмдэглэсэн

Мэргэжлийн

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (ялалт эсвэл тэнцээ)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

Хөрөнгө оруулалтын банкны моделчлолын даалгаврууд (Дотоод)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

Компьютер ашиглалт ба хараа

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro (хэрэгсэлгүй)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro (хэрэгсэлтэй)

83.2%

82.1%

-

-

-

-

Хэрэгсэл ашиглалт

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(анхны өгөгдлүүд)

98.0%

92.8%

-

-

-

-

** MCP Atlas: Scale AI-ийн 2026 оны 4-р сарын хамгийн сүүлийн шинэчлэлтийн дараах үр дүн. 
*** Tau2-bench telecom: 5.5 ба 5.4-ийн үр дүнг анхны өгөгдлөөр, өөрөөр хэлбэл өгөгдөл тохируулгагүйгээр авсан. Энэ нь өгөгдөл тохируулгатайгаар үнэлэгдсэн бусад лабораторийн үр дүнг оруулаагүй.

Академик

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath түвшин 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath түвшин 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Humanity's Last Exam (хэрэгсэлгүй)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam (хэрэгсэлтэй)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

Кибер аюулгүй байдал

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture-the-Flags сорилтын даалгаврууд (Дотоод)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** системийн картуудад ашигладаг хамгийн хэцүү CTF-үүдийг нэмэлт хүнд сорилтуудаар өргөжүүлсэн хувилбар.

Урт контекст

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1 сая f1

45.4%

9.4%

-

-

41.2% (Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1 сая f1

58.5%

44.4%

-

-

72.0% (Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

-

-

32.2%

-

Хийсвэр сэтгэн бодох

Үнэлгээ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (Баталгаажсан)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2 (Баталгаажсан)

85.0%

73.3%

-

83.3%

75.8%

77.1%

GPT‑ийн үнэлгээнүүдийг reasoning effort-ийг xhigh болгож ажиллуулсан бөгөөд судалгааны орчинд явуулсан тул зарим тохиолдолд үйлдвэрлэлийн ChatGPT‑ээс ялимгүй өөр гаралт өгч болзошгүй.

Зохиогч

OpenAI