Үндсэн агуулга руу алгасах
OpenAI

2025 оны наймдугаар сарын 7

Бүтээгдэхүүн

Хөгжүүлэгчдэд зориулсан GPT‑5-ийг танилцуулж байна

Кодлох болон агентлаг даалгаварт зориулсан хамгийн шилдэг загвар.

Ачаалж байна…

Танилцуулга

Өнөөдөр бид GPT‑5‑ийг API платформ дээрээ гаргаж байна—кодлох болон агентлаг даалгаварт зориулсан өнөөдрийг хүртэлх хамгийн сайн загвар маань.

GPT‑5 нь гол кодлох benchmark-ууд дээр хамгийн сүүлийн үеийн (SOTA) үзүүлэлттэй бөгөөд SWE-bench Verified дээр 74.9%, Aider polyglot дээр 88% оноо авдаг. Бид GPT‑5‑ийг жинхэнэ кодлох хамтрагч байхаар сургасан. Энэ нь өндөр чанартай код гаргах болон алдаа засах, код засварлах, төвөгтэй кодын сангийн талаар асуултад хариулах зэрэг даалгаварт онцгой сайн. Загвар нь чиглүүлж болдог, хамтран ажиллахад тохиромжтой—маш дэлгэрэнгүй зааврыг өндөр нарийвчлалтай дагаж чадна, мөн хэрэгсэл дуудах бүрийн өмнө болон хооронд өөрийн үйлдлийн талаар урьдчилсан тайлбар өгч чадна. Мөн энэ загвар frontend кодчилолд ч онцгой бөгөөд дотоод туршилтаар frontend вэб хөгжүүлэлт дээр OpenAI o3‑ийг 70% тохиолдолд давсан.

Бид GPT‑5‑ийг бодит ертөнцийн кодлох даалгаврууд дээр, стартап болон байгууллагын эрт хэрэглэгчидтэй хамтран сургасан. Cursor GPT‑5‑ийг “[тэдний] ашигласан хамгийн ухаалаг загвар” бөгөөд “гайхалтай ухаалаг, чиглүүлэхэд амархан, бүр бусад загваруудад харагдаагүй зан төрхтэй” гэж хэлсэн. Windsurf GPT‑5 нь тэдний үнэлгээнүүд дээр SOTA бөгөөд “бусад хил хязгаар загваруудаас хэрэгсэл дуудах алдааны хувь нь хоёр дахин бага” гэж хуваалцсан. Vercel “энэ бол гоо зүйн мэдрэмж болон кодын чанарын аль алинд дээд түвшний гүйцэтгэлтэй, өөрийн гэсэн ангилалд орсон хамгийн шилдэг frontend AI загвар” гэж хэлсэн.

GPT‑5 нь мөн урт хугацаанд үргэлжлэх агентлаг даалгаварт онцгой бөгөөд ердөө 2 сарын өмнө гарсан хэрэгсэл дуудах benchmark болох τ2-bench telecom дээр SOTA үр дүн (96.7%) үзүүлсэн. GPT‑5‑ийн сайжруулсан хэрэгслийн оюун чадвар нь чигээ алдахгүйгээр дараалсан болон зэрэгцээ олон арван хэрэгсэл дуудахыг найдвартай холбох боломж олгодог тул энэ нь бодит ертөнцийн төвөгтэй даалгавруудыг эхнээс нь дуустал гүйцэтгэхэд 훨씬 илүү сайн болгож байна. Мөн хэрэгслийн зааврыг илүү нарийн дагаж, хэрэгслийн алдаатай илүү сайн харьцаж, урт контексттэй агуулга татан авахад онцгой. Manus GPT‑5 “[тэдний] дотоод benchmark-ууд дээр нэг загвараас өмнө нь харж байгаагүй хамгийн сайн гүйцэтгэлийг үзүүлсэн” гэж хэлсэн. Notion “[загварын] хурдан хариу, ялангуяа бага сэтгэн бодох горимд, нэг оролдлогоор төвөгтэй даалгавар шийдэх хэрэгтэй үед GPT‑5‑ийг хамгийн тохиромжтой загвар болгодог” гэж хэлсэн. Inditex “[GPT‑5]‑ийг үнэхээр ялгаруулдаг зүйл нь түүний сэтгэн бодох гүн юм: бодит сэдвийн ойлголтыг тусгасан нарийн, олон давхаргат хариунууд” гэж хуваалцсан.

Бид API-даа хөгжүүлэгчдэд загварын хариуг илүү сайн хянах боломж өгөх шинэ боломжуудыг танилцуулж байна. GPT‑5 нь хариултууд богино, гол цэгтээ эсвэл урт, иж бүрэн байхыг хянахад туслах шинэ verbosity параметрийг (утгууд: low, medium, high) дэмждэг. GPT‑5‑ийн reasoning_effort параметр одоо хамгийн бага утга авч болох бөгөөд ингэснээр эхлээд өргөн сэтгэн бодолгүйгээр хариуг хурдан буцаан авах боломжтой. Мөн бид шинэ төрлийн хэрэгсэл—custom tools—нэмсэн бөгөөд энэ нь GPT‑5‑д JSON биш энгийн текстээр хэрэгсэл дуудах боломж олгодог. Custom tools нь хөгжүүлэгчийн өгсөн context-free grammar-аар хязгаарлахыг дэмждэг.

Бид GPT‑5‑ийг API-д gpt-5, gpt-5-mini, gpt-5-nano гэсэн гурван хэмжээтэйгээр гаргаж байна—ингэснээр хөгжүүлэгчид гүйцэтгэл, өртөг, саатлын хооронд илүү уян хатан сонголт хийх боломжтой. ChatGPT дахь GPT‑5 нь сэтгэн бодох, сэтгэн боддоггүй, болон чиглүүлэгч загваруудын систем байдаг бол API платформ дахь GPT‑5 нь ChatGPT дахь хамгийн их гүйцэтгэлийг хангадаг сэтгэн бодох загвар юм. Онцлон хэлэхэд, хамгийн бага сэтгэн бодолтой GPT‑5 нь ChatGPT дахь сэтгэн боддоггүй загвараас өөр загвар бөгөөд хөгжүүлэгчдэд илүү сайн тааруулсан. ChatGPT‑д ашиглагддаг сэтгэн боддоггүй загвар нь gpt-5-chat-latest хэлбэрээр боломжтой.

ChatGPT дахь GPT‑5‑ийн талаар уншиж, ChatGPT‑ийн бусад сайжруулалтын талаар илүү ихийг мэдэхийг хүсвэл манай судалгааны блог-ийг үзнэ үү. Байгууллагууд GPT‑5‑ийг хэрхэн ашиглахдаа догдолж байгааг илүү ихийг мэдэхийг хүсвэл манай байгууллагын блог-ийг үзнэ үү.

Кодлох

GPT‑5 бол бидний гаргасан хамгийн хүчтэй кодлох загвар. Энэ нь кодлох benchmark болон бодит хэрэглээний хувилбарууд дээр o3‑ийг давдаг бөгөөд Cursor, Windsurf, GitHub Copilot, Codex CLI зэрэг агентлаг кодлох бүтээгдэхүүнүүдэд гялалзахаар fine-tune хийгдсэн. GPT‑5 манай alpha туршигчдыг гайхшруулж, тэдний олон хувийн дотоод үнэлгээн дээр дээд амжилт тогтоосон.

Бодит кодлох даалгаврууд дээрх GPT‑5‑ийн эрт үеийн санал хүсэлт

“GPT-5 бол бидний ашиглаж байсан хамгийн ухаалаг кодлох загвар. Манай баг GPT-5-ийг гайхалтай ухаалаг, чиглүүлэхэд амархан, бүр бусад ямар ч загварт байгаагүй зан төрхтэй гэж олж мэдсэн. Энэ нь зөвхөн зальтай, гүн нуугдсан алдаануудыг илрүүлээд зогсохгүй, урт хугацааны олон ээлжтэй арын агентуудыг ажиллуулж, төвөгтэй даалгавруудыг эцэст нь хүртэл дуусгаж чадна—өмнө нь бусад загварууд гацдаг байсан төрлийн асуудлуудыг. Энэ нь PRs-ийн хүрээ тогтоох, төлөвлөхөөс эхлээд бүрэн end-to-end build дуусгах хүртэл бидний өдөр тутмын үндсэн хэрэгсэл болсон.”
Cursor-ийн хамтран үүсгэн байгуулагч бөгөөд CEO Майкл Труэлл

Бодит ертөнцийн программ хангамжийн инженерчлэлийн даалгаварт суурилсан SWE-bench Verified дээр GPT‑5 74.9% оноо авсан нь o3‑ийн 69.1%-аас өссөн үзүүлэлт юм. Онцлоход, GPT‑5 энэ өндөр оноог илүү үр ашиг, хурдтайгаар авдаг: өндөр сэтгэн бодох хүчин чармайлттай o3‑тэй харьцуулахад GPT‑5 22%-иар цөөн гаралтын токен, 45%-иар цөөн хэрэгсэл дуудалт ашигладаг.

SWE-bench Verified-д загварт кодын репозитор болон issue-ийн тайлбар өгөгдөж, уг асуудлыг шийдэх patch үүсгэх ёстой. Текст шошгууд нь сэтгэн бодох хүчин чармайлтыг илэрхийлнэ. Манай оноонууд нь шийдлүүд нь манай дэд бүтэц дээр найдвартай pass болоогүй 500 асуудлын 23-ыг хассан. GPT‑5‑д шийдлүүдийг нягт баталгаажуулахыг онцолсон богино өгөгдөл өгсөн; ижил өгөгдөл o3‑д ашиг тусаа өгөөгүй.

Код засварлах үнэлгээ болох Aider polyglot дээр GPT‑5 88%-ийн шинэ дээд амжилт тогтоосон нь o3‑тэй харьцуулахад алдааны хувийг гуравны нэгээр бууруулсан үзүүлэлт юм.

Aider polygot(шинэ цонхонд нээгдэнэ) (diff)-д загварт Exercism-ээс кодлох дасгал өгч, шийдлийг нь кодын diff хэлбэрээр бичих ёстой. Сэтгэн бодох загваруудыг өндөр сэтгэн бодох хүчин чармайлтаар ажиллуулсан.

Мөн бид GPT‑5‑ийг кодын сан руу гүнзгий орж, янз бүрийн хэсгүүд хэрхэн ажилладаг эсвэл хоорондоо хэрхэн уялддаг тухай асуултад хариулахдаа маш сайн гэдгийг олж мэдсэн. OpenAI-ийн бататгах сургалтын стек шиг төвөгтэй кодын санд GPT‑5 нь манай кодын талаар сэтгэн бодож, асуултад хариулахад тусалж, бидний өдөр тутмын ажлыг хурдасгаж байна.

Фронтенд инженерчлэл

Вэб аппуудын frontend код гаргах үед GPT‑5 нь илүү гоо зүйн мэдрэмжтэй, зоримог, бас нарийвчлалтай. o3‑тай зэрэгцүүлэн харьцуулсан туршилтад GPT‑5‑ийг манай туршигчид 70% тохиолдолд илүүд үзсэн.

GPT‑5 ганц өгөгдлөөр юу хийж чадахыг харуулах хөгжилтэй, сонгон авсан зарим жишээ энд байна:

Өгөгдөл: Кофе сонирхогчдод сард $200-ын захиалгаар тоног төхөөрөмж түрээс болон кофе шарах, төгс эспрессо бүтээх дасгалжуулалт санал болгодог үйлчилгээний хувьд үзэсгэлэнтэй, бодит мэт landing page хийгээрэй. Зорилтот хэрэглэгч нь Bay Area-д амьдардаг, дунд насны, магадгүй технологийн салбарт ажилладаг, боловсролтой, чөлөөт орлоготой, кофе урлаг ба шинжлэх ухаанд дуртай хүн байна. 6 сарын бүртгэлд хөрвөлтийг оновчлоорой.

GPT‑5‑ийн илүү олон жишээг манай галерейгаас эндээс(шинэ цонхонд нээгдэнэ) үзнэ үү.

Кодлох хамтын ажиллагаа

GPT‑5 нь ялангуяа Cursor, Windsurf, GitHub Copilot, Codex CLI зэрэг агентлаг кодлох бүтээгдэхүүнүүдэд илүү сайн хамтрагч болсон. Ажиллаж байхдаа GPT‑5 хэрэгсэл дуудалтын хооронд төлөвлөгөө, шинэчлэл, товч дүгнэлт гаргаж чадна. Манай өмнөх загваруудтай харьцуулахад GPT‑5 нь таны зөвшөөрлийг хүлээн түр зогсолгүй, эсвэл өндөр төвөгшлөөс цэрвэхгүйгээр зоримог даалгавруудыг идэвхтэй дуусгахад илүү сайн.

GPT‑5 төвөгтэй даалгаврыг хэрхэн шийдэж байгааг харуулах нэг жишээ энд байна (энэ тохиолдолд ресторанд зориулсан вэбсайт бүтээж байгаа):

Хэрэглэгч рестораныхаа вэбсайтыг хүссэний дараа GPT‑5 хурдан төлөвлөгөө хуваалцаж, аппын суурь бүтцийг босгож, хамаарлуудыг суулгаж, сайтын агуулгыг үүсгэж, компиляцийн алдаа байгаа эсэхийг шалгахын тулд build ажиллуулж, хийсэн ажлаа дүгнэж, дараагийн боломжит алхмуудыг санал болгодог. Таны хүлээлтийг багасгахын тулд энэ видеог ~3x хурдасгасан; вэбсайтыг бүтээх нийт хугацаа ойролцоогоор гурван минут байсан.

Агентлаг даалгаврууд

Агентлаг кодчиллоос цааш, GPT‑5 нь ерөнхийдөө агентлаг даалгавруудад илүү сайн. GPT‑5 нь заавар дагах (Scale MultiChallenge дээр 69.6%, o3‑mini‑аар үнэлүүлсэн) болон хэрэгсэл дуудах (τ2-bench telecom дээр 96.7%) benchmark-ууд дээр шинэ дээд амжилт тогтоосон. Сайжруулсан хэрэгслийн оюун чадвар нь GPT‑5‑д бодит ертөнцийн даалгавруудыг биелүүлэхийн тулд үйлдлүүдийг илүү найдвартайгаар холбоход тусалдаг.

Агентлаг даалгаврууд дээрх GPT‑5‑ийн эрт үеийн санал хүсэлт

“GPT-5 бол том үсрэлт. Энэ нь манай дотоод benchmark-ууд дээр нэг загвараас өмнө нь харж байгаагүй хамгийн сайн гүйцэтгэлийг үзүүлсэн. GPT-5 нь янз бүрийн агентлаг даалгавруудад—бид нэг ч мөр код өөрчлөхөөс эсвэл өгөгдөл тааруулахаас өмнө ч—онцгой байсан. Шинэ preamble-ууд болон хэрэгсэл ашиглалтыг илүү нарийн удирдах боломж нь манай агентуудын тогтвортой байдал, чиглүүлэгдэх чадварт мэдэгдэхүйц үсрэлт авчирсан.”
Manus-ийн хамтран үүсгэн байгуулагч бөгөөд ерөнхий эрдэмтэн Yichao ‘Peak’ Ji

Заавар дагах

GPT‑5 нь өмнөх аль ч загвараасаа илүү найдвартайгаар заавар дагаж, COLLIE, Scale MultiChallenge болон манай дотоод заавар дагах үнэлгээнд өндөр оноо авдаг.

COLLIE(шинэ цонхонд нээгдэнэ)-д загварууд янз бүрийн хязгаарлалтыг хангасан текст бичих ёстой. Scale MultiChallenge(шинэ цонхонд нээгдэнэ)-д загваруудад өмнөх зурвасуудаас дөрвөн төрлийн мэдээллийг зөв ашиглах олон ээлжтэй яриан дээр сорилт өгдөг. Манай оноонууд o3‑mini‑ийг үнэлэгч болгон ашигласнаас гарсан бөгөөд энэ нь GPT‑4o‑оос илүү нарийвчлалтай байсан. Манай дотоод OpenAI API заавар дагах үнэлгээнд загварууд бодит хөгжүүлэгчдийн санал хүсэлтээс гаргасан хэцүү заавруудыг дагах ёстой. Сэтгэн бодох загваруудыг өндөр сэтгэн бодох хүчин чармайлтаар ажиллуулсан.

Хэрэгсэл дуудах

Бид хөгжүүлэгчдэд чухал байдаг талуудаар хэрэгсэл дуудах чадварыг сайжруулахын тулд их ажилласан. GPT‑5 нь хэрэгслийн зааврыг дагахдаа илүү сайн, хэрэгслийн алдаатай ажиллахдаа илүү сайн, мөн дараалсан эсвэл зэрэгцээ олон хэрэгсэл дуудалтыг идэвхтэй хийхдээ илүү сайн. Заавар өгсөн тохиолдолд GPT‑5 нь урт агентлаг даалгаврын явцад хэрэглэгчдэд ахиц дэвшлийн талаар мэдээлэхийн тулд хэрэгсэл дуудалтын өмнө болон хооронд preamble мессежүүд гаргаж чадна.

Хоёр сарын өмнө Sierra.ai-аас τ2-bench telecom-ийг нийтэлсэн бөгөөд энэ нь хэрэглэгчид өөрчилж болох орчны төлөвтэй харилцах үед хэлний загварын гүйцэтгэл хэрхэн мэдэгдэхүйц буурдгийг тодруулсан сорилттой хэрэгсэл ашиглалтын benchmark байсан. Тэдний нийтлэл(шинэ цонхонд нээгдэнэ)-д ямар ч загвар 49%-иас дээш оноо аваагүй. GPT‑5 97% авдаг.

τ2-bench(шинэ цонхонд нээгдэнэ)-д загвар нь хэрэглэгчтэй харилцаж, дэлхийн төлөв дээр үйлдэл хийж чадах хэрэглэгч байж болох нөхцөлд хэрэглэгчийн үйлчилгээний даалгаврыг биелүүлэхийн тулд хэрэгсэл ашиглах ёстой. Сэтгэн бодох загваруудыг өндөр сэтгэн бодох хүчин чармайлтаар ажиллуулсан.

GPT‑5 нь урт контекстийн гүйцэтгэл дээр ч хүчтэй сайжруулалт харуулж байна. Урт контексттэй мэдээлэл татан авалтыг хэмждэг OpenAI-MRCR дээр GPT‑5 нь o3 болон GPT‑4.1‑ийг давдаг бөгөөд оролтын урт нэмэгдэх тусам энэ зөрүү улам ихэсдэг.

OpenAI-MRCR(шинэ цонхонд нээгдэнэ) (multi-round co-reference resolution)-д ижил “needle” хэрэглэгчийн олон хүсэлтийг ижил төстэй хүсэлт, хариултын урт “haystack”-ууд дотор оруулж, загвараас i-р needle-ийн хариуг дахин гаргахыг хүсдэг. Mean match ratio нь загварын хариу болон зөв хариуны хоорондох дундаж мөр тааралтын харьцааг хэмждэг. 256k хамгийн их оролтын токентой цэгүүд нь 128k–256k оролтын токены дундажийг илэрхийлдэг, цааш нь мөн адил. Энд 256k нь 256 * 1,024 = 262,114 токеныг илэрхийлнэ. Сэтгэн бодох загваруудыг өндөр сэтгэн бодох хүчин чармайлтаар ажиллуулсан.

Мөн бид урт контексттэй Q&A-г үнэлэх шинэ benchmark болох BrowseComp Long Context(шинэ цонхонд нээгдэнэ)-ийг нээлттэй эх болгож байна. Энэ benchmark-д загварт хэрэглэгчийн асуулга, холбогдох урт хайлтын үр дүнгийн жагсаалт өгөгдөж, тэр хайлтын үр дүнд тулгуурлан асуултад хариулах ёстой. Бид BrowseComp Long Context-ийг бодитой, хэцүү, мөн найдвартай зөв ground truth хариутай байхаар зохион бүтээсэн. 128K–256K токены оролт дээр GPT‑5 89% тохиолдолд зөв хариулт өгдөг.

API-д бүх GPT‑5 загварууд хамгийн ихдээ 272,000 оролтын токен хүлээн авч, хамгийн ихдээ 128,000 сэтгэн бодох ба гаралтын токен гаргаж чадна, ингэснээр нийт контекстийн урт 400,000 токен болно.

Баримт үнэн зөв байдал

GPT‑5 нь манай өмнөх загваруудаас илүү итгэл даахуйц. LongFact болон FactScore benchmark-уудын өгөгдөл дээр GPT‑5 нь o3‑оос ~80%-иар цөөн баримтын алдаа гаргадаг. Энэ нь зөв байдал чухал агентлаг хэрэглээнд—ялангуяа код, өгөгдөл, шийдвэр гаргалтад—илүү тохиромжтой болгодог.

Өндөр оноо муу гэсэн үг. LongFact(шинэ цонхонд нээгдэнэ) болон FActScore(шинэ цонхонд нээгдэнэ) нь нээлттэй төгсгөлтэй, баримт хайсан асуултуудаас бүрдэнэ. Бид эдгээр benchmark-уудын өгөгдөл дээрх хариунуудыг баримт шалгахын тулд хайлттай LLM-д суурилсан үнэлэгч ашиглаж, баримтын хувьд буруу мэдэгдлийн хувийг хэмждэг. Хэрэгжүүлэлт болон үнэлгээний дэлгэрэнгүйг системийн карт-аас олж болно. Сэтгэн бодох загваруудад өндөр сэтгэн бодох хүчин чармайлт ашигласан. Хайлт идэвхжээгүй байсан.

Ерөнхийдөө GPT‑5 нь өөрийн хязгаарлалтыг илүү сайн ухамсарладаг, гэнэтийн хүнд нөхцөлтэй илүү сайн харьцдаг байхаар сургасан. Мөн бид GPT‑5‑ийг эрүүл мэндийн асуултуудад 훨씬 илүү нарийвчлалтай байхаар сургасан (дэлгэрэнгүйг манай судалгааны блогт уншина уу). Бүх хэлний загварын адил эрсдэл өндөр үед GPT‑5‑ийн ажлыг баталгаажуулахыг бид зөвлөж байна.

Шинэ боломжууд

Хамгийн бага сэтгэн бодох хүчин чармайлт

Хөгжүүлэгчид API дахь reasoning_effort параметрээр GPT‑5‑ийн бодох хугацааг хянаж болно. Өмнөх утгууд болох low, medium (анхдагч), high-аас гадна GPT‑5 нь minimal-ийг дэмждэг бөгөөд энэ нь GPT‑5‑ийн сэтгэн бодлыг багасгаж хариуг хурдан буцаадаг.

Илүү өндөр reasoning_effort утгууд чанарыг дээдэлж, доод утгууд хурдыг дээдэлдэг. Бүх даалгавар нэмэлт сэтгэн бодлоос ижил хэмжээгээр ашиг хүртдэггүй тул таны чухалчилж буй хэрэглээний хувилбаруудад аль нь хамгийн сайн ажиллаж байгааг туршиж үзэхийг зөвлөж байна.

Жишээлбэл, low-оос дээш сэтгэн бодол нь харьцангуй энгийн урт контекст татан авалтад бага нэмэр болдог ч дүрслэлийн сэтгэн бодох benchmark болох CharXiv Reasoning(шинэ цонхонд нээгдэнэ)-д хэд хэдэн хувийн нэгж нэмдэг.

GPT‑5‑ийн сэтгэн бодох хүчин чармайлт нь өөр өөр даалгаварт өөр өөр ашиг өгдөг. CharXiv Reasoning-ийн хувьд GPT‑5‑д python хэрэгсэлд хандах эрх өгсөн.

Дэлгэрэнгүй түвшин

GPT‑5‑ийн хариултын анхдагч уртыг чиглүүлэхэд туслахын тулд бид verbosity гэсэн шинэ API параметрийг танилцуулсан бөгөөд энэ нь low, medium (анхдагч), high гэсэн утгуудтай. Хэрэв ил тод заавар verbosity параметрүүдтэй зөрчилдвөл ил тод заавар давуу эрхтэй. Жишээлбэл, хэрэв та GPT‑5‑оос “5 догол мөртэй эсээ бич” гэж хүсвэл verbosity түвшнээс үл хамааран загварын хариу үргэлж 5 догол мөр байх ёстой (гэхдээ догол мөрүүд нь өөрсдөө урт эсвэл богино байж болно).

Дэлгэрэнгүй=бага

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Дэлгэрэнгүй=дунд

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Дэлгэрэнгүй=өндөр

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Хэрэгсэл дуудалтын өмнөх preamble мессежүүд

Заавар өгсөн тохиолдолд GPT‑5 нь хэрэгсэл дуудалтын өмнө болон хооронд хэрэглэгчид харагдах preamble мессежүүд гаргана. Нууц сэтгэн бодох мессежүүдээс ялгаатай нь эдгээр харагдах мессежүүд нь GPT‑5‑д төлөвлөгөө, явцыг хэрэглэгчтэй хуваалцах боломж олгож, төгсгөлийн хэрэглэгчдэд түүний хандлага болон хэрэгсэл дуудалтын цаадах зорилгыг ойлгоход тусалдаг.

Custom tools

Бид GPT‑5‑д JSON биш энгийн текстээр хэрэгсэл дуудах боломж олгодог шинэ хэрэгслийн төрөл—custom tools—ийг танилцуулж байна. GPT‑5‑ийг custom tool форматыг дагахаар хязгаарлахын тулд хөгжүүлэгчид regex, эсвэл бүр илүү бүрэн тодорхойлсон context-free grammar(шинэ цонхонд нээгдэнэ) өгч болно.

Өмнө нь хөгжүүлэгч тодорхойлсон хэрэгслүүдийн интерфэйс маань тэдгээрийг JSON-оор дуудахыг шаарддаг байсан бөгөөд энэ нь вэб API болон ер нь хөгжүүлэгчдийн өргөн ашигладаг нийтлэг формат юм. Гэвч хүчинтэй JSON гаргахын тулд загвар бүх хашилт, backslash, шинэ мөр, бусад удирдлагын тэмдгүүдийг төгс escape хийх шаардлагатай. Манай загварууд JSON гаргахад сайн сурсан ч хэдэн зуун мөр код эсвэл 5 хуудас тайлан шиг урт оролт дээр алдаа гарах магадлал нэмэгддэг. Custom tools-ийн тусламжтайгаар GPT‑5 нь escape хийх шаардлагатай бүх тэмдэгтийг escape хийхгүйгээр хэрэгслийн оролтыг энгийн текстээр бичиж чадна.

SWE-bench Verified дээр JSON tools-ийн оронд custom tools ашиглахад GPT‑5 ойролцоогоор ижил оноо авдаг.

Аюулгүй байдал

GPT‑5 нь аюулгүй байдлын хил хязгаарыг урагшлуулж, илүү бат бөх, найдвартай, тусч загвар болсон. GPT‑5 нь манай өмнөх загваруудаас хийсвэрлэх магадлал мэдэгдэхүйц бага, хэрэглэгчид өөрийн үйлдэл ба чадвараа илүү шударгаар тайлбарладаг бөгөөд аюулгүй байдлын хүрээн дотор үлдэхийн зэрэгцээ боломжтой үед хамгийн тус дөхөмтэй хариуг өгдөг. Дэлгэрэнгүйг манай судалгааны блог-оос уншина уу.

Боломжит байдал ба үнэ

GPT‑5 одоо API платформ дээр gpt-5, gpt-5-mini, gpt-5-nano гэсэн гурван хэмжээтэйгээр боломжтой. Энэ нь Responses API, чат боловсруулах API дээр ашиглах боломжтой бөгөөд Codex CLI-д анхдагч сонголт юм. GPT‑5‑ийн үнэ 1M оролтын токенд $1.25, 1M гаралтын токенд $10; GPT‑5 mini-ийн үнэ 1M оролтын токенд $0.25, 1M гаралтын токенд $2; GPT‑5 nano-ийн үнэ 1M оролтын токенд $0.05, 1M гаралтын токенд $0.40 байна.

Эдгээр загварууд reasoning_effort болон verbosity API параметрүүд, мөн custom tools-ийг дэмждэг. Мөн зэрэгцээ хэрэгсэл дуудах, суурилуулсан хэрэгслүүд (вэб хайлт, файл хайлт, зураг үүсгэх гэх мэт), API-ийн үндсэн боломжууд (streaming, бүтцийн гаралт гэх мэт), мөн өгөгдөл кэшлэх болон Batch API зэрэг зардал хэмнэх боломжуудыг дэмждэг.

ChatGPT‑д ашиглагддаг GPT‑5‑ийн сэтгэн боддоггүй хувилбар нь API-д gpt-5-chat-latest хэлбэрээр боломжтой бөгөөд мөн 1M оролтын токенд $1.25, 1M гаралтын токенд $10 үнэтэй.

GPT‑5 нь мөн Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry зэрэг Microsoft платформууд даяар нэвтэрч байна.

Дэлгэрэнгүй benchmark-ууд

Оюун чадвар
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] Манай өмнөх блог нийтлэлд мэдээлсэн тоон үзүүлэлтүүдтэй багахан зөрүү байгаа, учир нь тэдгээрийг HLE-ийн өмнөх хувилбар дээр ажиллуулсан байсан.

Олон горимт
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
Кодлох
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$ 112 мян$ 75 мян$ 49 мян$ 86 мян$ 66 мян$ 34 мян$ 31 мян$ 9 мян
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] Манай дэд бүтэц дээр ажиллах боломжгүй байсан 23/500 асуудлыг бид хассан. Хасагдсан 23 даалгаврын бүрэн жагсаалт нь 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', болон 'sphinx-doc__sphinx-9367' юм.

Заавар дагах
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] Тэмдэглэл: MultiChallenge дахь анхдагч үнэлэгч (GPT-4o) загварын хариуг байнга буруу үнэлдэг болохыг бид олж харсан. Үнэлэгчийг o3-mini шиг сэтгэн бодох загвараар солих нь бидний шалгасан жишээнүүд дээр үнэлгээний нарийвчлалыг мэдэгдэхүйц сайжруулдаг.

Функц дуудах
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
Урт контекст
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
Хийсвэрлэл
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

Зохиогч

OpenAI