Үндсэн агуулга руу алгасах
OpenAI

2026 оны гуравдугаар сарын 17

КомпаниБүтээгдэхүүн

GPT‑5.4 mini ба nano-г танилцуулж байна

Кодчилол ба дэд-агентуудад оновчлогдсон хурдан, үр ашигтай загварууд

Ачаалж байна…

Өнөөдөр бид хамгийн чадварлаг жижиг загварууд болох GPT‑5.4 mini болон nano-г танилцуулж байна. Эдгээр нь GPT‑5.4‑ийн олон давуу талыг өндөр хэмжээний ачаалалд зориулагдсан илүү хурдан, үр ашигтай загваруудад авчирч байна.

GPT‑5.4 mini нь кодчилол, сэтгэн бодох, multimodal ойлголт, хэрэгсэл ашиглалт зэрэгт GPT‑5 mini-ээс мэдэгдэхүйц сайжирч, 2 дахинаас илүү хурдан ажилладаг. Мөн SWE-Bench Pro болон OSWorld-Verified зэрэг хэд хэдэн үнэлгээнд илүү том GPT‑5.4 загварын гүйцэтгэлд ойртож байна.

GPT‑5.4 nano нь хурд ба өртөг хамгийн чухал байдаг даалгавруудад зориулсан GPT‑5.4‑ийн хамгийн жижиг, хамгийн хямд хувилбар юм. Мөн GPT‑5 nano-оос ч мэдэгдэхүйц ахисан. Бид үүнийг ангилал, өгөгдөл ялгалт, эрэмбэлэлт, мөн илүү энгийн туслах ажлуудыг гүйцэтгэдэг кодчиллын дэд-агентуудад санал болгож байна.

Эдгээр загварууд нь саатал нь бүтээгдэхүүний туршлагыг шууд тодорхойлдог төрлийн ачааллуудад зориулагдсан: мэдрэмжтэй байх ёстой кодчиллын туслахууд, туслах ажлуудыг хурдан гүйцэтгэдэг дэд-агентууд, дэлгэцийн агшинг авч тайлбарладаг компьютер ашигладаг системүүд, мөн зургууд дээр бодит цагт сэтгэн бодож чаддаг multimodal хэрэглээнүүд. Ийм нөхцөлд хамгийн сайн загвар нь заавал хамгийн том нь биш—харин хурдан хариулж, хэрэгслийг найдвартай ашиглаж, нарийн төвөгтэй мэргэжлийн даалгавруудад сайн ажиллаж чаддаг нь байдаг.

GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-Bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Toolathlon54.6%42.9%35.5%26.9%
GPQA Diamond93.0%88.0%82.8%81.6%
OSWorld-Verified75.0%72.1%39.0%42.0%

1 GPT‑5 mini-д боломжтой хамгийн өндөр reasoning_effort нь 'high' юм.

GPT‑5.4 mini болон nano-г өөрсдийн ажлын урсгалд туршсаны дараа манай хэрэглэгчид ингэж үзэж байна:

“GPT-5.4 mini нь энэ ангиллын загварт зориулсан төгсгөлөөс төгсгөл хүртэлх хүчтэй гүйцэтгэлийг үзүүлдэг. Бидний үнэлгээнд энэ нь хэд хэдэн гаралтын даалгавар болон citation recall дээр өрсөлдөгч загваруудтай тэнцэж эсвэл давсан бөгөөд үүнийг хавьгүй бага өртгөөр хийсэн. Мөн илүү том GPT-5.4 загвараас өндөр end-to-end pass rate болон илүү хүчтэй эх сурвалжийн холболтыг үзүүлсэн.”
— Hebbia-ийн CTO Aabhas Sharma

Кодчилол

GPT‑5.4 mini ба nano нь хурдан давталтаас ашиг хүртдэг кодчиллын ажлын урсгалд онцгой үр дүнтэй. Загварууд нь чиглэсэн засвар, кодын сангийн навигаци, front-end үүсгэх, алдаа засварлах мөчлөгүүдийг бага саатлаар гүйцэтгэдэг тул илүү хурдан, бага өртгөөр дуусгах шаардлагатай кодчиллын даалгавруудад маш тохиромжтой.

Бенчмаркуудад GPT‑5.4 mini нь ижил төстэй саатал дээр GPT‑5‑mini‑ийг тогтмол давж, 훨씬 илүү хурдан ажиллахын зэрэгцээ GPT‑5.4 түвшний pass rate-д ойртож, кодчиллын ажлын урсгалд гүйцэтгэл-саатлын хамгийн хүчтэй харьцаануудын нэгийг үзүүлдэг.

Бид загваруудынхаа продакшн орчин дахь зан төлөвийг харж, үүнийг оффлайнаар симуляцлан саатлыг тооцоолдог. Саатлын тооцоонд tool call үргэлжлэх хугацаа (код гүйцэтгэх хугацаа), дээжлэгдсэн токенууд, оролтын токенууд багтана. Бодит орчны саатал ихээхэн өөр байж болох бөгөөд манай симуляцад тусгагдаагүй олон хүчин зүйлээс шалтгаална. Үүнтэй адил, өртгийг бичиж байх үеийн эдгээр загваруудын API үнийн дагуу тооцоолсон. Өртөг цаашид өөрчлөгдөж болно. Сэтгэн бодох түвшингүүдийг low-оос xhigh хүртэл хамруулсан.

Дэд-агентууд

GPT‑5.4 mini нь өөр өөр хэмжээний загваруудыг хослуулдаг системүүдэд мөн маш тохиромжтой. Жишээлбэл, Codex-д GPT‑5.4 шиг том загвар төлөвлөлт, уялдуулалт, эцсийн дүгнэлтийг хариуцаж, харин кодын сан хайх, том файл хянах, эсвэл дэмжих баримт бичгүүд боловсруулах зэрэг нарийвтар дэд даалгавруудыг зэрэг гүйцэтгэдэг GPT‑5.4 mini дэд-агентуудад шилжүүлж болно. Codex дахь дэд-агентууд хэрхэн ажилладгийг баримт бичгээс(шинэ цонхонд нээгдэнэ) үзнэ үү.

Жижиг загварууд илүү хурдан, илүү чадвартай болох тусам энэ хэв маяг илүү ашигтай болдог. Бүх зүйлд нэг загвар ашиглахын оронд хөгжүүлэгчид том загварууд юу хийхээ шийдэж, жижиг загварууд хурдан бөгөөд өргөн хэмжээнд гүйцэтгэдэг системүүдийг зохиож чадна. GPT‑5.4 mini нь ийм төрлийн ажлын урсгалд зориулсан бидний хамгийн хүчтэй mini загвар юм.

Компьютер ашиглалт

GPT‑5.4 mini нь multimodal даалгавруудад, ялангуяа компьютер ашиглалттай холбоотой ажлуудад мөн хүчтэй. Загвар нь нягт хэрэглэгчийн интерфэйсүүдийн дэлгэцийн агшинг хурдан тайлбарлаж, компьютер ашиглалтын даалгавруудыг хурдтай гүйцэтгэж чадна. OSWorld-Verified дээр GPT‑5.4 mini нь GPT‑5.4‑т ойртож, GPT‑5 mini-ийг мэдэгдэхүйц давдаг.

Бэлэн байдал ба үнэ

GPT‑5.4 mini нь өнөөдрөөс API, Codex, ChatGPT‑д боломжтой.

API-д GPT‑5.4 mini нь текст ба зураг оролт, хэрэгсэл ашиглалт, функц дуудах, вэб хайлт, файл хайлт, компьютер ашиглалт, чадваруудыг дэмждэг. Энэ нь 400k контекст цонхтой бөгөөд 1M оролтын токен тутамд $0.75, 1M гаралтын токен тутамд $4.50 үнэтэй.

Codex-д GPT‑5.4 mini нь Codex апп, CLI, IDE өргөтгөл, вэб дээр боломжтой. Энэ нь GPT‑5.4 квотын зөвхөн 30%-ийг ашигладаг тул хөгжүүлэгчид Codex-д илүү энгийн кодчиллын даалгавруудыг ойролцоогоор гуравны нэг өртгөөр хурдан гүйцэтгэх боломжтой. Мөн Codex нь GPT‑5.4 mini дэд-агентуудад даалгавар шилжүүлж, сэтгэн бодох шаардлага багатай ажлуудыг хямд загвар дээр ажиллуулж чадна.

ChatGPT‑д GPT‑5.4 mini нь + цэсний “Thinking” функцээр Free болон Go хэрэглэгчдэд боломжтой. Бусад бүх хэрэглэгчийн хувьд GPT‑5.4 mini нь GPT‑5.4 Thinking-ийн rate limit fallback байдлаар боломжтой.

GPT‑5.4 nano нь зөвхөн API-д боломжтой бөгөөд 1M оролтын токен тутамд $0.20, 1M гаралтын токен тутамд $1.25 үнэтэй.

Загваруудын хамгаалалтын арга хэмжээний талаар дэлгэрэнгүй мэдээлэл авахыг хүсвэл манай Deployment Safety Hub(шинэ цонхонд нээгдэнэ) дээрх System Card нэмэлтийг үзнэ үү.

Coding
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Tool-calling
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
MCP Atlas67.2%57.7%56.1%47.6%
Toolathlon54.6%42.9%35.5%26.9%
τ2-bench (telecom)98.9%93.4%92.5%74.1%
Intelligence
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
GPQA Diamond93.0%88.0%82.8%81.6%
HLE w/ tool52.1%41.5%37.7%31.6%
HLE w/o tools39.8%28.2%24.3%18.3%
MM / Vision / CUA
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OSWorld-Verified75.0%72.1%39.0%42.0%
MMMUPro w/ Python81.5%78.0%69.5%74.1%
MMMUPro81.2%76.6%66.1%67.5%
OmniDocBench 1.5 (no tools)² — lower is better0.1090.12630.24190.1791
Long context
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K86.0%47.7%44.2%35.1%
OpenAI MRCR v2 8-needle 128K–256K79.3%33.6%33.1%19.4%
Graphwalks BFS 0K–128K93.1%76.3%73.4%73.4%
Graphwalks parents 0–128K (accuracy)89.8%71.5%50.8%64.3%

1 GPT‑5 mini-д боломжтой хамгийн өндөр reasoning_effort нь 'high' юм.

2 Overall Edit Distance. OmniDocBench-ийг reasoning_effort-ийг 'none' болгож ажиллуулсан нь бага өртөг, бага саатлын гүйцэтгэлийг тусгах зорилготой.

Зохиогч

OpenAI