Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван нэгдүгээр сарын 13

Бүтээгдэхүүн

Хөгжүүлэгчдэд зориулсан GPT‑5.1‑ийг танилцуулж байна

Ачаалж байна…

Өнөөдөр бид API платформ дээр GPT‑5 цувралын дараагийн загвар болох GPT‑5.1‑ийг гаргаж байна. Энэ нь өргөн хүрээний агент шинжтэй болон кодчиллын ажлуудад оюун ухаан ба хурдыг тэнцвэржүүлдэг. GPT‑5.1 нь даалгаврын төвөгшлөөс шалтгаалан сэтгэхэд зарцуулах хугацаагаа динамикаар тохируулдаг тул өдөр тутмын энгийн ажлуудад загварыг мэдэгдэхүйц хурдан, токены хувьд илүү үр ашигтай болгодог. Мөн гүн сэтгэлгээ шаарддаггүй ажлуудад илүү хурдан хариулах “no reasoning” горимтой бөгөөд үүний зэрэгцээ GPT‑5.1‑ийн хил хязгаар түвшний оюун ухааныг хадгална.

GPT‑5.1‑ийг бүр илүү үр ашигтай болгохын тулд бид кэшийг 24 цаг хүртэл хадгалах боломжтой өргөтгөсөн өгөгдөл кэшлэхийг гаргаж байна. Ингэснээр дараагийн асуултуудад илүү хурдан, бага зардлаар хариулах боломж бүрдэнэ. Манай Priority Processing(шинэ цонхонд нээгдэнэ) хэрэглэгчид мөн GPT‑5‑тай харьцуулахад GPT‑5.1 дээр мэдэгдэхүйц хурдан гүйцэтгэлийг мэдрэх болно.

Кодчиллын хувьд бид Cursor, Cognition, Augment Code, Factory, Warp зэрэг стартапуудтай ойр хамтран GPT‑5.1‑ийн кодчиллын зан төлөв, чиглүүлэх чадвар, кодын чанарыг сайжруулсан. Ерөнхийдөө GPT‑5.1 нь код бичихэд ашиглахад илүү ойлгомжтой санагдаж, даалгавраа гүйцэтгэх явцдаа хэрэглэгчид харагдах шинэчлэлтүүдээр илүү сайн харилцдаг.

Эцэст нь бид GPT‑5.1‑тэй хамт хоёр шинэ хэрэгслийг танилцуулж байна: кодыг илүү найдвартай засварлахад зориулсан apply_patch хэрэгсэл болон загварт shell команд ажиллуулах боломж олгох shell хэрэгсэл.

GPT‑5.1 бол GPT‑5 цувралын дараагийн ахиц бөгөөд хөгжүүлэгчдэд найдвартай агент ажлын урсгал бүтээхэд туслах илүү ухаалаг, чадвартай загваруудад бид цаашид ч хөрөнгө оруулсаар байх болно.

Даалгавар бүрт үр ашигтай сэтгэн бодох

Дасан зохицох сэтгэн бодох

GPT‑5.1‑ийг илүү хурдан болгохын тулд бид түүнийг сэтгэж сургах аргаа үндсээр нь шинэчилсэн. Шууд ойлгомжтой ажлуудад GPT‑5.1 сэтгэхдээ цөөн токен зарцуулдаг тул бүтээгдэхүүний туршлага илүү хурдан, токены төлбөр бага болдог. Илүү их бодолт шаардсан хэцүү ажлуудад GPT‑5.1 нь найдвартай байдлыг дээд хэмжээнд хүргэхийн тулд сонголтуудыг судалж, ажлаа шалган тууштай ажилласаар байдаг.

Balyasny Asset Management(шинэ цонхонд нээгдэнэ) GPT‑5.1 нь “манай бүрэн динамик үнэлгээний цогцод GPT‑4.1 болон GPT‑5‑ыг хоёуланг нь давж, GPT‑5‑аас 2-3 дахин хурдан ажилласан” гэж хэлсэн. Мөн тэд хэрэгсэл их ашигладаг сэтгэн бодох ажлууд дээр GPT‑5.1 нь “төстэй эсвэл илүү чанартай байхад тэргүүлэх өрсөлдөгчдөөс тогтмол ойролцоогоор хагас токен хэрэглэсэн” гэж онцолсон. Үүнтэй адил AI даатгалын BPO Pace(шинэ цонхонд нээгдэнэ) мөн загварыг туршиж үзээд, тэдний агентууд “GPT‑5.1 дээр 50% хурдан ажиллаж, манай үнэлгээнүүд дээр GPT‑5 болон бусад тэргүүлэх загваруудын нарийвчлалыг давсан” гэжээ.

GPT‑5.1 нь GPT‑5‑аас сэтгэх хугацаагаа илүү динамикаар өөрчилдөг. ChatGPT даалгаврын төлөөлөх тархалт дээр GPT‑5.1 нь хялбар ажлуудыг, өндөр сэтгэн бодох хүчин чармайлттай үед ч, хавьгүй хурдан гүйцэтгэдэг.

Жишээ нь, “глобалаар суусан багцуудыг жагсаах npm командыг харуул” гэж асуухад GPT‑5.1 нь 10 секундын оронд 2 секундэд хариулдаг.

GPT-5 (Дунд) ~250 токен (~10 секунд) зарцуулна

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Дунд) ~50 токен (~2 секунд) зарцуулна

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  • Just package names: npm ls -g --depth=0
  • Including their install paths: npm ls -g

The first one is usually what you want.

Шинэ “no reasoning” горим

Одоо хөгжүүлэгчид reasoning_effort-ийг 'none' гэж тохируулснаар GPT‑5.1‑ийг сэтгэн бодохгүйгээр ашиглаж болно. Ингэснээр сааталд мэдрэмтгий хэрэглээнд энэ загвар нь сэтгэн бодохгүй загвар шиг ажиллах бөгөөд GPT‑5.1‑ийн өндөр оюун ухаан, дээрээс нь өндөр гүйцэтгэлтэй хэрэгсэл дуудах давуу талыг хадгална. 'minimal' reasoning-тэй GPT‑5‑тай харьцуулахад сэтгэн бодохгүй GPT‑5.1 нь параллель хэрэгсэл дуудах чадвар, кодчиллын даалгавар, заавар дагах, хайлтын хэрэгсэл ашиглах дээр илүү сайн бөгөөд манай API платформ дээр вэб хайлт(шинэ цонхонд нээгдэнэ)-ыг дэмждэг. Sierra(шинэ цонхонд нээгдэнэ) бодит орчны үнэлгээнүүд дээр GPT‑5.1‑ийн “no reasoning” горим нь “GPT‑5 minimal reasoning-тай харьцуулахад бага сааталтай хэрэгсэл дуудах гүйцэтгэл дээр 20% сайжруулалт” үзүүлсэн гэж хуваалцсан.

reasoning_effort-д 'none' гэсэн утгыг нэвтрүүлснээр хөгжүүлэгчид өөрийн хэрэглээнд хурд, өртөг, оюун ухааны тэнцвэрийг удирдах илүү уян хатан байдал, хяналттай боллоо. GPT‑5.1‑ийн анхдагч утга нь 'none' бөгөөд энэ нь сааталд мэдрэмтгий ачаалалд тохиромжтой. Илүү төвөгтэй ажлуудад 'low' эсвэл 'medium', харин оюун ухаан ба найдвартай байдал хурднаас илүү чухал үед 'high'-ийг сонгохыг бид зөвлөж байна.

Өргөтгөсөн өгөгдөл кэшлэх

Өргөтгөсөн кэшлэх нь өнөөдөр дэмжигддэг хэдхэн минутын оронд өгөгдлүүдийг кэшид 24 цаг хүртэл идэвхтэй байлгах замаар сэтгэн бодох үр ашгийг сайжруулдаг. Илүү урт хадгалалтын цонхтой болсноор дараагийн олон хүсэлт кэшлэгдсэн контекстыг ашиглаж чадна. Ингэснээр олон ээлжит чат, кодчиллын сешн, эсвэл мэдлэг татан авах ажлын урсгал зэрэг удаан үргэлжлэх харилцан үйлчлэлүүдэд бага саатал, буурсан өртөг, илүү жигд гүйцэтгэл бий болно.

Өгөгдөл кэшийн үнэ өөрчлөгдөөгүй бөгөөд кэшлэгдсэн оролтын токенууд кэшлэгдээгүй токеноос 90% хямд хэвээр, кэш бичих эсвэл хадгалах нэмэлт төлбөр байхгүй. GPT‑5.1‑тэй өргөтгөсөн кэшлэхийг ашиглахын тулд Responses эсвэл чат боловсруулах API дээр “prompt_cache_retention='24h'” параметрийг нэмнэ үү. Илүү дэлгэрэнгүйг өгөгдөл кэшлэх баримт бичиг(шинэ цонхонд нээгдэнэ)-ээс үзнэ үү.

Кодчилол

GPT‑5.1 нь GPT‑5‑ын кодчиллын чадварыг илүү сайн чиглүүлж болох кодчиллын зан төлөв, хэт их бодох нь багассан байдал, сайжирсан кодын чанар, хэрэгсэл дуудах дарааллын үеийн хэрэглэгчид чиглэсэн шинэчлэлтийн мэдэгдлүүд (preamble), мөн илүү ажиллагаатай frontend дизайнуудаар улам сайжруулсан—ялангуяа бага сэтгэн бодох хүчин чармайлтын үед.

Түргэн код засвар зэрэг энгийн кодчиллын ажлуудад GPT‑5.1‑ийн өндөр хурд нь нааш цааш хурдан давтан ажиллахыг илүү хялбар болгодог. GPT‑5.1‑ийн энгийн ажлууд дээрх хурд нь хэцүү ажлуудын гүйцэтгэлийг муутгадаггүй. SWE-bench Verified дээр GPT‑5.1 нь GPT‑5‑аас ч удаан ажиллаж, 76.3%-д хүрсэн.

SWE-bench Verified⁠-д загварт кодын репозитор болон issue тайлбар өгдөг бөгөөд тухайн issue-г шийдэх patch үүсгэх ёстой. Шошгууд нь сэтгэн бодох хүчин чармайлтыг заана. Нарийвчлалыг бүх 500 асуудлын дундажаар тооцсон. Бүх загвар JSON-д суурилсан apply_patch хэрэгсэлтэй harness ашигласан.

Бид цөөн хэдэн кодчиллын компаниас GPT‑5.1‑ийн талаар эрт үеийн санал хүсэлт авсан. Тэдний сэтгэгдлээс дурдвал:

  • Augment Code(шинэ цонхонд нээгдэнэ) GPT‑5.1‑ийг “дэмий үйлдэл багатай, илүү бодлоготой, илүү үр ашигтай сэтгэн боддог, даалгаварт илүү төвлөрдөг” гэж нэрлээд, “олон файлтай төслүүд дээр илүү зөв өөрчлөлт, илүү жигд татах хүсэлт, илүү хурдан давталт” харж байгаагаа хэлсэн.
  • Cline(шинэ цонхонд нээгдэнэ) өөрсдийн үнэлгээнүүдэд “GPT‑5.1 нь манай diff засварлах бенчмарк дээр 7%-ийн сайжруулалттайгаар SOTA хүрч, төвөгтэй кодчиллын ажлуудад онцгой найдвартайг харуулсан” гэж хуваалцсан.
  • CodeRabbit(шинэ цонхонд нээгдэнэ) GPT‑5.1‑ийг “PR хянан шалгалтад хамгийн түрүүнд сонгох загвар” гэж нэрлэсэн.
  • Cognition(шинэ цонхонд нээгдэнэ) GPT‑5.1 нь “таны юу хүсэж байгааг ойлгох, тантай хамтран ажлыг дуусгах дээр мэдэгдэхүйц дээр” гэж хэлсэн.
  • Factory(шинэ цонхонд нээгдэнэ) “GPT‑5.1 нь мэдэгдэхүйц шуурхай хариулт өгч, даалгаварт тааруулан сэтгэн бодох гүнээ тохируулж, хэт бодолтыг бууруулан, хөгжүүлэгчийн нийт туршлагыг сайжруулдаг” гэжээ.
  • Warp(шинэ цонхонд нээгдэнэ) GPT‑5.1‑ийг шинэ хэрэглэгчдийн анхдагч загвар болгож байгаа бөгөөд энэ нь “GPT‑5 цувралын авчирсан гайхалтай оюун ухааны өсөлт дээр тулгуурлахын зэрэгцээ 훨씬 илүү хариу үйлдэлтэй загвар” гэж хэлсэн.
“GPT 5.1 бол зүгээр нэг өөр LLM биш—жинхэнэ агент шинжтэй, миний туршиж үзсэн хамгийн байгалийн автономит загвар. Энэ нь яг л таны адил бичиж, таны адил кодлож, төвөгтэй зааврыг төвөггүй дагаж, front-end ажлуудад онцгой сайн ажиллан, таны одоогийн кодын санд цэгцтэй нийцдэг. Та Responses API дээр түүний бүрэн чадамжийг үнэхээр нээж чадна, мөн үүнийг манай IDE-д санал болгож байгаадаа бид баяртай байна.”
—JetBrains, AI хөгжүүлэх хэрэгслийн экосистемийн тэргүүн Денис Ширяев

GPT‑5.1 дэх шинэ хэрэгслүүд

Бид GPT‑5.1‑тэй хамт хөгжүүлэгчдэд Responses API дээр загвараас хамгийн ихийг авахад туслах хоёр шинэ хэрэгслийг танилцуулж байна: JSON escaping шаардлагагүйгээр кодын засварыг бүр ч найдвартай хийх чөлөөт хэлбэрийн apply_patch хэрэгсэл, мөн загварт таны локал машин дээр ажиллуулах команд бичих боломж олгодог shell хэрэгсэл.

Apply_patch хэрэгсэл

Чөлөөт хэлбэрийн apply_patch хэрэгсэл нь GPT‑5.1‑д structured diff ашиглан кодын санд файл үүсгэх, шинэчлэх, устгах боломж олгодог. Зүгээр нэг засвар санал болгохын оронд загвар patch үйлдлүүдийг гаргаж, програм тэдгээрийг хэрэгжүүлээд үр дүнг буцаан мэдээлдэг бөгөөд ингэснээр давталттай, олон алхамт код засварлах ажлын урсгал боломжтой болдог.

Responses API дээр apply_patch хэрэгслийг ашиглахын тулд tools массивт "tools": [{“type”: “apply_patch”}] байдлаар оруулаад, эсвэл оролтдоо файлын агуулгыг багтаах, эсвэл загварт файлын системтэй харилцах хэрэгслүүд өгөх хэрэгтэй. Загвар нь файлуудыг үүсгэх, шинэчлэх, устгахад зориулсан diff агуулсан apply_patch_call элементүүдийг үүсгэнэ, эдгээрийг та файлын систем дээрээ хэрэгжүүлнэ. apply_patch хэрэгсэлтэй хэрхэн интеграцчлах талаар дэлгэрэнгүйг манай хөгжүүлэгчийн баримт бичиг(шинэ цонхонд нээгдэнэ)-ээс үзнэ үү.

Shell хэрэгсэл

Shell хэрэгсэл нь загварт хяналттай командын мөрийн интерфейсээр дамжуулан локал компьютертэй харилцах боломж олгодог. Загвар shell командуудыг санал болгоно; хөгжүүлэгчийн интеграц тэдгээрийг ажиллуулаад гаралтуудыг буцаана. Ингэснээр загварууд системийг шалгаж, хэрэгслүүд ажиллуулж, даалгаврыг дуусгаж чадах хүртлээ өгөгдөл цуглуулах боломжтой энгийн төлөвлөх-гүйцэтгэх цикл бий болдог.

Responses API дээр shell хэрэгслийг ашиглахын тулд хөгжүүлэгчид үүнийг tools массивт "tools": [{“type”: “shell”}] байдлаар оруулж болно. API нь ажиллуулах shell командуудыг агуулсан "shell_call" элементүүдийг үүсгэнэ. Хөгжүүлэгчид командуудыг локал орчинд ажиллуулаад, дараагийн API хүсэлтэд гүйцэтгэлийн үр дүнг "shell_call_output" элементээр буцаан дамжуулна. Дэлгэрэнгүйг манай хөгжүүлэгчийн баримт бичиг(шинэ цонхонд нээгдэнэ)-ээс үзнэ үү.

Үнэ ба ашиглах боломж

GPT‑5.1 болон gpt-5.1-chat-latest нь API дээрх бүх төлбөртэй түвшний хөгжүүлэгчдэд боломжтой. Үнэ болон хурдны хязгаарууд(шинэ цонхонд нээгдэнэ) нь GPT‑5‑тай ижил. Мөн бид API дээр gpt-5.1-codex болон gpt-5.1-codex-mini-г гаргаж байна. GPT‑5.1 ихэнх кодчиллын ажлуудад онцгой сайн ч, gpt-5.1-codex загварууд нь Codex эсвэл Codex-тэй төстэй harness дээрх урт хугацааны, агент шинжтэй кодчиллын ажлуудад оновчлогдсон.

Хөгжүүлэгчид манай GPT‑5.1‑ийн хөгжүүлэгчийн баримт бичиг(шинэ цонхонд нээгдэнэ) болон загварын өгөгдөл өгөх гарын авлага(шинэ цонхонд нээгдэнэ)-ыг ашиглан бүтээж эхлэх боломжтой. Одоогоор бид API дахь GPT‑5‑ыг хүчингүй болгохоор төлөвлөөгүй байгаа бөгөөд ийм шийдвэр гаргавал хөгжүүлэгчдэд урьдчилан мэдэгдэнэ.

Дараа нь юу вэ

Бид бодит агент болон кодчиллын ажилд зориулсан хамгийн чадвартай, найдвартай загваруудыг давтан нэвтрүүлэхэд тууштай байна—үр ашигтай сэтгэдэг, хурдан давтан ажилладаг, төвөгтэй ажлуудыг гүйцэтгэхийн зэрэгцээ хөгжүүлэгчдийг урсгал дотор нь хадгалдаг загварууд. Дасан зохицох сэтгэн бодох, илүү хүчтэй кодчиллын гүйцэтгэл, хэрэглэгчид харагдах илүү ойлгомжтой шинэчлэлтүүд, мөн apply_patch ба shell зэрэг шинэ хэрэгслүүдийн ачаар GPT‑5.1 нь танд бага саадтай бүтээхэд туслахаар бүтээгдсэн. Мөн бид энэ чиглэлд хүчтэй хөрөнгө оруулалтаа үргэлжлүүлж байна: ойрын долоо хоног, саруудад илүү чадвартай агент болон кодчиллын загваруудыг хүлээж болно.

Хавсралт: Загварын үнэлгээнүүд

Үнэлгээ

GPT‑5.1 (high)

GPT‑5 (high)

SWE-bench Verified
(бүх 500 асуудал)

76.3%

72.8%

GPQA Diamond
(хэрэгсэлгүй)

88.1%

85.7%

AIME 2025
(хэрэгсэлгүй)

94.0%

94.6%

FrontierMath
(Python хэрэгсэлтэй)

26.7%

26.3%

MMMU

85.4%

84.2%

Tau2-bench Airline

67.0%

62.6%

Tau2-bench Telecom*

95.6%

96.7%

Tau2-bench Retail

77.9%

81.1%

BrowseComp Long Context 128k

90.0%

90.0%

* Tau2-bench Telecom-ийн хувьд бид GPT‑5.1‑д гүйцэтгэлийг нь сайжруулахын тулд богино, ерөнхийдөө тустай өгөгдөл өгсөн.

Зохиогч

OpenAI