Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван нэгдүгээр сарын 19

БүтээгдэхүүнГаргалт

GPT‑5.1‑Codex‑Max‑тай илүү ихийг бүтээх нь

Ачаалж байна…

Танилцуулга

Өнөөдөр Codex-д ашиглах боломжтой болсон, манай шинэ хил хязгаар агент кодчиллын загвар GPT‑5.1‑Codex‑Max‑ийг танилцуулж байна. GPT‑5.1‑Codex‑Max нь програм хангамжийн инженерчлэл, математик, судалгаа болон бусад чиглэлийн агент даалгавруудаар сургагдсан манай суурь сэтгэн бодох загварын шинэчлэлт дээр бүтээгдсэн. GPT‑5.1‑Codex‑Max нь хөгжүүлэлтийн мөчлөгийн бүх шатанд илүү хурдан, илүү ухаалаг, илүү токен-үр ашигтай бөгөөд найдвартай кодчиллын түнш болох дараагийн алхам юм.

GPT‑5.1‑Codex‑Max нь урт хугацааны, нарийвчилсан ажилд зориулагдсан. Энэ нь compaction хэмээх процессоор олон контекст цонхны турш ажиллахаар төрөлхөөсөө сургагдсан манай анхны загвар бөгөөд нэг даалгаварт сая сая токены хүрээнд уялдаатай ажиллаж чадна. Энэ нь төслийн хэмжээний дахин бүтэцлэлт, гүнзгий дибаг сесс, олон цагийн агент циклүүдийг нээж өгдөг.

GPT‑5.1‑Codex‑Max нь өнөөдөр Codex-д CLI, IDE өргөтгөл, үүлэн орчин, кодын хяналтад ашиглах боломжтой бөгөөд API хандалт удахгүй ирнэ.

Хил хязгаар кодчиллын чадварууд

GPT‑5.1‑Codex‑Max нь PR үүсгэх, кодын хяналт, frontend кодчилол, Q&A зэрэг бодит ертөнцийн програм хангамжийн инженерчлэлийн даалгавруудаар сургагдсан бөгөөд олон хил хязгаар кодчиллын үнэлгээнд манай өмнөх загваруудаас илүү үзүүлэлттэй байна. Бенчмаркууд дахь ахиц нь бодит хэрэглээнд ч сайжрал авчирсан: GPT‑5.1‑Codex‑Max нь Windows орчинд ажиллахаар сургагдсан манай анхны загвар бөгөөд Codex CLI-д илүү сайн хамтрагч болгох даалгаврууд сургалтад нь одоо багтдаг.

* Бүх үнэлгээг Extra High сэтгэн бодох түвшинд compaction идэвхтэйгээр ажиллуулсан
* Terminal-Bench2.0 нь Codex CLI-тай хамт
Laude Institute Harbor harness(шинэ цонхонд нээгдэнэ)-д ажилласан

Хурд ба өртөг

GPT‑5.1‑Codex‑Max нь илүү үр дүнтэй сэтгэн бодохын ачаар токены үр ашигт мэдэгдэхүйц сайжрал үзүүлж байна. SWE-bench Verified дээр “medium” сэтгэн бодох түвшинтэй GPT‑5.1‑Codex‑Max нь ижил түвшний GPT‑5.1‑Codex‑оос илүү гүйцэтгэлтэй байхын зэрэгцээ 30%-иар цөөн сэтгэх токен ашигладаг. Хугацааны мэдрэмж багатай даалгавруудад зориулж бид илүү сайн хариулт гаргахын тулд бүр ч удаан хугацаанд боддог шинэ Extra High (“xhigh”) сэтгэн бодох түвшинг мөн танилцуулж байна. Ихэнх даалгаварт өдөр тутмын үндсэн сонголт болгон medium-ийг хэвээр зөвлөж байна.

Токены үр ашгийн сайжрал нь хөгжүүлэгчдэд бодит хэмнэлт болж очно гэж бид үзэж байна.

Жишээлбэл, GPT‑5.1‑Codex‑Max нь GPT‑5.1‑Codex‑тай төстэй үйлдэл, гоо зүйтэй өндөр чанартай frontend дизайн гаргах чадвартай ч өртөг нь хавьгүй бага.

Өгөгдөл: Canvas график, жижиг policy-gradient хянагч, хэмжүүрүүд, SVG сүлжээний дүрслэгчтэй, интерактив CartPole RL sandbox дүрслэх нэг дан, бие даасан browser апп үүсгэ.

Онцлогууд

  • Cart pole дээр загварыг сайжруулах бодлогыг бодитоор сургаж чаддаг байх ёстой
  • Загвар сурч байх үед эсвэл inference үеийн activation/weight-уудын дүрслэгч
  • Энэ эпизод дахь алхмууд, энэ эпизодын шагналууд
  • Хамгийн сүүлийн амьд үлдсэн хугацаа болон алхмаар хэмжсэн хамгийн сайн амьд үлдсэн хугацаа

index.html-д хадгал

Урт хугацаанд ажиллах даалгаврууд

Compaction нь өмнө нь контекст цонхны хязгаараас болж бүтэлгүйтэх байсан төвөгтэй дахин бүтэцлэлт, урт хугацааны агент цикл зэрэг даалгавруудыг GPT‑5.1‑Codex‑Max‑аар гүйцэтгэх боломж олгодог. Энэ нь урт хугацааны турш хамгийн чухал контекстыг хадгалан түүхээ тайрч ажилладаг. Codex аппликейшнуудад GPT‑5.1‑Codex‑Max нь контекст цонхны хязгаарт ойртох үед сессээ автоматаар шахаж, шинэ контекст цонх авдаг. Даалгавар дуусах хүртэл энэ процессыг давтана.

Урт хугацааны турш уялдаатай ажлыг тогтвортой үргэлжлүүлэх чадвар нь илүү ерөнхий, найдвартай AI системүүд рүү хүрэх зам дахь суурь чадвар юм. GPT‑5.1‑Codex‑Max нь хэдэн цагаар бие даан ажиллаж чадна. Манай дотоод үнэлгээнүүдэд GPT‑5.1‑Codex‑Max 24 цагаас дээш хугацаанд даалгавар дээр ажиллаж байгааг бид ажигласан. Энэ нь хэрэгжүүлэлтээ тууштай давтан сайжруулж, тестийн алдааг засч, эцэст нь амжилттай үр дүн хүргэдэг.

Энэ жишээнд GPT‑5.1‑Codex‑Max нь Codex CLI нээлттэй эхийн репозиторыг бие даан дахин бүтэцчилж байна.

Сессийн урт загварын контекст цонхонд ойртох үед явцаа алдалгүйгээр даалгаврыг үргэлжлүүлэх зай гаргахын тулд сессийг автоматаар шахна.

Видеог ойлгомжтой болгохын тулд тайрч, хурдасгасан.

Аюулгүй, итгэл даах AI агентуудыг бүтээх нь

GPT‑5.1‑Codex‑Max нь урт хугацааны тогтвортой сэтгэн бодох шаарддаг үнэлгээнүүд дээр мэдэгдэхүйц илүү сайн ажилладаг. Compaction ашиглан олон контекст цонхны турш уялдаатай ажиллаж чаддаг тул энэ загвар нь урт хугацааны кодчилол, кибер аюулгүй байдал зэрэг салбарын сорилтууд дээр сайжирсан үр дүн үзүүлдэг. Бид энэ загварын эхний болон гуравдагч талын үнэлгээнүүд дээрх үзүүлэлтийн үр дүнг GPT‑5.1‑Codex‑Max системийн карт-д шинжилсэн.

GPT‑5.1‑Codex‑Max нь манай Preparedness Framework -ийн дагуу Кибер аюулгүй байдлын ангилалд High түвшний чадварт хүрэхгүй ч өнөөдрийг хүртэл бидний нэвтрүүлсэн хамгийн чадвартай кибер аюулгүй байдлын загвар бөгөөд агент кибер аюулгүй байдлын чадвар маш хурдтай хөгжиж байна. Үүний үр дүнд бид Кибер аюулгүй байдал дахь High чадварт бэлдэх алхмуудыг авч, кибер домэйн дахь хамгаалалтаа сайжруулж, Aardvark зэрэг хөтөлбөрөөр хамгаалагчид эдгээр сайжирсан чадвараас ашиг хүртэхийг хангахын төлөө ажиллаж байна.

Бид GPT‑5‑Codex‑ийг танилцуулах үедээ хорлонт үйл ажиллагааг илрүүлж тасалдуулах тусгай кибер аюулгүй байдлын мониторингийг хэрэгжүүлсэн. Өргөн цар хүрээтэй зүй бус хэрэглээ мэдэгдэхүйц өссөнийг бид ажиглаагүй ч ахисан чадваруудад зориулсан нэмэлт бууруулах арга хэмжээг бэлдэж байна. Манай багууд загваруудаа буруугаар ашиглахыг оролдсон кибер ажиллагаануудыг тасалдуулсан бөгөөд сэжигтэй үйл ажиллагааг манай бодлогын мониторингийн системээр дамжуулан хянан шалгахаар илгээдэг.

Codex нь анхнаасаа аюулгүй sandbox орчинд ажиллахаар зохиогдсон: файл бичих нь түүний ажлын талбараар хязгаарлагддаг, сүлжээний хандалт нь хөгжүүлэгч асаахгүй бол идэвхгүй байдаг. Итгэлгүй контентоос үүдэх prompt-injection эрсдэлийг интернэт эсвэл вэб хайлтыг идэвхжүүлэх нь нэмэгдүүлж болох тул Codex-ийг энэ хязгаарлагдмал хандалтын горимд байлгахыг бид зөвлөж байна.

Codex урт хугацааны даалгавруудад илүү чадвартай болох тусам өөрчлөлт хийх эсвэл production-д нэвтрүүлэхээс өмнө хөгжүүлэгчид агентын ажлыг шалгах нь улам чухал болж байна. Үүнд туслахын тулд Codex терминалын лог гаргаж, хэрэгслийн дуудлага болон тестийн үр дүнгээ иш татдаг. Түүний кодын хяналт нь production орчинд загвар эсвэл хүний үүсгэсэн алдаа нэвтрэх эрсдэлийг бууруулдаг ч Codex-ийг нэмэлт хянагч гэж үзэх ёстой бөгөөд хүний хяналтыг орлох зүйл биш.

Кибер аюулгүй байдлын чадварыг хамгаалалт болон довтолгоонд хоёуланд нь ашиглаж болох учраас бид бодит хэрэглээнээс суралцаж, хамгаалалтаа шинэчилж, автомат эмзэг байдлын скан болон засварын тусламж зэрэг чухал хамгаалалтын хэрэгслүүдийг хадгалсан давтагдан сайжруулах нэвтрүүлэлтийн арга барил баримталдаг.

Боломжит байдал

GPT‑5.1‑Codex‑Max нь ChatGPT Plus, Pro, Business, Edu, Enterprise төлөвлөгөөтэй Codex-д ашиглах боломжтой. Таны төлөвлөгөөнд хэрэглээний хязгаар хэрхэн үйлчилдгийг мэдэх бол манай баримт бичиг(шинэ цонхонд нээгдэнэ)-ийг үзнэ үү.

API key ашиглан Codex CLI хэрэглэдэг хөгжүүлэгчдэд зориулж бид GPT‑5.1‑Codex‑Max‑ийг удахгүй API-д ашиглах боломжтой болгохоор төлөвлөж байна.

Өнөөдрөөс эхлэн GPT‑5.1‑Codex‑Max нь Codex-ийн бүх гадаргуу дээрх үндсэн загвараар GPT‑5.1‑Codex‑ийг орлоно. Ерөнхий зориулалтын загвар болох GPT‑5.1-ээс ялгаатай нь GPT‑5.1‑Codex‑Max болон Codex загварын гэр бүлийг зөвхөн Codex эсвэл Codex-тэй төстэй орчин дахь агент кодчиллын даалгаварт ашиглахыг бид зөвлөж байна.

Дүгнэлт

GPT‑5.1‑Codex‑Max нь урт хугацааны кодчиллын даалгаврыг тогтвортой гүйцэтгэх, төвөгтэй ажлын урсгалыг удирдах, хавьгүй цөөн токеноор өндөр чанартай хэрэгжүүлэлт гаргах тал дээр загварууд хэр хол хөгжсөнийг харуулж байна. Манай CLI, IDE өргөтгөл, үүлэн интеграц, кодын хяналтын хэрэгслүүдийн тогтвортой шинэчлэлтүүдтэй хослох үед энэ загвар инженерчлэлийн бүтээмжийг хүчтэй өсгөж байгааг бид харсан: дотооддоо OpenAI инженерүүдийн 95% нь Codex-ийг долоо хоног бүр ашигладаг бөгөөд эдгээр инженерүүд Codex-ийг нэвтрүүлснээс хойш ойролцоогоор 70%-иар илүү татах хүсэлт гаргаж байна. Агентуудын хийж чадах зүйлийн хил хязгаарыг бид урагшлуулж байгаа энэ үед та тэдгээрээр юу бүтээхийг харахдаа баяртай байна.

Хавсралт: Загварын үнэлгээнүүд

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

Зохиогч

OpenAI