Kalo te përmbajtja kryesore
OpenAI

19 nëntor 2025

ProduktiPublikimi

Duke ndërtuar më shumë me GPT‑5.1‑Codex‑Max

Duke ngarkuar…

Hyrje

Po prezantojmë GPT‑5.1‑Codex‑Max, modeli ynë i ri i kodimit agjentik më të avancuar, i disponueshëm në Codex sot.  GPT‑5.1‑Codex‑Max është ndërtuar mbi një përditësim të modelit tonë themelor të arsyetimit, i cili është trajnuar në detyra agjentike në inxhinierinë softuerike, matematikë, hulumtime dhe më shumë. GPT‑5.1‑Codex‑Max është më i shpejtë, më inteligjent dhe më efikas në përdorimin e tokenëve në çdo fazë të ciklit të zhvillimit dhe një hap larg për t'u bërë një partner i besueshëm për kodim.

GPT‑5.1‑Codex‑Max është krijuar për punë të zgjatura dhe të detajuara. Është modeli ynë i parë i trajnuar në mënyrë vendase për të operuar nëpër dritare të shumta konteksti përmes një procesi të quajtur ngjeshje, duke punuar në mënyrë koherente mbi miliona token në një detyrë të vetme. Kjo zhbllokon rifaktorizimet në shkallë projekti, sesione të thella debugging dhe cikle agjentësh shumëorëshe.

GPT‑5.1‑Codex‑Max është i disponueshëm në Codex sot për përdorim në CLI, shtesën IDE, cloud dhe rishikimin e kodit, dhe qasja në API do të vijë së shpejti.

Aftësi kodimi më të avancuara

GPT‑5.1‑Codex‑Max u trajnua në detyra reale të inxhinierisë softuerike, si krijimi i PR, rishikimi i kodit, kodimi i frontend dhe Q&A, dhe tejkalon modelet tona të mëparshme në shumë vlerësime të avancuara të kodimit. Përfitimet e modelit në pikë referimi vijnë gjithashtu me përmirësime në përdorimin praktik: GPT‑5.1‑Codex‑Max është modeli i parë që kemi bërë trajnim për të operuar në mjediset Windows, dhe trajnimi i modelit tani përfshin detyra të krijuara për ta bërë atë një bashkëpunëtor më të mirë në Codex CLI.

* Të gjitha vlerësimet u kryen me ngjeshjen e aktivizuar në përpjekje arsyetimi ekstra të lartë
* Terminal-Bench2.0 u ekzekutua me Codex CLI në
harness-in e Institutit Laude Harbor(hapet në një dritare të re)

Shpejtësia dhe kostoja

GPT‑5.1‑Codex‑Max tregon përmirësime të mëdha në efikasitetin e token për shkak të arsyetimit më të efektshëm. Në SWE-bench Verified, GPT‑5.1‑Codex‑Max me përpjekje arsyetimi 'mesatare' arrin performancë më të mirë se GPT‑5.1‑Codex me të njëjtën përpjekje arsyetimi, duke përdorur 30% më pak tokena mendimi. Për detyrat që nuk janë të ndjeshme ndaj vonesës, ne po prezantojmë gjithashtu një përpjekje të re arsyetimi Ekstra e Lartë ('xhigh'), e cila mendon për një periudhë edhe më të gjatë kohore për një përgjigje më të mirë. Ne ende rekomandojmë medium si opsionin kryesor për shumicën e detyrave të përditshme.

Presim që përmirësimet në efikasitetin e tokenëve të përkthehen në kursime reale për zhvilluesit.

Për shembull, GPT‑5.1‑Codex‑Max është në gjendje të prodhojë dizajne frontend me cilësi të lartë me funksionalitet dhe estetikë të ngjashme, por me kosto shumë më të ulët se GPT‑5.1‑Codex.

Kërkesë: Gjenero një aplikacion të vetëm shfletuesi të pavarur që paraqet një sandbox interaktiv të CartPole RL me grafikë kanavacë, një kontrollues të vogël të gradientit të politikave, metrika dhe një vizualizues rrjeti SVG.

Veçoritë

  • Duhet të jesh në gjendje të trajnosh një politikë për ta bërë modelin më të mirë në balancimin e shtyllës së karrocës
  • Vizualizues për aktivizimet/peshat kur modeli është duke u trajnuar ose në inferencë
  • Hapat në episod, shpërblimet e episodit
  • Koha e fundit e mbijetesës dhe koha më e mirë e mbijetesës në hapa

Ruaj te index.html

Detyra afatgjata

Aktivizimi i mundëson GPT‑5.1‑Codex‑Max të përfundojë detyra që më parë do të kishin dështuar për shkak të kufizimeve të dritares së kontekstit, siç janë rifaktorimet komplekse dhe ciklet e agjentëve që zgjasin për një kohë të gjatë, duke shkurtuar historinë e tij ndërkohë që ruan kontekstin më të rëndësishëm në horizonte të gjata. Në aplikacionet e Codex, GPT‑5.1‑Codex‑Max Kompakton automatikisht sesionin kur i afrohet kufirit të dritares së kontekstit, duke i dhënë një dritare të re konteksti. Ai e përsërit këtë proces derisa detyra të përfundohet.

Aftësia për të mbajtur punën koherente për periudha të gjata është një aftësi themelore në rrugën drejt sistemeve më të përgjithshme dhe të besueshme të inteligjencës artificiale. GPT‑5.1‑Codex‑Max mund të punojë në mënyrë të pavarur për orë të tëra në një kohë. Në vlerësimet tona të brendshme, kemi vërejtur GPT‑5.1‑Codex‑Max punojnë në detyra për më shumë se 24 orë. Do të përsërisë vazhdimisht zbatimin e tij, do të rregullojë dështimet e testimit dhe në fund do të japë një rezultat të suksesshëm.

Në këtë shembull, GPT‑5.1‑Codex‑Max po rifaktorizon në mënyrë të pavarur depozitën me burim të hapur Codex CLI.

Ndërsa gjatësia e sesionit i afrohet dritares së kontekstit të modelit, ai automatikisht e ngjesh sesionin për të liruar hapësirë për të vazhduar detyrën pa humbur përparimin.

Videoja është shkurtuar dhe përshpejtuar për qartësi.

Ndërtimi i agjentëve të sigurt dhe të besueshëm

GPT‑5.1‑Codex‑Max performon dukshëm më mirë në vlerësimet që kërkojnë arsyetim të qëndrueshëm dhe afatgjatë. Për shkak se mund të funksionojë në mënyrë koherente nëpër dritare të shumta kontekste duke përdorur kompaktimin, modeli ofron rezultate të përmirësuara në sfida në fusha si kodimi me horizont të gjatë dhe siguria kibernetike. Ne analizuam rezultatet e performancës së këtij modeli në vlerësimet e palëve të para dhe të treta në kartën e sistemit GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max nuk arrin aftësi të larta në sigurinë kibernetike sipas Kornizës sonë të gatishmërisë , por është modeli më i aftë i sigurisë kibernetike që kemi vendosur deri më sot dhe aftësitë agjentike të sigurisë kibernetike po evoluojnë me shpejtësi. Si rezultat, ne po ndërmarrim hapa për t'u përgatitur për aftësi të larta në sigurinë kibernetike dhe po përmirësojmë masat tona mbrojtëse në domenin kibernetik, duke punuar për të siguruar që mbrojtësit të përfitojnë nga këto aftësi të përmirësuara përmes programeve si Aardvark.

Kur lançuam GPT‑5‑Codex, zbatuam monitorim të dedikuar për sigurinë kibernetike për të zbuluar dhe ndërprerë aktivitetin keqdashës. Ndërkohë që nuk kemi vërejtur një rritje domethënëse të abuzimit në shkallë të gjerë, ne po përgatisim masa shtesë për zbutjen e aftësive të përparuara. Ekipet tona tashmë kanë ndërprerë operacionet kibernetike që përpiqeshin të keqpërdornin modelet tona, dhe aktiviteti i dyshimtë drejtohet për rishikim përmes sistemeve tona të monitorimit të politikave.

Codex është projektuar për të funksionuar në një sandbox të sigurt si parazgjedhje: shkrimet e skedarëve janë të kufizuara në hapësirë pune dhe qasja në rrjet është e çaktivizuar përveç nëse një zhvillues e aktivizon atë. Ne rekomandojmë që Codex të mbahet në këtë modalitet me akses të kufizuar, pasi aktivizimi i kërkimit në internet ose në web mund të sjellë rreziqe të injektimit të kërkesave nga përmbajtje të pasigurta.

Ndërsa Codex bëhet më i aftë për detyra afatgjata, është gjithnjë e më e rëndësishme që zhvilluesit të rishikojnë punën e agjentit përpara se të bëjnë ndryshime ose ta vendosë në prodhim. Për të ndihmuar me këtë, Codex prodhon regjistra terminali dhe citon thirrjet e mjeteve të tij dhe rezultatet e testeve. Ndërkohë që rishikimet e kodit të tij zvogëlojnë rrezikun e hedhjes në prodhim të gabimeve të prodhuara nga modeli ose njerëzit, Codex duhet të trajtohet si një rishikues shtesë dhe jo si një zëvendësim për rishikimet njerëzore.

Aftësitë e sigurisë kibernetike mund të përdoren si për mbrojtje ashtu edhe për sulm, prandaj ndjekim një qasje të vendosjes iterative: duke mësuar nga përdorimi në botën reale, duke përditësuar masat mbrojtëse dhe duke ruajtur mjete të rëndësishme mbrojtëse, siç janë skanimi automatik i dobësive dhe ndihma për korrigjim.

Disponueshmëria

GPT‑5.1‑Codex‑Max është i disponueshëm në Codex me planet ChatGPT Plus, Pro, Business, Edu dhe Enterprise. Për detaje se si funksionojnë kufizimet e përdorimit për planin tënd, ju lutemi shihni dokumentet(hapet në një dritare të re) tona.

Për zhvilluesit që përdorin Codex CLI përmes Çelësit API, ne planifikojmë ta vëmë GPT‑5.1‑Codex‑Max në dispozicion në API së shpejti.

Duke filluar nga sot, GPT‑5.1‑Codex‑Max do të zëvendësojë GPT‑5.1‑Codex si modeli i parazgjedhur në sipërfaqet e Codex. Ndryshe nga GPT‑5.1, që është një model me qëllim të përgjithshëm, ne rekomandojmë përdorimin e GPT‑5.1‑Codex‑Max dhe familjen e modeleve Codex vetëm për detyrat e kodimit agjentik në mjedise Codex ose të ngjashme me Codex.

Përfundimi

GPT‑5.1‑Codex‑Max tregon se sa larg kanë arritur modelet në mbajtjen e detyrave të kodimit me horizont të gjatë, menaxhimin e rrjedhave të punës komplekse dhe prodhimin e zbatimeve me cilësi të lartë me shumë më pak tokenë. Ne kemi parë modelin e kombinuar me përmirësime të vazhdueshme në CLI-në tonë, zgjerimin e IDE-së, integrimin në cloud dhe mjetet e rishikimit të kodit që rezultojnë në produktivitet të jashtëzakonshëm inxhinierik: brenda kompanisë, 95% e inxhinierëve të OpenAI përdorin Codex çdo javë, dhe këta inxhinierë dërgojnë afërsisht 70% më shumë kërkesa tërheqjeje që nga miratimi i Codex. Ndërsa shtyjmë kufirin e asaj që agjentët janë në gjendje të bëjnë, jemi të ngazëllyer të shohim se çfarë do të ndërtoni me ta.

Shtojca: Vlerësimet e modele

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench i verifikuar (n=500)

73.7%

77,9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

Autor

OpenAI