19. marraskuuta 2025

Rakennamme enemmän GPT‑5.1‑Codex‑Maxin avulla

Ladataan...

Johdanto

Esittelemme GPT‑5.1‑Codex‑Maxin, uusi agenttinen koodausmallimme, joka on saatavilla Codexissa tänään. GPT‑5.1‑Codex‑Max perustuu perustavanlaatuiseen päättelymalliimme, joka on koulutettu ohjelmistotekniikan, matematiikan, tutkimuksen ja muiden alojen agenttitehtävissä. GPT‑5.1‑Codex‑Max on nopeampi, älykkäämpi ja token-tehokkaampi kehityssyklin jokaisessa vaiheessa – uusi askel kohti luotettavaa koodauskumppania.

GPT‑5.1‑Codex‑Max on suunniteltu pitkäkestoiseen ja yksityiskohtaiseen työhön. Se on ensimmäinen mallimme, joka on natiivisti koulutettu toimimaan useissa konteksti-ikkunoissa tiivistämisprosessin avulla, käsitellen koherentisti miljoonia tunnisteita yhdessä tehtävässä. Tämä avaa projektin laajuiset refaktorit, syvälliset virheenkorjausistunnot ja monituntiset agenttisilmukat.

GPT‑5.1‑Codex‑Max on tänään saatavilla Codexissa käytettäväksi CLI:ssä, IDE-laajennuksessa, pilvessä ja koodikatsauksessa, ja API-käyttöoikeus on tulossa pian.

Edistykselliset koodausvalmiudet

GPT‑5.1‑Codex‑Max koulutettiin käytännön ohjelmistosuunnittelutehtäviin, kuten PR:n luomiseen, koodin tarkasteluun, frontend-koodaukseen ja kysymys-vastaus -prosessiin, ja se päihittää aiemmat mallimme monissa edistyneissä koodausarvioinneissa. Mallin edistysaskeleet vertailuarvoissa tuovat mukanaan myös parannuksia todelliseen käyttöön: GPT‑5.1‑Codex‑Max on ensimmäinen malli, jonka olemme kouluttaneet toimimaan Windows-ympäristöissä, ja mallin koulutus sisältää nyt tehtäviä, jotka on suunniteltu parantamaan sen yhteistyökykyä Codex CLI:ssä.

* Kaikki arvioinnit suoritettiin, kun tiivistys oli otettuna käyttöön erittäin korkealla päättelyteholla
* Terminal-Bench2.0 suoritettiin Codex CLI:llä Laude Institute Harbor -ympäristössä⁠(avautuu uudessa ikkunassa)

Nopeus ja hinta

GPT‑5.1‑Codex‑Max osoittaa merkittäviä parannuksia tunnisteiden tehokkuudessa tehokkaamman päättelyn ansiosta. SWE-bench vahvistetulla alustalla GPT‑5.1‑Codex‑Max saavuttaa "keskitasoisella" päättelykyvyllä paremman suorituskyvyn kuin GPT‑5.1‑Codex. Samalla päättelyvaivalla käyttäen 30 % vähemmän ajattelutunnisteita. Ei-viiveherkkiin tehtäviä varten otamme käyttöön uuden Extra High ('xhigh') -päättelytason, joka ajattelee vielä pidempään saadakseen paremman vastauksen. Suosittelemme edelleen keskitasoa päivittäiseksi työkaluksi useimpiin tehtäviin.

Odotamme, että tunnisteiden tehokkuuden parannukset näkyvät kehittäjien todellisina säästöinä.

Esimerkiksi GPT‑5.1‑Codex‑Max pystyy tuottamaan korkealaatuisia käyttöliittymäsuunnitelmia, joiden toiminnallisuus ja ulkoasu ovat samanlaisia kuin GPT‑5.1‑Codexissa, mutta kustannukset ovat huomattavasti alhaisemmat.

Kehote: Luo yksi itsenäinen selainohjelma, joka renderöi interaktiivisen CartPole RL -hiekkalaatikon kanvasgrafiikalla, pienellä käytäntögradienttiohjaimella, mittareilla ja SVG-verkkojen visualisoijalla.

Ominaisuudet

Pitää pystyä kouluttamaan käytäntöä, jotta se olisi parempi cart pole -tehtävässä
Visualisointi aktivoinneille/painoille, kun malli on koulutuksessa tai päättelytilassa
Jakson vaiheet, tämän jakson palkinnot
Viimeinen selviytymisaika ja paras selviytymisaika vaiheissa

Tallenna tiedostoon index.html

Pitkäkestoiset tehtävät

Tiivistäminen ottaa käyttöön GPT‑5.1‑Codex‑Maxin suorittaa tehtäviä, jotka aiemmin olisivat epäonnistuneet konteksti-ikkunan rajoitusten vuoksi, kuten monimutkaiset refaktorit ja pitkäkestoiset agenttisilmukat, karsimalla historiaansa ja säilyttäen samalla tärkeimmän kontekstin pitkällä aikavälillä. Codex-sovelluksissa GPT‑5.1‑Codex‑Max. tiivistää istunnon automaattisesti, kun se lähestyy konteksti-ikkunan rajaa, antaen sille uuden konteksti-ikkunan. Se toistaa tätä prosessia, kunnes tehtävä on valmis.

Kyky ylläpitää johdonmukaista työtä pitkällä aikavälillä on perustavanlaatuinen ominaisuus matkalla kohti yleisempiä ja luotettavampia tekoälyjärjestelmiä. GPT‑5.1‑Codex‑Max voi työskennellä itsenäisesti tuntikausia kerrallaan. Sisäisissä arvioinneissamme olemme havainneet GPT‑5.1‑Codex‑Maxin työskentelevän tehtävien parissa yli 24 tuntia. Se jatkaa itsepintaisesti toteutuksen toistamista, korjaa testien epäonnistumiset ja tuottaa lopulta onnistuneen tuloksen.

Tässä esimerkissä GPT‑5.1‑Codex‑Max refaktoroi itsenäisesti avoimen lähdekoodin Codex CLI -repositoriota.

Kun istunnon pituus lähestyy mallin konteksti-ikkunaa, se tiivistää istunnon automaattisesti vapauttaakseen tilaa jatkaa tehtävää ilman, että edistys menetetään.

Videota on lyhennetty ja nopeutettu selkeyden vuoksi.

Turvallisten ja luotettavien tekoälyagenttien rakentaminen

GPT‑5.1‑Codex‑Max suoriutuu merkittävästi paremmin arvioinneissa, jotka vaativat pitkäkestoista ja pitkän aikavälin päättelyä. Koska malli voi toimia johdonmukaisesti useissa konteksti-ikkunoissa tiivistyksen avulla, se tuottaa parempia tuloksia haasteisiin, kuten pitkän aikavälin koodauksessa ja kyberturvallisuudessa. Analysoimme tämän mallin suorituskyvyn tuloksia ensimmäisen ja kolmannen osapuolen arvioinneissa GPT‑5.1‑Codex‑Maxin järjestelmäkortissa⁠.

GPT‑5.1‑Codex‑Max ei saavuta korkeaa kyberturvallisuuskykyä valmiusviitekehyksemme ⁠mukaisesti, mutta se on tähän mennessä tehokkain kyberturvallisuusmalli, jonka olemme ottaneet käyttöön, ja agenttien kyberturvallisuusvalmiudet kehittyvät nopeasti. Tämän seurauksena ryhdymme toimiin valmistautuaksemme korkeaan kyberturvallisuuden tasoon ja parannamme suojatoimiamme kybertoimialueella varmistaaksemme, että puolustajat voivat hyötyä näistä parannetuista valmiuksista ohjelmien, kuten Aardvark⁠, kautta.

Kun lanseerasimme GPT‑5‑Codexin, otimme käyttöön erillisen kyberturvallisuusvalvonnan haitallisen toiminnan havaitsemiseksi ja estämiseksi. Vaikka emme ole havainneet merkittävää skaalautuneen väärinkäytön lisääntymistä, valmistelemme lisätoimenpiteitä edistyneiden ominaisuuksien varalle. Tiimimme ovat jo keskeyttäneet kyberoperaatioita⁠, joissa yritetään väärinkäyttää mallejamme, ja epäilyttävä toiminta ohjataan tarkistettavaksi valvontajärjestelmiemme kautta.

Codex on oletuksena suunniteltu toimimaan turvallisessa hiekkalaatikossa: tiedostojen kirjoitukset on rajoitettu sen työtilaan, ja verkkoyhteys on poistettu käytöstä, ellei kehittäjä ota sitä käyttöön. Suosittelemme pitämään Codexin tässä rajoitetun käytön tilassa, koska internetin tai verkkohaun käyttöönotto voi aiheuttaa epäluotettavan sisällön aiheuttamia kehoteinjektioriskejä⁠.

Kun Codex pystyy yhä paremmin suorittamaan pitkäkestoisia tehtäviä, kehittäjien on yhä tärkeämpää tarkistaa agentin työ ennen muutosten tekemistä tai käyttöönottoa tuotantoon. Tämän avuksi Codex tuottaa päätelokeja ja viittaa työkalukutsuihin ja testituloksiin. Vaikka Codex vähentää koodin tarkistuksilla mallien tai ihmisten aiheuttamien virheiden siirtymisen tuotantoon, sitä tulisi pitää lisäarvioijana eikä ihmisten tekemien arviointien korvaajana.

Kyberturvallisuusvalmiuksia voidaan käyttää sekä puolustukseen että hyökkäykseen, joten noudatamme iteratiivista käyttöönottotapaa: opimme todellisesta käytöstä, päivitämme suojauksia ja säilytämme tärkeät puolustustyökalut, kuten automaattisen haavoittuvuuksien skannauksen ja korjausavun.

Saatavuus

GPT‑5.1‑Codex‑Max on saatavilla Codexissa ChatGPT Plus-, Pro-, Business-, Edu- ja Enterprise-sopimuksissa. Lisätietoja siitä, miten käyttörajat toimivat sopimuksessasi, löydät dokumenteistamme⁠(avautuu uudessa ikkunassa).

Codex CLI:tä API-avaimen kautta käyttäville kehittäjille suunnittelemme GPT‑5.1‑Codex‑Maxin Saatavilla pian API:ssa.

Tästä päivästä alkaen GPT‑5.1‑Codex‑Max korvaa GPT‑5.1‑Codexin oletusmallina Codex-ympäristöissä. Toisin kuin GPT‑5.1, joka on yleiskäyttöinen malli, suosittelemme käyttämään GPT‑5.1‑Codex‑Maxia. ja Codex-malliperhe vain agenttikoodaustehtäviin Codex- tai Codex-tyyppisissä ympäristöissä.

Johtopäätös

GPT‑5.1‑Codex‑Max osoittaa, kuinka pitkälle mallit ovat kehittyneet pitkän aikavälin koodaustehtävien ylläpitämisessä, monimutkaisten työnkulkujen hallinnassa ja korkealaatuisten toteutusten tuottamisessa huomattavasti vähemmillä tunnisteilla. Olemme nähneet, että malli yhdistettynä CLI:n, IDE-laajennuksen, pilvi-integraation ja koodin tarkistustyökalujen jatkuviin päivityksiin johtaa huippuluokan insinöörien tuottavuuteen: sisäisesti 95 % OpenAI:n insinööreistä käyttää Codexia viikoittain, ja nämä insinöörit lähettävät noin 70 % enemmän pull-pyyntöjä Codexin käyttöönoton jälkeen. Kun laajennamme agenttien toimintamahdollisuuksia, olemme innokkaita näkemään, mitä te rakennat niiden avulla.

Liite: Mallien arvioinnit

	GPT‑5.1‑Codex (korkea)	GPT‑5.1‑Codex‑Max (xhigh)
SWE-bench vahvistettu (n=500)	73,7 %	77,9 %
SWE-Lancer IC SWE	66,3 %	79,9 %
Terminal-Bench 2.0	52,8 %	58,1 %

Tekijä

OpenAI

Jatka lukemista

Näytä kaikki

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 on nyt ensisijainen malli Microsoft 365 Copilotissa

Tuote9.7.2026

GPT-5.6: Rajat ylittävä älykkyys, joka kasvaa kunnianhimosi mukana

Tuote9.7.2026

ChatGPT Work on nyt kumppani kunnianhimoisimpaan työhösi

Tuote9.7.2026