Gå til hovedindhold
OpenAI

Introduktion af GPT‑5.3‑Codex‑Spark

En ultrahurtig model til realtidskodning i Codex.

Indlæser ...

I dag lancerer vi en forskningsforhåndsvisning af GPT‑5.3‑Codex‑Spark, en mindre version af GPT‑5.3‑Codex, og vores første model designet til kodning i realtid. Codex-Spark markerer den første milepæl i vores partnerskab med Cerebras, som vi annoncerede i januar. Codex-Spark er optimeret til at føles næsten øjeblikkelig, når det leveres på hardware med ultralav latenstid – og leverer mere end 1.000 tokens i sekundet, samtidig med at den er yderst kompetent til praktiske programmeringsopgaver i den virkelige verden.

Vi deler Codex-Spark på Cerebras som en forskningsforhåndsvisning med ChatGPT Pro-brugere, så udviklere kan begynde at eksperimentere tidligt, mens vi arbejder sammen med Cerebras på at opskalere datacenterkapaciteten, styrke end-to-end-oplevelsen og udrulle vores større banebrydende modeller.

Vores nyeste banebrydende modeller har vist særlige styrker i deres evne til at udføre langvarige opgaver og arbejde autonomt i timevis, dage eller uger uden indgriben. Codex-Spark er vores første model, der er designet specifikt til at arbejde med Codex i realtid, hvilket gør det muligt at foretage målrettede redigeringer, omforme logik eller finpudse grænseflader og se resultater med det samme. Med Codex-Spark understøtter Codex nu både langvarige, ambitiøse opgaver og at få arbejdet gjort i øjeblikket. Vi håber at lære af, hvordan udviklere bruger det og inddrage feedback, mens vi fortsætter med at udvide adgangen.

Ved lanceringen har Codex-Spark et kontekstvindue på 128k og er kun tekstbaseret. Under forskningsforhåndsvisningen vil Codex-Spark have sine egne brugsgrænser, og brugen vil ikke tælle med i standardbrugsgrænserne. Men når efterspørgslen er høj, kan du opleve begrænset adgang eller midlertidig kø, mens vi sikrer pålideligheden på tværs af brugere.

Hastighed og intelligens

Codex-Spark er optimeret til interaktivt arbejde, hvor latenstid er lige så vigtig som intelligens. Du kan samarbejde med modellen i realtid, afbryde eller omdirigere den, mens den arbejder, og hurtigt gentage med næsten øjeblikkelige svar. Fordi den er optimeret til hastighed, holder Codex-Spark sin standardarbejdsstil let: Den foretager minimale, målrettede redigeringer og kører ikke automatisk tests, medmindre du beder den om det.

Kodning

Codex-Spark er en yderst kompetent lille model, der er optimeret til hurtig inferens. På SWE-Bench Pro og Terminal-Bench 2.0, to benchmarks, der evaluerer agentisk softwareudviklingskapacitet, demonstrerer GPT‑5.3‑Codex‑Spark stærk ydeevne, mens opgaverne udføres på en brøkdel af tiden sammenlignet med GPT‑5.3‑Codex.

Varigheden estimeres som summen af (1) outputgenereringstid (outputtokens ÷ samplinghastighed), (2) forudfyldningstid (forudfyldningstokens ÷ forudfyldningshastighed), (3) samlet værktøjsudførelsestid og (4) samlet netværksoverhead.

Forbedringer i latenstid for alle modeller

Da vi trænede Codex-Spark, blev det klart, at modelhastighed kun var en del af ligningen for samarbejde i realtid; vi skulle også reducere latenstiden i hele anmodnings-svar-pipelinen. Vi har implementeret forbedringer af end-to-end-latens i vores system, hvilket gavner alle modeller. Under motorhjelmen har vi optimeret, hvordan svar strømmer fra klient til server og tilbage, omskrevet nøgledele af vores inferens-stack og omarbejdet, hvordan sessioner initialiseres, så den første synlige token vises hurtigere, og Codex forbliver responsiv, mens du itererer. Ved at introducere en vedvarende WebSocket-forbindelse og målrettede optimeringer i Responses API reducerede vi overhead pr. klient/server-roundtrip med 80 %, overhead pr. token med 30 % og tid-til-første-token med 50 %. WebSocket-stien er som standard aktiveret for Codex-Spark og vil snart blive standarden for alle modeller.

Drevet af Cerebras

Codex-Spark kører på Cerebras’ Wafer Scale Engine 3(åbner i et nyt vindue)– en specialbygget AI-accelerator til højhastighedsinferens, der giver Codex et latenstidsprioriteret serveringsniveau. Vi samarbejdede med Cerebras for at tilføje denne lav-latenssti til den samme produktionsserveringsstak som resten af vores flåde, så den fungerer problemfrit på tværs af Codex og forbereder os til at understøtte fremtidige modeller.

Det, der begejstrer os mest ved GPT-5.3-Codex-Spark, er samarbejdet med OpenAI og udviklerfællesskabet om at opdage, hvad hurtig inferens gør muligt – nye interaktionsmønstre, nye anvendelsestilfælde og en fundamentalt anderledes modeloplevelse. Denne forhåndsvisning er blot begyndelsen.”
- Sean Lie, CTO og medstifter af Cerebras

GPU'er forbliver grundlæggende i vores trænings- og inferens-pipelines og leverer de mest omkostningseffektive tokens til bred anvendelse. Cerebras supplerer dette fundament ved at udmærke sig i arbejdsgange, der kræver ekstremt lav latenstid, og strammer end-to-end-loopet, så Codex føles mere responsiv, når du itererer. GPU'er og Cerebras kan kombineres til enkeltstående arbejdsbelastninger for at opnå den bedste ydeevne.

Tilgængelighed og detaljer

Codex-Spark lanceres i dag som en forskningsforhåndsvisning for alle ChatGPT Pro-brugere i de nyeste versioner af Codex-appen, CLI og VS Code-udvidelsen. Fordi den kører på specialiseret hardware med lav latenstid, er brugen underlagt en separat brugsgrænse, der kan justeres baseret på efterspørgslen under forskningsforhåndsvisning. Derudover gør vi Codex-Spark tilgængelig i API'en for en lille gruppe designpartnere for at forstå, hvordan udviklere ønsker at integrere Codex-Spark i deres produkter. Vi vil udvide adgangen i de kommende uger, mens vi fortsætter med at finjustere vores integration under reelle arbejdsbelastninger.

Codex-Spark er i øjeblikket kun tekstbaseret med et kontekstvindue på 128.000 og er den første i en familie af ultrahurtige modeller. Efterhånden som vi sammen med udviklerfællesskabet lærer mere om, hvor hurtige modeller udmærker sig til kodning, vil vi introducere endnu flere funktioner, herunder større modeller, længere kontekster og multimodalt input.

Codex-Spark inkluderer den samme sikkerhedstræning som vores hovedmodeller, herunder cyberrelevant træning. Vi har evalueret Codex-Spark som en del af vores standardimplementeringsproces, der omfatter baseline-evalueringer af cyber- og andre kapaciteter, og har fastslået, at det ikke har en rimelig chance for at nå vores Preparedness Framework-tærskel for høj kapacitet inden for cybersikkerhed eller biologi.

Kommende tiltag

Codex-Spark er det første skridt mod en Codex med to komplementære tilstande: længerevarende ræsonnering og udførelse samt samarbejde i realtid til hurtig iteration. Over tid vil de forskellige tilstande smelte sammen – Codex kan holde dig i et tæt interaktivt loop, mens længerevarende arbejde delegeres til underagenter i baggrunden, eller fordele opgaver til mange modeller parallelt, når du ønsker bredde og hastighed, så du ikke behøver at vælge en enkelt tilstand på forhånd.

Efterhånden som modeller bliver mere kapable, bliver interaktionshastigheden en klar flaskehals. Ultrahurtig inferens strammer den loop, hvilket gør Codex mere naturlig at bruge og udvider mulighederne for alle, der forvandler en idé til fungerende software.

Skrevet af

OpenAI