આજે Codex માં ઉપલબ્ધ અમારા નવા અત્યાધુનિક એજન્ટિક કોડિંગ મોડલ GPT‑5.1‑Codex‑Max ને અમે રજૂ કરી રહ્યા છીએ. GPT‑5.1‑Codex‑Max અમારા આધારભૂત রিজনিং મોડલના અપડેટ પર બનાવાયું છે, જેને સોફ્ટવેર એન્જિનિયરિંગ, ગણિત, સંશોધન અને અન્ય ક્ષેત્રોમાં એજન્ટિક કાર્યો પર ટ્રેન કરવામાં આવ્યું છે. વિકાસ ચક્રના દરેક તબક્કે GPT‑5.1‑Codex‑Max વધુ ઝડપી, વધુ બુદ્ધિશાળી અને વધુ ટોકન-કાર્યક્ષમ છે–અને વિશ્વસનીય કોડિંગ ભાગીદાર બનવાની દિશામાં એક નવું પગલું છે.
GPT‑5.1‑Codex‑Max લાંબા સમય સુધી ચાલતા, વિગતવાર કામ માટે બનાવાયું છે. compaction કહેવાતી પ્રક્રિયા દ્વારા બહુવિધ context windows માં કામ કરવા માટે મૂળભૂત રીતે ટ્રેન થયેલું આ અમારું પ્રથમ મોડલ છે, જે એક જ કાર્યમાં લાખો ટોકન્સ પર સુસંગત રીતે કામ કરે છે. આ પ્રોજેક્ટ-સ્તરના refactors, ઊંડા debugging sessions અને બહુ-કલાક એજન્ટ loopsને શક્ય બનાવે છે.
GPT‑5.1‑Codex‑Max આજે Codex માં CLI, IDE extension, cloud અને code review માં ઉપયોગ માટે ઉપલબ્ધ છે, અને API ઍક્સેસ ટૂંક સમયમાં આવી રહી છે.
GPT‑5.1‑Codex‑Max ને PR creation, code review, frontend coding અને Q&A જેવા વાસ્તવિક સોફ્ટવેર એન્જિનિયરિંગ કાર્યો પર ટ્રેન કરવામાં આવ્યું છે અને ઘણી અત્યાધુનિક coding evaluations પર તે અમારા અગાઉના મોડલ્સ કરતાં સારું પ્રદર્શન કરે છે. benchmarks પરના મોડલના સુધારાઓ સાથે વાસ્તવિક ઉપયોગમાં પણ સુધારો આવ્યો છે: Windows environments માં કામ કરવા માટે ટ્રેન કરેલું આ અમારું પ્રથમ મોડલ છે, અને હવે મોડલના ટ્રેનિંગમાં તેને Codex CLI માં વધુ સારો સહયોગી બનાવવા માટે બનાવેલા કાર્યોનો સમાવેશ થાય છે.
* બધા evals compaction સક્રિય રાખીને Extra High reasoning effort સાથે ચલાવવામાં આવ્યા હતા.
* Terminal-Bench2.0 ને Laude Institute Harbor harness(નવી વિન્ડોમાં ખૂલે છે) માં Codex CLI સાથે ચલાવવામાં આવ્યું હતું.
વધુ અસરકારક রিজনિંગને કારણે GPT‑5.1‑Codex‑Max ટોકન કાર્યક્ષમતામાં નોંધપાત્ર સુધારા દર્શાવે છે. SWE-bench Verified પર, ‘medium’ রিজনিং effort સાથે GPT‑5.1‑Codex‑Max, સમાન রিজনিং effort ધરાવતા GPT‑5.1‑Codex કરતાં વધુ સારો દેખાવ આપે છે, અને 30% ઓછા thinking tokens વાપરે છે. latency માટે સંવેદનશીલ ન હોય એવા કાર્યો માટે, અમે હવે નવું Extra High (‘xhigh’) রিজনিং effort પણ રજૂ કરી રહ્યા છીએ, જે વધુ સારા જવાબ માટે વધુ લાંબા સમય સુધી વિચારે છે. તેમ છતાં, મોટાભાગના કાર્યો માટે અમે દૈનિક ઉપયોગ માટે medium ની ભલામણ કરીએ છીએ.
અમે અપેક્ષા રાખીએ છીએ કે ટોકન કાર્યક્ષમતામાં થયેલા સુધારાઓ વિકાસકર્તાઓ માટે વાસ્તવિક બચતમાં ફેરવાશે.
ઉદાહરણ તરીકે, GPT‑5.1‑Codex‑Max સમાન કાર્યક્ષમતા અને સૌંદર્ય સાથે ઉચ્ચ ગુણવત્તાવાળી frontend designs તૈયાર કરી શકે છે, પરંતુ GPT‑5.1‑Codex કરતાં ઘણી ઓછી કિંમતમાં.
પ્રોમ્પ્ટ: એક સિંગલ self-contained browser app બનાવો જે canvas graphics, નાનું policy-gradient controller, metrics અને SVG network visualizer સાથે interactive CartPole RL sandbox રેન્ડર કરે.
વિશેષતાઓ
cart pole પર મોડલને વધુ સારું બનાવવા માટે નીતિને ખરેખર train કરી શકવું જોઈએમોડલ train થઈ રહ્યું હોય અથવા inference સમયે activations/weights માટે visualizerepisode ના steps, આ episode ના rewardsછેલ્લો survival time અને steps માં શ્રેષ્ઠ survival time
index.html માં સાચવો
Compaction GPT‑5.1‑Codex‑Max ને એવા કાર્યો પૂર્ણ કરવાની ક્ષમતા આપે છે, જે પહેલાં context-window મર્યાદાઓને કારણે નિષ્ફળ જતાં, જેમ કે જટિલ refactors અને લાંબા સમય સુધી ચાલતા એજન્ટ loops, કારણ કે તે લાંબા ગાળે સૌથી મહત્વપૂર્ણ સંદર્ભ જાળવી રાખીને પોતાનો ઇતિહાસ prune કરે છે. Codex applications માં, GPT‑5.1‑Codex‑Max જ્યારે તેની context window મર્યાદા નજીક પહોંચે છે ત્યારે તે આપમેળે તેના સેશનને compact કરે છે, જેથી તેને નવી context window મળે. કાર્ય પૂર્ણ ન થાય ત્યાં સુધી તે આ પ્રક્રિયા દોહરાવે છે.
લાંબા ગાળે સુસંગત કામ જાળવી રાખવાની ક્ષમતા વધુ સામાન્ય અને વિશ્વસનીય AI સિસ્ટમ્સ તરફના માર્ગ પરની આધારભૂત ક્ષમતા છે. GPT‑5.1‑Codex‑Max કલાકો સુધી સ્વતંત્ર રીતે કામ કરી શકે છે. અમારા આંતરિક મૂલ્યાંકનોમાં, અમે GPT‑5.1‑Codex‑Max ને 24 કલાકથી વધુ સમય સુધી કાર્યો પર કામ કરતાં જોયું છે. તે સતત તેની અમલીકરણ પર iteration કરશે, test failures સુધારશે અને અંતે સફળ પરિણામ આપશે.
આ ઉદાહરણમાં, GPT‑5.1‑Codex‑Max સ્વતંત્ર રીતે Codex CLI ઓપન સોર્સ રિપોઝિટરીને રિફેક્ટર કરી રહ્યું છે.
સેશનની લંબાઈ મોડલની context-window પાસે પહોંચે ત્યારે, તે પ્રગતિ ગુમાવ્યા વિના કાર્ય ચાલુ રાખવા જગ્યા ખાલી કરવા સેશનને આપમેળે કોમ્પેક્ટ કરે છે.
વિડિયોને સ્પષ્ટતા માટે ટ્રિમ કરવામાં આવ્યો છે અને ઝડપી બનાવાયો છે.
GPT‑5.1‑Codex‑Max તેવા મૂલ્યાંકનોમાં નોંધપાત્ર રીતે સારું પ્રદર્શન કરે છે, જ્યાં સતત, લાંબા ગાળાનું রিজনિંગ જરૂરી હોય છે. compaction નો ઉપયોગ કરીને તે બહુવિધ context windows માં સુસંગત રીતે કામ કરી શકે છે, તેથી મોડલ લાંબા ગાળાના coding અને cybersecurity જેવા ક્ષેત્રોના પડકારોમાં સુધારેલા પરિણામો આપે છે. અમે GPT‑5.1‑Codex‑Max સિસ્ટમ કાર્ડ માં પ્રથમ-પક્ષ અને તૃતીય-પક્ષ મૂલ્યાંકનો પર આ મોડલના પ્રદર્શનના પરિણામોનું વિશ્લેષણ કર્યું છે.
અમારા પ્રિપેરડનેસ ફ્રેમવર્ક અંતર્ગત GPT‑5.1‑Codex‑Max Cybersecurity પર High capability સુધી પહોંચતું નથી, પરંતુ આજદિન સુધી અમે deploy કરેલું આ સૌથી ક્ષમતા ધરાવતું cybersecurity મોડલ છે અને એજન્ટિક cybersecurity ક્ષમતાઓ ઝડપથી વિકસી રહી છે. પરિણામે, અમે Cybersecurity પર High capability માટે તૈયારીના પગલાં લઈ રહ્યા છીએ, cyber ક્ષેત્રમાં અમારા safeguards ને મજબૂત બનાવી રહ્યા છીએ અને Aardvark જેવા કાર્યક્રમો દ્વારા રક્ષકોને આ સુધારેલી ક્ષમતાઓનો લાભ મળી શકે તેની ખાતરી કરવા કામ કરી રહ્યા છીએ.
જ્યારે અમે GPT‑5‑Codex લોન્ચ કર્યું ત્યારે, દુર્ભાવનાપૂર્ણ પ્રવૃત્તિ શોધવા અને અટકાવવા માટે અમે cybersecurity-વિશિષ્ટ સમર્પિત monitoring અમલમાં મૂક્યું હતું. જોકે અમને મોટા પાયે દુરુપયોગમાં અર્થપૂર્ણ વધારો જોવા મળ્યો નથી, અમે અદ્યતન ક્ષમતાઓ માટે વધારાના mitigations તૈયાર કરી રહ્યા છીએ. અમારી ટીમોએ અમારી મોડલ્સનો દુરુપયોગ કરવાનો પ્રયાસ કરતી cyber operations ને ખોરવી છે, અને શંકાસ્પદ પ્રવૃત્તિ અમારી policy monitoring systems મારફતે સમીક્ષા માટે મોકલવામાં આવે છે.
Codex મૂળભૂત રીતે સુરક્ષિત sandbox માં ચલાવવા માટે ડિઝાઇન કરાયું છે: file writes તેના workspace સુધી મર્યાદિત છે, અને developer તેને ચાલુ ન કરે ત્યાં સુધી network access નિષ્ક્રિય છે. અમે Codex ને આ restricted-access mode માં જ રાખવાની ભલામણ કરીએ છીએ, કારણ કે internet અથવા web search સક્રિય કરવાથી અવિશ્વસનીય સામગ્રીમાંથી prompt-injection જોખમો આવી શકે છે.
Codex લાંબા સમય સુધી ચાલતા કાર્યોમાં વધુ સક્ષમ બનતું જાય છે, તેથી developers માટે ફેરફારો કરવા અથવા production માં deploy કરતાં પહેલાં એજન્ટના કામની સમીક્ષા કરવી વધુ મહત્વપૂર્ણ બનતી જાય છે. તેમાં સહાય માટે, Codex terminal logs બનાવે છે અને તેના tool calls અને test results નો ઉલ્લેખ કરે છે. તેના code reviews production માં મોડલ અથવા માનવ-સર્જિત bugs deploy થવાના જોખમને ઘટાડે છે, છતાં Codex ને વધારાના reviewer તરીકે જ જોવું જોઈએ, માનવીય reviews ના વિકલ્પ તરીકે નહીં.
Cybersecurity ક્ષમતાઓનો ઉપયોગ રક્ષણ અને હુમલા બંને માટે થઈ શકે છે, તેથી અમે iterative deployment અભિગમ અપનાવીએ છીએ: વાસ્તવિક ઉપયોગમાંથી શીખવું, safeguards અપડેટ કરવું અને automated vulnerability scanning તથા remediation assistance જેવી મહત્વપૂર્ણ રક્ષણાત્મક tools જાળવી રાખવી.
GPT‑5.1‑Codex‑Max, ChatGPT Plus, Pro, Business, Edu અને Enterprise પ્લાન્સ સાથે Codex માં ઉપલબ્ધ છે. તમારા પ્લાન માટે usage limits કેવી રીતે કામ કરે છે તેની વિગતો માટે, કૃપા કરીને અમારા docs(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
API key દ્વારા Codex CLI વાપરતા developers માટે, અમે ટૂંક સમયમાં GPT‑5.1‑Codex‑Max ને API માં ઉપલબ્ધ કરવાનો પ્લાન બનાવીએ છીએ.
આજથી, GPT‑5.1‑Codex‑Max Codex surfaces માં default મોડલ તરીકે GPT‑5.1‑Codex ને બદલી દેશે. GPT‑5.1 જે general-purpose મોડલ છે તેના વિપરીત, અમે GPT‑5.1‑Codex‑Max અને Codex family of models નો ઉપયોગ માત્ર Codex અથવા Codex જેવા environments માં એજન્ટિક coding કાર્યો માટે કરવાની ભલામણ કરીએ છીએ.
GPT‑5.1‑Codex‑Max દર્શાવે છે કે લાંબા ગાળાના coding કાર્યો જાળવી રાખવા, જટિલ workflows સંભાળવા અને ઘણાં ઓછા tokens સાથે ઉચ્ચ ગુણવત્તાવાળી અમલીકરણો તૈયાર કરવામાં મોડલ્સ કેટલા આગળ આવ્યા છે. અમારી CLI, IDE extension, cloud integration અને code review tooling માં સતત અપગ્રેડ્સ સાથે મળીને આ મોડલે એન્જિનિયરિંગ ઉત્પાદકતામાં ભારે વધારો કર્યો છે: આંતરિક રીતે, OpenAI ના 95% engineers દર અઠવાડિયે Codex નો ઉપયોગ કરે છે, અને Codex અપનાવ્યા પછી આ engineers આશરે 70% વધુ পুল রিকোয়েস্ট મોકલે છે. જેમ જેમ અમે એજન્ટો શું કરી શકે તેની સીમા આગળ ધપાવીએ છીએ, તેમ અમે ઉત્સાહિત છીએ કે તમે તેમની સાથે શું બનાવશો.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


