મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

23 એપ્રિલ, 2026

પ્રોડક્ટરિલીઝ

GPT‑5.5 પરિચય

વાસ્તવિક કામ માટે બુદ્ધિમત્તાનો નવો વર્ગ

લોડિંગ…

24 એપ્રિલ, 2026નું અપડેટ: GPT‑5.5 અને GPT‑5.5 Pro હવે APIમાં ઉપલબ્ધ છે. સિસ્ટમ કાર્ડ ને પણ લાગુ પડતા વધારાના સુરક્ષા ઉપાયો વર્ણવવા માટે અપડેટ કરવામાં આવ્યું છે.


અમે GPT‑5.5 રિલીઝ કરી રહ્યા છીએ, જે અત્યાર સુધીનું અમારું સૌથી સ્માર્ટ અને ઉપયોગમાં સૌથી વધુ સહજ મોડલ છે, અને કમ્પ્યુટર પર કામ કરવાની નવી રીત તરફનું આગળનું પગલું છે.

GPT‑5.5 તમે શું કરવાનો પ્રયાસ કરી રહ્યા છો તે વધુ ઝડપથી સમજે છે અને વધુ કામ પોતે સંભાળી શકે છે. તે કોડ લખવામાં અને ડિબગ કરવામાં, ઑનલાઇન સંશોધન કરવામાં, ડેટાનું વિશ્લેષણ કરવામાં, દસ્તાવેજો અને સ્પ્રેડશીટ્સ બનાવવામાં, સોફ્ટવેર ચલાવવામાં અને કાર્ય પૂર્ણ થાય ત્યાં સુધી વિવિધ ટૂલ્સમાં આગળ વધવામાં ઉત્તમ છે. દરેક પગલું કાળજીપૂર્વક સંભાળવાને બદલે, તમે GPT‑5.5 ને ગૂંચવણભરેલું, બહુ-ભાગવાળું કાર્ય આપી શકો છો અને વિશ્વાસ રાખી શકો છો કે તે યોજના બનાવશે, ટૂલ્સનો ઉપયોગ કરશે, પોતાનું કામ તપાસશે, અનિશ્ચિતતા વચ્ચે માર્ગ શોધશે અને આગળ વધતું રહેશે.

ફાયદા ખાસ કરીને એજન્ટિક કોડિંગ, કમ્પ્યુટર ઉપયોગ, જ્ઞાન આધારિત કાર્ય અને પ્રારંભિક વૈજ્ઞાનિક સંશોધનમાં વધુ મજબૂત છે—એવા ક્ષેત્રો જ્યાં પ્રગતિ માટે સંદર્ભમાં રિઝનિંગ અને સમયગાળા દરમિયાન કાર્યવાહી બંને જરૂરી હોય છે. GPT‑5.5 બુદ્ધિમત્તામાં આ આગળનું પગલું ઝડપમાં કોઈ સમાધાન કર્યા વિના આપે છે: મોટા અને વધુ સક્ષમ મોડલ્સ ઘણીવાર સર્વ કરવામાં ધીમા હોય છે, પરંતુ GPT‑5.5 વાસ્તવિક સર્વિંગમાં GPT‑5.4 જેટલી per-token latency જાળવે છે, જ્યારે બહુ ઊંચા સ્તરની બુદ્ધિમત્તા પર પ્રદર્શન કરે છે. તે જ Codex કાર્યો પૂર્ણ કરવા માટે નોંધપાત્ર રીતે ઓછા ટોકન્સ પણ વાપરે છે, જેથી તે વધુ સક્ષમ હોવા સાથે વધુ કાર્યક્ષમ પણ બને છે.

અમે GPT‑5.5 ને અત્યાર સુધીના અમારા સૌથી મજબૂત સુરક્ષા ઉપાયો સાથે રિલીઝ કરી રહ્યા છીએ, જે લાભકારી કાર્ય માટેની ઍક્સેસ જાળવી રાખતાં દુરુપયોગ ઘટાડવા માટે ડિઝાઇન કરાયા છે. અમે આ મોડલને અમારી સંપૂર્ણ સુરક્ષા અને પ્રિપેરડનેસ ફ્રેમવર્ક્સમાં મૂલ્યાંકિત કર્યું, આંતરિક અને બાહ્ય રેડટીમર્સ સાથે કામ કર્યું, અદ્યતન સાયબરસિક્યોરિટી અને બાયોલોજી ક્ષમતાઓ માટે લક્ષિત પરીક્ષણ ઉમેર્યું, અને રિલીઝ પહેલાં લગભગ 200 વિશ્વસનીય પ્રારંભિક-ઍક્સેસ ભાગીદારો પાસેથી વાસ્તવિક ઉપયોગકેસ પર પ્રતિસાદ એકત્ર કર્યો.

આજે, GPT‑5.5 ChatGPT અને Codex માં Plus, Pro, Business અને Enterprise વપરાશકર્તાઓ માટે રોલ આઉટ થઈ રહ્યું છે, અને GPT‑5.5 Pro ChatGPT માં Pro, Business અને Enterprise વપરાશકર્તાઓ માટે રોલ આઉટ થઈ રહ્યું છે. API ડિપ્લોયમેન્ટ્સ માટે અલગ સુરક્ષા ઉપાયો જરૂરી છે અને તેને મોટા પાયે સર્વ કરવા માટેની સલામતી અને સુરક્ષા જરૂરીયાતો અંગે અમે ભાગીદારો અને ગ્રાહકો સાથે નજીકથી કામ કરી રહ્યા છીએ. અમે GPT‑5.5 અને GPT‑5.5 Pro ને બહુ જલ્દી APIમાં લાવશું.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (આંતરિક)

73.1%

68.5%

-

-

-

-

GDPval (જીત અથવા ટાઈ)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

મોડલ ક્ષમતાઓ

OpenAI એજન્ટિક AI માટે વૈશ્વિક ઇન્ફ્રાસ્ટ્રક્ચર બનાવી રહ્યું છે, જેથી વિશ્વભરના લોકો અને વ્યવસાયો AI સાથે કામ કરી શકે. ગયા વર્ષ દરમિયાન અમે જોયું છે કે AIએ સોફ્ટવેર એન્જિનિયરિંગમાં નાટકીય ઝડપ લાવી છે. Codex અને ChatGPT માં GPT‑5.5 સાથે, એ જ પરિવર્તન હવે વૈજ્ઞાનિક સંશોધન અને લોકો કમ્પ્યુટરો પર કરતા વિશાળ કાર્યક્ષેત્ર સુધી વિસ્તરવા લાગ્યું છે.

આ બધાં ક્ષેત્રોમાં GPT‑5.5 માત્ર વધુ બુદ્ધિશાળી જ નથી; સમસ્યાઓ ઉકેલવાની તેની રીત વધુ કાર્યક્ષમ છે, અને તે ઘણી વાર ઓછા ટોકન્સ અને ઓછા retries સાથે વધુ ગુણવત્તાવાળા પરિણામો સુધી પહોંચે છે. Artificial Analysis ના Coding Index પર, GPT‑5.5 સ્પર્ધાત્મક અત્યાધુનિક કોડિંગ મોડલ્સના અડધા ખર્ચે state-of-the-art બુદ્ધિમત્તા આપે છે.

Artificial Analysis Intelligence Index(નવી વિન્ડોમાં ખૂલે છે) એ એક બાહ્ય પક્ષ દ્વારા ચલાવવામાં આવેલા 10 evals નું weighted average છે: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

એજન્ટિક કોડિંગ

GPT‑5.5 અત્યાર સુધીનું અમારું સૌથી મજબૂત એજન્ટિક કોડિંગ મોડલ છે. Terminal-Bench 2.0 પર, જે યોજના, iteration અને tool coordination માંગતા જટિલ command-line workflowsનું પરીક્ષણ કરે છે, તે 82.7% ની state-of-the-art accuracy હાંસલ કરે છે. SWE-Bench Pro પર, જે વાસ્તવિક GitHub issue resolutionનું મૂલ્યાંકન કરે છે, તે 58.6% સુધી પહોંચે છે અને અગાઉના મોડલ્સ કરતાં એક જ passમાં વધુ કાર્યો end-to-end ઉકેલે છે. Expert-SWE પર, જે લાંબા ગાળાના કોડિંગ કાર્યો માટેનું અમારું આંતરિક અત્યાધુનિક eval છે અને જેમાં માનવીય પૂર્ણતા સમયનો median અંદાજ 20 કલાક છે, GPT‑5.5 GPT‑5.4 કરતાં પણ વધુ સારું પ્રદર્શન કરે છે.

ત્રણેેય evalsમાં GPT‑5.5, GPT‑5.4 ના સ્કોર્સમાં સુધારો કરે છે અને સાથે ઓછા ટોકન્સ વાપરે છે.

મોડલની કોડિંગ શક્તિઓ ખાસ કરીને Codex માં સ્પષ્ટ દેખાય છે, જ્યાં તે implementation અને refactors થી લઈ debugging, testing અને validation સુધીનું એન્જિનિયરિંગ કાર્ય સંભાળી શકે છે. પ્રારંભિક પરીક્ષણ સૂચવે છે કે GPT‑5.5 એ એવા વર્તનોમાં વધુ સારું છે જેઓ પર વાસ્તવિક એન્જિનિયરિંગ કાર્ય નિર્ભર છે, જેમ કે મોટા સિસ્ટમ્સમાં સંદર્ભ જાળવી રાખવો, અનિશ્ચિત નિષ્ફળતાઓમાં રિઝનિંગ કરવું, ટૂલ્સ સાથે ધારણાઓ તપાસવી અને આસપાસના કોડબેઝમાં ફેરફારો આગળ લઈ જવા.

રેન્ડર કરાયેલ ટ્રેજેક્ટરી Orion, ચંદ્ર અને સૂર્ય માટે NASA/JPL Horizons વેક્ટર ડેટાનો ઉપયોગ કરે છે, જેમાં વાંચનસગવડ માટે ડિસ્પ્લે સ્કેલિંગ લાગુ કરાયું છે.

પ્રોમ્પ્ટ: [attached image] webgl અને vite નો ઉપયોગ કરીને artemis II મિશનના વાસ્તવિક ડેટા સાથે આને નવી app તરીકે અમલમાં મૂકો. app સંપૂર્ણ રીતે કાર્યક્ષમ બને અને ચિત્રમાં દેખાતી app જેવી જ લાગે ત્યાં સુધી તેની સારી રીતે ચકાસણી કરશો. ગ્રહો અને ફ્લાય પાથના રેન્ડરિંગ પર ખાસ ધ્યાન આપો. હું 3D રેન્ડરિંગ સાથે પરસ્પર ક્રિયા કરી શકું એવું હોવું જોઈએ. ખાતરી કરો કે તેમાં વાસ્તવિક ઓર્બિટલ મિકેનિક્સ હોય.

બેન્ચમાર્ક્સથી આગળ, પ્રારંભિક ટેસ્ટર્સે કહ્યું કે GPT‑5.5 સિસ્ટમની રચના સમજવાની વધુ મજબૂત ક્ષમતા બતાવે છે: શું નિષ્ફળ થઈ રહ્યું છે, સુધારો ક્યાં કરવો જોઈએ, અને કોડબેઝમાં બીજે શું અસર પડશે.

alt

“મેં ઉપયોગ કર્યું હોય તેવું પ્રથમ coding મોડલ જેમાં ગંભીર ધારણાત્મક સ્પષ્ટતા છે.”

Dan Shipper, Every ના Founder અને CEO એ GPT‑5.5 ને “મેં ઉપયોગ કર્યું હોય તેવું પ્રથમ coding મોડલ જેમાં ગંભીર ધારણાત્મક સ્પષ્ટતા છે.” તરીકે વર્ણવ્યું.

એક એપ લોન્ચ કર્યા પછી, તેણે post-launch સમસ્યાને ડિબગ કરવામાં ઘણા દિવસો વિતાવ્યા અને પછી સિસ્ટમનો એક ભાગ ફરી લખાવવા પોતાના શ્રેષ્ઠ એન્જિનિયરોમાંના એકને જોડ્યો. GPT‑5.5 ની કસોટી કરવા માટે, તેણે અસરકારક રીતે ઘડિયાળ પાછી ફેરવી: શું મોડલ તૂટેલી સ્થિતિને જોઈ શકે અને એ જ પ્રકારનું rewrite આપી શકે જેને એન્જિનિયરે અંતે પસંદ કર્યું હતું? GPT‑5.4 એ ન કરી શક્યું. GPT‑5.5 એ કરી બતાવ્યું.

alt

“ખરેખર એવું લાગે છે કે હું વધુ ઊંચી બુદ્ધિમત્તા સાથે કામ કરી રહ્યો છું, અને લગભગ માનનો ભાવ પણ થાય છે.”

Pietro Schirano, MagicPath ના CEO એ પણ એવો જ મોટા ફેરફારનો અનુભવ કર્યો, જ્યારે GPT‑5.5 એ frontend અને refactor ના સૈકડો ફેરફારો ધરાવતી branch ને main branch માં મર્જ કરી, જેમાં પોતે પણ નોંધપાત્ર ફેરફારો થયા હતા, અને લગભગ 20 મિનિટમાં જ એક જ પ્રયાસમાં કામ ઉકેલી નાખ્યું.

મોડલનું પરીક્ષણ કરનારા સિનિયર એન્જિનિયર્સે કહ્યું કે GPT‑5.5 રિઝનિંગ અને સ્વાયત્તતામાં GPT‑5.4 અને Claude Opus 4.7 કરતાં સ્પષ્ટ રીતે વધુ મજબૂત હતું, અને explicit prompting વગર પહેલેથી જ સમસ્યાઓ પકડી લેતું હતું તેમજ testing અને review ની જરૂરિયાતો આગોતરી ઓળખતું હતું. એક કેસમાં, એક એન્જિનિયરે તેને collaborative markdown editor માં comment system નું re-architecture કરવા કહ્યું અને પાછા ફરતાં તેને લગભગ પૂર્ણ એવી 12-diff stack મળી. અન્ય લોકોએ કહ્યું કે તેમને આશ્ચર્યજનક રીતે બહુ ઓછા implementation correctionsની જરૂર પડી અને GPT‑5.5 ની યોજનાઓ અંગે GPT‑5.4 ની સરખામણીએ વધુ વિશ્વાસ અનુભવાયો.

NVIDIA ના એક એન્જિનિયર, જેઓને મોડલ માટે પ્રારંભિક ઍક્સેસ હતી, એટલું સુધી કહી ગયા: “GPT‑5.5 ની ઍક્સેસ ગુમાવવી એટલે જાણે મારી એક અંગછેદન થઈ ગઈ હોય એવો અનુભવ થાય છે.”

“GPT-5.5 GPT-5.4 કરતાં સ્પષ્ટ રીતે વધુ બુદ્ધિશાળી અને વધુ સતત છે, વધુ મજબૂત coding performance અને વધુ વિશ્વસનીય tool use સાથે. તે વહેલું બંધ થયા વગર નોંધપાત્ર રીતે વધુ લાંબા સમય સુધી કાર્ય પર ટકી રહે છે, જે ખાસ કરીને તે જટિલ, લાંબા સમય ચાલતા કામ માટે મહત્વનું છે જે અમારા users Cursor ને સોંપે છે.”
— Michael Truell, Cursor ખાતે Co-founder & CEO

જ્ઞાન આધારિત કાર્ય

જે જ શક્તિઓ GPT‑5.5 ને કોડિંગમાં ઉત્તમ બનાવે છે, એ જ તેને કમ્પ્યુટર પરના રોજિંદા કામ માટે શક્તિશાળી બનાવે છે. કારણ કે મોડલ intent સમજવામાં વધુ સારું છે, તે જ્ઞાન આધારિત કાર્યના આખા ચક્રમાં વધુ સ્વાભાવિક રીતે આગળ વધી શકે છે: માહિતી શોધવી, શું મહત્વનું છે તે સમજવું, ટૂલ્સ વાપરવા, output તપાસવું અને કાચા સામગ્રીને ઉપયોગી રૂપમાં ફેરવવું.

Codex માં, GPT‑5.5 દસ્તાવેજો, સ્પ્રેડશીટ્સ અને slide presentations જનરેટ કરવામાં GPT‑5.4 કરતાં વધુ સારું છે. Alpha testers એ કહ્યું કે operational research, spreadsheet modeling અને ગૂંચવણભરેલા business inputs ને યોજનાઓમાં ફેરવવા જેવા કામોમાં તે ભૂતકાળના મોડલ્સ કરતાં વધુ સારું હતું. Codex ની computer use ક્ષમતાઓ સાથે જોડાય ત્યારે, GPT‑5.5 અમને એ અનુભવની વધુ નજીક લાવે છે કે મોડલ ખરેખર તમારી સાથે કમ્પ્યુટર વાપરી શકે છે: સ્ક્રીન પર શું છે તે જોવું, ક્લિક કરવું, ટાઇપ કરવું, interfaces માં navigate કરવું અને ચોકસાઇથી ટૂલ્સ વચ્ચે આગળ વધવું.

OpenAI ની ટીમો પહેલેથી જ આ શક્તિઓનો ઉપયોગ વાસ્તવિક workflows માં કરી રહી છે. આજે કંપનીના 85% કરતાં વધુ લોકો software engineering, finance, communications, marketing, data science અને product management સહિતની functions માં દર અઠવાડિયે Codex નો ઉપયોગ કરે છે. Comms માં, ટીમે GPT‑5.5 ને Codex માં વાપરીને છ મહિનાના speaking request data નું વિશ્લેષણ કર્યું, scoring અને risk framework બનાવ્યું, અને automated Slack એજન્ટનું validation કર્યું જેથી low-risk requests આપમેળે સંભાળી શકાય અને higher-risk requests હજી પણ માનવીય review તરફ જાય. Finance માં, ટીમે Codex નો ઉપયોગ કરીને કુલ 71,637 pages ધરાવતા 24,771 K-1 tax forms ની સમીક્ષા કરી, એવી workflow સાથે કે જેમાં personal information બહાર રાખવામાં આવી અને ટીમને ગયા વર્ષની સરખામણીએ આ કાર્ય બે અઠવાડિયા વહેલું પૂર્ણ કરવામાં મદદ મળી. Go-to-Market ટીમમાં, એક કર્મચારીએ સાપ્તાહિક business reports જનરેટ કરવાની પ્રક્રિયા automate કરી, જેનાથી અઠવાડિયે 5-10 કલાક બચ્યા.

ChatGPT માં, GPT‑5.5 Thinking વધુ કઠિન સમસ્યાઓ માટે ઝડપી મદદ અનલૉક કરે છે, વધુ સ્માર્ટ અને વધુ સંક્ષિપ્ત જવાબો સાથે જેથી તમે જટિલ કામમાં વધુ કાર્યક્ષમ રીતે આગળ વધી શકો. તે coding, research, information synthesis and analysis, અને document-heavy tasks જેવા વ્યાવસાયિક કામમાં ખાસ કરીને plugins વાપરતી વખતે ઉત્તમ છે.

GPT‑5.5 Pro માં, પ્રારંભિક ટેસ્ટર્સ કામની કઠિનતા અને ગુણવત્તા બંનેમાં નોંધપાત્ર વધારો જોઈ રહ્યા છે જે ChatGPT સંભાળી શકે છે, અને latency સુધારાઓ તેને માંગવાળા કાર્યો માટે ઘણું વધુ વ્યવહારુ બનાવે છે. GPT‑5.4 Pro ની તુલનામાં, ટેસ્ટર્સે GPT‑5.5 Pro ના જવાબોને નોંધપાત્ર રીતે વધુ વ્યાપક, સુવ્યવસ્થિત, સચોટ, સંબંધિત અને ઉપયોગી ગણાવ્યા, ખાસ કરીને business, legal, education અને data science માં મજબૂત પ્રદર્શન સાથે.

GPT‑5.5 આ પ્રકારના કામને પ્રતિબિંબિત કરતા અનેક benchmarks પર state-of-the-art પ્રદર્શન સુધી પહોંચે છે. GDPval⁠ પર, જે 44 occupations માં સારી રીતે નિર્ધારિત જ્ઞાન આધારિત કાર્ય ઉત્પન્ન કરવાની એજન્ટ્સની ક્ષમતાઓનું પરીક્ષણ કરે છે, GPT‑5.5 84.9% સ્કોર કરે છે. OSWorld-Verified પર, જે માપે છે કે મોડલ પોતે વાસ્તવિક computer environments ચલાવી શકે છે કે નહીં, તે 78.7% સુધી પહોંચે છે. અને Tau2-bench Telecom પર, જે જટિલ customer-service workflowsનું પરીક્ષણ કરે છે, તે prompt tuning વગર 98.0% સુધી પહોંચે છે. GPT‑5.5 અન્ય જ્ઞાન આધારિત કાર્ય benchmarks પર પણ મજબૂત પ્રદર્શન કરે છે: FinanceAgent પર 60.0%, internal investment-banking modeling tasks પર 88.5%, અને OfficeQA Pro પર 54.1%.

Tau2-bench Telecom prompt tuning વિના ચલાવવામાં આવ્યું હતું (અને GPT‑4.1 user model તરીકે). GPT‑5.5 કાર્યનો હેતુ વધુ સારી રીતે સમજે છે અને તેના પૂર્વગામીઓ કરતાં વધુ token efficient છે.

“GPT-5.5 અમલીકરણ-ભારે કામ માટે જરૂરી સ્થિર કામગીરી આપે છે. NVIDIA GB200 NVL72 સિસ્ટમ્સ પર બનાવવામાં અને સર્વ કરવામાં આવેલ આ મોડલ અમારી ટીમોને natural language prompts થી end-to-end features ship કરવા, debug સમયને દિવસોથી કલાકોમાં ઘટાડવા, અને જટિલ codebases માં અઠવાડિયાઓના experimentation ને એક જ રાત્રિના પ્રગતિમાં ફેરવવા સક્ષમ બનાવે છે. આ માત્ર ઝડપી coding કરતાં વધુ છે. આ કામ કરવાની નવી રીત છે જે લોકોને મૂળભૂત રીતે અલગ ઝડપે કામ કરવામાં મદદ કરે છે.”
— Justin Boitano, NVIDIA ખાતે VP of Enterprise AI

વૈજ્ઞાનિક સંશોધન

GPT‑5.5 વૈજ્ઞાનિક અને તકનીકી સંશોધન workflows માં પણ વધારો દર્શાવે છે, જેમાં માત્ર મુશ્કેલ પ્રશ્નનો જવાબ આપવાથી વધુ જરૂરી હોય છે. સંશોધકોને વિચારનું અન્વેષણ કરવું, પુરાવા એકત્ર કરવું, ધારણાઓ તપાસવી, પરિણામોનું અર્થઘટન કરવું અને પછી શું અજમાવવું તે નક્કી કરવું પડે છે. GPT‑5.5 આ ચક્રમાં ટકી રહેવામાં અન્ય મોડલ્સ કરતાં વધુ સારું છે.

ખાસ કરીને, GPT‑5.5 GeneBench(નવી વિન્ડોમાં ખૂલે છે) પર GPT‑5.4 ની સરખામણીએ સ્પષ્ટ સુધારો બતાવે છે, જે genetics અને quantitative biology માં બહુ-ચરણ વૈજ્ઞાનિક ડેટા વિશ્લેષણ પર કેન્દ્રિત નવું eval છે. આ સમસ્યાઓ માટે મોડલ્સને સંભવિત રીતે અનિશ્ચિત અથવા ભૂલવાળા ડેટા પર ઓછા supervisory guidance સાથે રિઝનિંગ કરવું, hidden confounders અથવા QC failures જેવી વાસ્તવિક અડચણોને પહોંચી વળવું, અને આધુનિક statistical methods ને યોગ્ય રીતે અમલમાં મૂકવી અને તેનો અર્થઘટન કરવો જરૂરી છે. અહીં મોડલનું પ્રદર્શન ખાસ ધ્યાન ખેંચે છે કારણ કે અહીંના કાર્યો ઘણી વાર વૈજ્ઞાનિક નિષ્ણાતો માટે બહુ-દિવસીય projects સાથે સરખાવા યોગ્ય હોય છે.

તે જ રીતે, BixBench(નવી વિન્ડોમાં ખૂલે છે) પર, જે વાસ્તવિક bioinformatics અને data analysisને આધારે રચાયેલ benchmark છે, GPT‑5.5 એ પ્રકાશિત સ્કોર્સ ધરાવતા મોડલ્સમાં અગ્રણી પ્રદર્શન હાંસલ કર્યું. મોડલની વૈજ્ઞાનિક ક્ષમતાઓ હવે એટલી મજબૂત છે કે તે બાયોમેડિકલ સંશોધનના અગ્રભાગમાં સાચા સહ-વૈજ્ઞાનિક તરીકે પ્રગતિને અર્થપૂર્ણ રીતે ઝડપી કરી શકે.

બીજા એક ઉદાહરણમાં, custom harness સાથેનું GPT‑5.5 નું આંતરિક સંસ્કરણ combinatorics ના મુખ્ય વિષયો પૈકીના એક, Ramsey numbers વિશેનો નવો પુરાવો(નવી વિન્ડોમાં ખૂલે છે) શોધવામાં મદદરૂપ બન્યું. Combinatorics અભ્યાસ કરે છે કે discrete objects કેવી રીતે સાથે ફિટ થાય છે: graphs, networks, sets અને patterns. Ramsey numbers અંદાજે પૂછે છે કે કોઈ પ્રકારનો ક્રમ દેખાવાની ગેરંટી મળે તે પહેલાં નેટવર્ક કેટલું મોટું હોવું જોઈએ. આ ક્ષેત્રમાં પરિણામો દુર્લભ હોય છે અને ઘણી વાર તકનીકી રીતે મુશ્કેલ હોય છે. અહીં GPT‑5.5 એ off-diagonal Ramsey numbers વિશેના લાંબા સમયથી જાણીતા asymptotic fact નો પુરાવો શોધ્યો, જેને પછી Lean માં verify કરવામાં આવ્યો. આ પરિણામ GPT‑5.5 ફક્ત કોડ અથવા સમજણ જ નહીં, પણ મુખ્ય સંશોધન ક્ષેત્રમાં આશ્ચર્યજનક અને ઉપયોગી ગણિતીય દલીલમાં પણ યોગદાન આપે છે તેનું સ્પષ્ટ ઉદાહરણ છે.

પ્રારંભિક ટેસ્ટર્સે ChatGPT માં GPT‑5.5 Pro નો ઉપયોગ one-shot answer engine કરતાં વધુ research partner તરીકે કર્યો: અનેક passes દરમિયાન manuscripts ની સમીક્ષા કરવી, technical arguments ને stress-test કરવું, analyses સૂચવવી, અને code, notes અને PDF context સાથે કામ કરવું. સામાન્ય સૂત્ર એ છે કે GPT‑5.5 સંશોધકોને પ્રશ્નથી પ્રયોગ અને પછી output સુધી આગળ વધવામાં વધુ સારી રીતે મદદ કરે છે.

Derya Unutmaz, Jackson Laboratory for Genomic Medicine ખાતે immunology professor અને researcher, એ GPT‑5.5 Pro નો ઉપયોગ 62 samples અને લગભગ 28,000 genes ધરાવતા gene-expression dataset નું વિશ્લેષણ કરવા માટે કર્યો, અને વિગતવાર research report બનાવી જેમાં માત્ર findings નું સારાંશ જ નહોતું પરંતુ મુખ્ય પ્રશ્નો અને insights પણ સામે આવ્યા. તેમના કહેવા મુજબ આ કામ તેમની ટીમને મહીનાઓ લાગ્યા હોત.

Bartosz Naskręcki, Poznań, Poland ની Adam Mickiewicz University માં ગણિતના assistant professor, એ Codex માં GPT‑5.5 નો ઉપયોગ કરીને એક જ પ્રોમ્પ્ટ પરથી 11 મિનિટમાં algebraic-geometry app બનાવી, quadratic surfaces ના intersection ને visualise કર્યું અને મળતી curve ને Weierstrass model માં રૂપાંતરિત કરી.

પછી તેણે app ને વધુ સ્થિર singularity visualization અને એવા ચોક્કસ coefficients સાથે વિસ્તૃત કરી જે આગળના કામમાં ફરીથી વાપરી શકાય. તેના માટે મોટો ફેરફાર એ છે કે Codex હવે custom mathematical visualization અને computer-algebra workflows અમલમાં મૂકવામાં મદદ કરી શકે છે, જેને પહેલાં dedicated tools જરૂરી હતા. મળીને, આ ઉદાહરણો દર્શાવે છે કે GPT‑5.5 નિષ્ણાત intent ને કાર્યરત research tools અને analyses માં ફેરવે છે.

""

શ્રેય: Bartosz Naskręcki(નવી વિન્ડોમાં ખૂલે છે)

પ્રોમ્પ્ટ: # Algebraic geometry surface intersection

એવી app બનાવો જે બે quadratic surfaces દોરી બતાવે અને intersection curve ને લાલ રંગે દર્શાવે. તેને Weierstrass curve માં રૂપાંતરિત કરવા computational Riemann-Roch theorem નો ઉપયોગ કરો.

## મુખ્ય વિન્ડો

થોડા પારદર્શક shading સાથે બે tinted surfaces, high quality rendering માં લાલ રંગની algebraic curve સાથે intersection

બન્ને દિશામાં mouse દ્વારા rotation, zoom માટે સંપૂર્ણ pinch mechanism, દરેક surface ના coefficients બદલવા sliders સાથે નાનું menu બતાવવા haptic press; Z-buffor level દ્વારા detection

## જમણી બાજુની વિન્ડો

effective Riemann-Roch theorem formulas દ્વારા તરત જ ગણાતી Short Weierstrass equation (Q અથવા quadratic field extension પર)

## Ambient mode જેમાં બધા controls છુપાયેલા હોય અને વપરાશકર્તા આ આકારોની સુંદરતાનો આનંદ લઈ શકે

## Specs

App browser માં ચાલે છે, full stack નવીનતમ libraries સાથેનું light-weight implementation, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

“અમારા harness માં OpenAI ના નવા GPT-5.5 મોડલનો ઉપયોગ કરવો, તેને વિશાળ બાયોકેમિકલ ડેટાસેટ્સ પર રિઝનિંગ કરાવી માનવ દવા પરિણામોની આગાહી કરાવવી, અને પછી અમારી સૌથી કઠિન drug discovery evals પર ચોકસાઈમાં નોંધપાત્ર વધારો જોવો અત્યંત ઊર્જાદાયક છે. જો OpenAI આ જ રીતે આગળ વધતું રહેશે, તો વર્ષના અંત સુધીમાં drug discovery ના આધારભૂત માળખામાં બદલાવ આવી જશે.”
— Brandon White, Axiom Bio ખાતે Co-Founder & CEO

આગામી પેઢીની inference કાર્યક્ષમતા

GPT‑5.5 ને GPT‑5.4 latency પર સર્વ કરવા માટે inference ને એકીકૃત સિસ્ટમ તરીકે ફરી વિચારવાની જરૂર પડી, અલગ-અલગ optimizations ના સમૂહ તરીકે નહીં. GPT‑5.5 ને NVIDIA GB200 અને GB300 NVL72 systems માટે સહ-ડિઝાઇન કરવામાં આવ્યું, તેમ પર તાલીમ આપવામાં આવી અને તેમ પર જ સર્વ કરવામાં આવ્યું. Codex અને GPT‑5.5 અમારા performance targets હાંસલ કરવા માટે કેવી રીતે મદદરૂપ બન્યા તેમાં અત્યંત મહત્વપૂર્ણ રહ્યા. Codex એ ટીમને વિચારોમાંથી benchmarkable implementation સુધી વધુ ઝડપથી પહોંચવામાં મદદ કરી, approaches sketch કરવા, experiments જોડવા અને કઈ optimizations માં વધુ ઊંડું રોકાણ કરવું યોગ્ય છે તે ઓળખવામાં મદદ કરી. GPT‑5.5 એ stack માં જ મહત્વપૂર્ણ સુધારાઓ શોધવા અને અમલમાં મૂકવામાં મદદ કરી. સરળ શબ્દોમાં કહીએ તો, મોડલે તેને સર્વ કરતી infrastructure સુધારવામાં મદદ કરી.

એવા સુધારાઓમાં એક load balancing અને partitioning heuristics હતું. GPT‑5.5 પહેલાં, અમે accelerator પરની requests ને computing coresમાં કામ સંતુલિત કરવા માટે નક્કી સંખ્યાના chunksમાં વહેંચતા હતા, જેથી મોટા અને નાના requests એક જ GPU પર ચાલી શકે. પરંતુ પૂર્વનિર્ધારિત static chunks ની સંખ્યા તમામ traffic shapes માટે શ્રેષ્ઠ નથી. GPUs નો વધુ સારો ઉપયોગ કરવા માટે, Codex એ અઠવાડિયાઓના production traffic patterns નું વિશ્લેષણ કર્યું અને કામને શ્રેષ્ઠ રીતે partition અને balance કરવા custom heuristic algorithms લખ્યાં. આ પ્રયત્નનો અસામાન્ય અસરકારક પ્રભાવ રહ્યો અને token generation speeds માં 20% થી વધુ વધારો થયો.

બધાની સુરક્ષા માટે સાયબરસિક્યોરિટીને આગળ ધપાવવું

સુરક્ષા દુર્બળતાઓ શોધવા અને patch કરવા ખૂબ જ સક્ષમ એવા મોડલ્સ માટે દુનિયાને તૈયાર કરવું ટીમ રમત છે અને તેમાં સમગ્ર ecosystem ને resilience બાંધવા માટે કઠોર મહેનત કરવાની જરૂર પડશે, જેમાં લોકશાહીકૃત મોડલ ઍક્સેસ અને cyber defense ના આગામી યુગ માટે iterative deployment બંને સામેલ છે.

અત્યાધુનિક મોડલ્સ સાયબરસિક્યોરિટીમાં સતત વધુ સક્ષમ બનતા જાય છે. આ ક્ષમતાઓ વ્યાપક રીતે વહેંચાઈ જશે, અને અમારો વિશ્વાસ છે કે આગળ વધવાનો શ્રેષ્ઠ માર્ગ એ છે કે તેમને સાયબર ડિફેન્સને ઝડપી કરવા અને ecosystem ને મજબૂત બનાવવા માટે ઉપયોગી બનાવી શકાય.

GPT‑5.5 વિશ્વના સૌથી મુશ્કેલ પડકારો જેમ કે સાયબરસિક્યોરિટી ઉકેલી શકે તેવી AI તરફનું incremental પરંતુ મહત્વપૂર્ણ પગલું છે. ડિસેમ્બરમાં GPT‑5.2 સાથે, અમે અમારી મોડલ્સના સંભવિત cyber abuse ને મર્યાદિત કરવા જરૂરી cyber safeguards પહેલેથી જ લાગુ કર્યા હતા; હવે GPT‑5.5 સાથે, અમે સંભવિત cyber risk માટે વધુ કડક classifiers લાગુ કરી રહ્યા છીએ, જે કેટલાક વપરાશકર્તાઓને શરૂઆતમાં કંટાળાજનક લાગી શકે, કારણ કે અમે સમય સાથે તેમને fine-tune કરી રહ્યા છીએ.

અમારા મોડલ્સ ધીમે ધીમે સુધરતા ગયા છે તેમ વર્ષોથી અમે પ્રિપેરડનેસ ફ્રેમવર્ક(નવી વિન્ડોમાં ખૂલે છે) માં સાયબરસિક્યોરિટીને એક કેટેગરી તરીકે ઓળખી છે, જ્યારે અમે અર્થપૂર્ણ સાયબરસિક્યોરિટી ક્ષમતાઓ ધરાવતા મોડલ્સને જવાબદારીપૂર્વક રિલીઝ કરી શકીએ તે માટે mitigations ને iterative રીતે વિકસાવી અને calibrate કરી રહ્યા છીએ.

  • આ સાયબર ક્ષમતા સ્તર માટે અમે ઉદ્યોગ-અગ્રણી સુરક્ષા ઉપાયો લાગુ કરી રહ્યા છીએ. અમે ગયા વર્ષે GPT‑5.2(નવી વિન્ડોમાં ખૂલે છે) સાથે પ્રથમ વખત cyber-specific safeguards રજૂ કર્યા હતા, અને ત્યારબાદના deployments માં અમે તેમની ચકાસણી, સુધારણા અને વિકાસ ચાલુ રાખ્યો છે. GPT‑5.5 માટે, અમે higher-risk activity, sensitive cyber requests માટે વધુ કડક નિયંત્રણો ડિઝાઇન કર્યા છે, અને વારંવારના દુરુપયોગ સામે વધારાના સુરક્ષા ઉપાયો ઉમેર્યા છે. મોડલ safety, authenticated usage અને impermissible use માટે monitoring માં અમારા રોકાણને કારણે વ્યાપક ઍક્સેસ શક્ય બને છે. આ safeguards ની robustness વિકસાવવા, તપાસવા અને iterative રીતે સુધારવા માટે અમે મહિનાઓથી બાહ્ય નિષ્ણાતો સાથે કામ કરી રહ્યા છીએ. GPT‑5.5 સાથે, અમે ખાતરી કરી રહ્યા છીએ કે developers પોતાનો કોડ સહેલાઈથી સુરક્ષિત કરી શકે, જ્યારે દૂષિત તત્વો દ્વારા નુકસાન પહોંચાડવાની સૌથી વધુ શક્યતા ધરાવતા cyber workflows પર વધુ મજબૂત નિયંત્રણો મુકવામાં આવે.
  • દરેક સ્તરે cyber defense ને ઝડપી કરવા અમે ઍક્સેસ વિસ્તારી રહ્યા છીએ. અમે અમારા cyber-permissive મોડલ્સને Trusted Access for Cyber દ્વારા ઉપલબ્ધ બનાવી રહ્યા છીએ, Codex થી શરૂઆત કરીને, જેમાં launch સમયે ચોક્કસ trust signals(નવી વિન્ડોમાં ખૂલે છે) પૂર્ણ કરનારા verified users માટે GPT‑5.5 ની અદ્યતન સાયબરસિક્યોરિટી ક્ષમતાઓ પર ઓછી મર્યાદાઓ સાથે વિસ્તૃત ઍક્સેસ શામેલ છે. critical infrastructureનું રક્ષણ કરવા જવાબદાર સંસ્થાઓ GPT‑5.4‑Cyber જેવા cyber-permissive મોડલ્સ માટે ઍક્સેસ અરજી કરી શકે છે, શરતે કે તેઓ આ મોડલ્સનો ઉપયોગ પોતાના આંતરિક સિસ્ટમ્સને સુરક્ષિત કરવા માટે કડક સુરક્ષા આવશ્યકતાઓ પૂર્ણ કરે. આથી verified defenders ના વિશાળ વર્ગને વાજબી સુરક્ષા કાર્ય માટે વધુ સક્ષમ ટૂલ્સ મળે છે અને અનાવશ્યક ઘર્ષણ ઓછું થાય છે જેથી મહત્વપૂર્ણ રક્ષણાત્મક ક્ષમતાઓ સુધી ઍક્સેસનું લોકશાહીકરણ કરી શકાય. Verified defensive work માટે GPT‑5.5 વાપરતી વખતે અનાવશ્યક refusals ઘટાડવા વપરાશકર્તાઓ chatgpt.com/cyber(નવી વિન્ડોમાં ખૂલે છે) પર trusted access માટે અરજી કરી શકે છે.
  • જાહેર હિત માટે critical infrastructure ને સુરક્ષિત રાખવામાં મદદ કરવા અમે સરકારી ભાગીદારો સાથે કામ કરી રહ્યા છીએ. સાથે મળીને, અમે શોધી રહ્યા છીએ કે અદ્યતન AI કેવી રીતે વિશ્વસનીય અધિકારીઓના રક્ષણાત્મક કાર્યને ટેકો આપી શકે, જેઓ લોકો ભરોસો રાખે છે તેવી સિસ્ટમ્સ માટે જવાબદાર છે—મહત્વપૂર્ણ કરદાતા ડેટાને સુરક્ષિત કરતી ડિજિટલ સિસ્ટમ્સથી લઈને સ્થાનિક સમુદાયોની power grid અને water supplies સુધી.

અમે GPT‑5.5 ની biological/chemical અને cybersecurity ક્ષમતાઓને અમારા પ્રિપેરડનેસ ફ્રેમવર્ક(નવી વિન્ડોમાં ખૂલે છે) હેઠળ High તરીકે ગણીએ છીએ. GPT‑5.5 Critical cybersecurity capability level સુધી પહોંચ્યું નહોતું, છતાં અમારા evaluations અને testing એ દર્શાવ્યું કે તેની cybersecurity ક્ષમતાઓ GPT‑5.4 ની સરખામણીએ એક પગલું આગળ છે.

ઉપરાંત, GPT‑5.5 રિલીઝ પહેલાં અમારી સંપૂર્ણ safety અને governance પ્રક્રિયામાંથી પસાર થયું, જેમાં preparedness evaluations, domain-specific testing, અદ્યતન biology અને cybersecurity ક્ષમતાઓ માટે નવા targeted evaluations, અને બાહ્ય નિષ્ણાતો સાથે મજબૂત પરીક્ષણનો સમાવેશ થાય છે. અમે GPT‑5.5 સિસ્ટમ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે) માં વધુ વિગતો શેર કરીએ છીએ.

આ કાર્ય અમારી વિશાળ AI resilience અભિગમને પ્રતિબિંબિત કરે છે, જે મોડલ ક્ષમતાઓ આગળ વધે તેમ જરૂરી હોવાનું અમને લાગે છે. અમે ઇચ્છીએ છીએ કે શક્તિશાળી AI એ સિસ્ટમ્સ, સંસ્થાઓ અને જાહેર હિતનું રક્ષણ કરનારા લોકો માટે ઉપલબ્ધ હોય. વ્યવહારુ માર્ગ એટલે trusted access, ક્ષમતાની સાથે scale થતા મજબૂત સુરક્ષા ઉપાયો, અને ગંભીર દુરુપયોગને શોધી અને જવાબ આપી શકે તેવી કામગીરી ક્ષમતા.

ઉપલબ્ધતા અને કિંમતો

આજે, GPT‑5.5 ChatGPT અને Codex માં Plus, Pro, Business અને Enterprise વપરાશકર્તાઓ માટે રોલ આઉટ થઈ રહ્યું છે, અને GPT‑5.5 Pro ChatGPT માં Pro, Business અને Enterprise વપરાશકર્તાઓ માટે રોલ આઉટ થઈ રહ્યું છે. અમે GPT‑5.5 અને GPT‑5.5 Pro ને બહુ જલ્દી APIમાં લાવશું.

ChatGPT માં, GPT‑5.5 Thinking Plus, Pro, Business અને Enterprise વપરાશકર્તાઓ માટે ઉપલબ્ધ છે. GPT‑5.5 Pro, વધુ મુશ્કેલ પ્રશ્નો અને વધુ ચોકસાઈવાળા કામ માટે ડિઝાઇન કરાયેલ, Pro, Business અને Enterprise વપરાશકર્તાઓ માટે ઉપલબ્ધ છે.

Codex માં, GPT‑5.5 Plus, Pro, Business, Enterprise, Edu અને Go plans માટે 400K context window સાથે ઉપલબ્ધ છે. GPT‑5.5 Fast mode માં પણ ઉપલબ્ધ છે, જ્યાં તે 2.5x ખર્ચે 1.5x ઝડપી ટોકન્સ જનરેટ કરે છે.

API developers માટે, gpt-5.5 ટૂંક સમયમાં Responses અને ચેટ કમ્પ્લીશન્સ APIમાં ઉપલબ્ધ થશે, 1M input tokens દીઠ $5 અને 1M output tokens દીઠ $30 ના દરે, 1M context window સાથે. Batch અને Flex pricing ધોરણ API દરના અડધા દરે ઉપલબ્ધ છે, જ્યારે Priority processing ધોરણ દરના 2.5x પર ઉપલબ્ધ છે. અમે APIમાં gpt-5.5-pro પણ રિલીઝ કરીશું વધુ ઊંચી accuracy માટે, જેની કિંમત 1M input tokens દીઠ $30 અને 1M output tokens દીઠ $180 રહેશે. સંપૂર્ણ વિગતો માટે pricing page જુઓ.

જ્યારે GPT‑5.5 ની કિંમત GPT‑5.4 કરતાં વધારે છે, ત્યારે તે વધુ બુદ્ધિશાળી પણ છે અને ટોકન દૃષ્ટિએ ઘણું વધુ કાર્યક્ષમ પણ છે. Codex માં, અમે અનુભવને કાળજીપૂર્વક tune કર્યો છે જેથી મોટાભાગના વપરાશકર્તાઓ માટે GPT‑5.5, GPT‑5.4 કરતાં ઓછા ટોકન્સમાં વધુ સારા પરિણામો આપે, અને સાથે subscription levels પર ઉદાર usage પણ ચાલુ રાખે.

મૂલ્યાંકનો

કોડિંગ

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (જાહેર) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (આંતરિક)

73.1%

68.5%

-

-

-

-

વ્યાવસાયિક

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (જીત અથવા ટાઈ)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

Investment Banking Modeling Tasks (આંતરિક)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

કમ્પ્યુટર ઉપયોગ અને દ્રષ્ટિ

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro (ટૂલ્સ વિના)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro (ટૂલ્સ સાથે)

83.2%

82.1%

-

-

-

-

સાધન ઉપયોગ

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(મૂળ પ્રોમ્પ્ટ્સ)

98.0%

92.8%

-

-

-

-

** MCP Atlas: 2026 ના તાજેતરના એપ્રિલ અપડેટ પછી Scale AI ના પરિણામો.
*** Tau2-bench telecom: 5.5 અને 5.4 માટે મૂળ prompts સાથેના પરિણામો, અર્થાત prompt adjustment વિના. આમાં અન્ય labs ના તે પરિણામો સામેલ નથી જેમનું મૂલ્યાંકન prompt adjustments સાથે થયું હતું.

શૈક્ષણિક

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Humanity's Last Exam (ટૂલ્સ વિના)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam (ટૂલ્સ સાથે)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

સાયબર સુરક્ષા

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture-the-Flags challenge tasks (આંતરિક)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** સિસ્ટમ કાર્ડ્સમાં વપરાયેલ સૌથી કઠિન CTFs નો વધારાનો વિસ્તાર, જેમાં વધારાના કઠિન પડકારો સામેલ છે.

લાંબો કોન્ટેક્સ્ટ

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1mil f1

45.4%

9.4%

-

-

41.2% (Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1mil f1

58.5%

44.4%

-

-

72.0% (Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

-

-

32.2%

-

અમૂર્ત રિઝનિંગ

મૂલ્યાંકન

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (ચકાસાયેલ)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2 (ચકાસાયેલ)

85.0%

73.3%

-

83.3%

75.8%

77.1%

GPT ના evals માં રિઝનિંગ effort ને xhigh પર સેટ કરવામાં આવ્યો હતો અને તે research environment માં ચલાવવામાં આવ્યા હતા, જેના કારણે કેટલીક પરિસ્થિતિઓમાં production ChatGPT કરતાં થોડું જુદું output મળી શકે છે.

લેખક

OpenAI