డెవలపర్ల కోసం GPT‑5.1ను పరిచయం చేస్తున్నాము
ఈ రోజు API ప్లాట్ఫారమ్లో GPT‑5.1ను రిలీజ్ చేస్తున్నాము. ఇది GPT‑5 సిరీస్లోని తదుపరి మోడల్, ఇది విస్తృతమైన ఏజెంటిక్ మరియు కోడింగ్ టాస్క్ల కోసం ఇంటెలిజెన్స్ మరియు స్పీడ్లను సమతుల్యం చేస్తుంది.GPT‑5.1 టాస్క్ యొక్క క్లిష్టతను బట్టి తన థింకింగ్ టైమ్ను డైనమిక్గా మార్చుకుంటుంది, దీంతో సాధారణ రోజువారీ సింపుల్ టాస్క్లలో ఈ మోడల్ మరింత వేగంగా, టోకన్-ఎఫిషియెంట్గా పనిచేస్తుంది.ఈ మోడల్లో “no reasoning” మోడ్ కూడా ఉంది, దీని వల్ల లోతైన రిజనింగ్ అవసరం లేని టాస్క్లకు మరింత వేగంగా రిస్పాన్స్ ఇవ్వగలదు, అదే సమయంలో GPT‑5.1 యొక్క ఫ్రంటియర్ ఇంటెలిజెన్స్ను అలాగే నిలుపుకుంటుంది.
GPT‑5.1ను ఇంకా ఎఫిషియెంట్గా చేయడానికి, 24 గంటల వరకు క్యాష్ రిటెన్షన్ను సపోర్ట్ చేసే ఎక్స్టెండెడ్ ప్రాంప్ట్ క్యాషింగ్ను రిలీజ్ చేస్తున్నాము. దీంతో ఫాలో-అప్ ప్రశ్నలకు వేగంగా రిప్లైలు రావడంతో పాటు ఖర్చు కూడా తక్కువ అవుతుంది.మా Priority Processing(కొత్త విండోలో తెరుచుకుంటుంది) కస్టమర్లు కూడా GPT‑5తో పోల్చితే GPT‑5.1లో గణనీయంగా వేగమైన పనితీరును అనుభవిస్తారు.
కోడింగ్పై, GPT‑5.1ను మెరుగుపరచడానికి Cursor, Cognition, Augment Code, Factory, Warp వంటి స్టార్ట్అప్స్తో కలిసి దగ్గరగా పని చేశాము.కోడింగ్ పర్సనాలిటీ, స్టీరబిలిటీ, మరియు కోడ్ క్వాలిటీ.సాధారణంగా, కోడింగ్కు GPT‑5.1 మరింత ఇంట్యూటివ్గా అనిపిస్తుంది, అలాగే టాస్క్లు పూర్తవుతున్నప్పుడు యూజర్కు కనిపించే అప్డేట్లతో మరింత కమ్యూనికేటివ్గా వ్యవహరిస్తుంది.
చివరిగా, GPT‑5.1తో రెండు కొత్త టూల్స్ను పరిచయం చేస్తున్నాము: కోడ్ను మరింత విశ్వసనీయంగా ఎడిట్ చేయడానికి రూపొందించిన apply_patch టూల్, అలాగే మోడల్కు షెల్ కమాండ్లు రన్ చేసే వీలు ఇచ్చే ఒక షెల్ టూల్.
GPT‑5.1 అనేది GPT‑5 సిరీస్లోని తదుపరి అడ్వాన్స్మెంట్, మరియు డెవలపర్లు నమ్మదగిన ఏజెంటిక్ వర్క్ఫ్లోలను నిర్మించేందుకు మరింత ఇన్టెలిజెంట్ మరియు కెపబుల్ మోడళ్లలో పెట్టుబడి పెట్టడం కొనసాగించాలన్న మా ప్రణాళిక ఉంది.
GPT‑5.1ను ఇంకా వేగంగా చేయడానికి, దాని థింకింగ్ను ట్రైన్ చేసే విధానాన్ని పూర్తిగా మార్చేశాము.సింపుల్ మరియు స్ట్రెయిట్ఫార్వర్డ్ టాస్క్లలో, GPT‑5.1 తక్కువ టోకన్లతో థింకింగ్ చేస్తుంది, దీంతో ప్రోడక్ట్ అనుభవం మరింత వేగంగా మారుతుంది మరియు టోకన్ ఖర్చులు కూడా తగ్గుతాయి.అదనపు థింకింగ్ అవసరమైన కఠినమైన టాస్క్లలో, GPT‑5.1 పట్టుదలగా పనిచేస్తూ ఆప్షన్లను పరిశీలిస్తుంది, తన పనిను చెక్ చేస్తుంది, తద్వారా రీలైయబిలిటీని గరిష్టం చేస్తుంది.
Balyasny Asset Management(కొత్త విండోలో తెరుచుకుంటుంది) తెలిపిందేమిటంటే, GPT‑5.1 “మా పూర్తి డైనమిక్ ఎవాల్యూయేషన్ సూట్లో GPT‑4.1 మరియు GPT‑5 రెండింటికంటే మెరుగ్గా పనిచేసింది, అలాగే GPT‑5 కంటే 2-3x ఎక్కువ వేగంతో రన్ అయింది.”అంతే కాకుండా, తమ టూల్-హెవీ రిజనింగ్ టాస్క్లలో GPT‑5.1 “సారంగా చూస్తే, సమానమైన లేదా ఇంకా మెరుగైన క్వాలిటీతో లీడింగ్ కంపెటిటర్ల కన్నా దాదాపు సగం టోకన్లనే క్రమం తప్పకుండా ఉపయోగించింది” అని వారు చెప్పారు.అదేవిధంగా, AI ఇన్షూరెన్స్ BPO Pace(కొత్త విండోలో తెరుచుకుంటుంది) కూడా ఈ మోడల్ను టెస్ట్ చేసి, “మా ఎవాల్స్లో GPT‑5 మరియు ఇతర లీడింగ్ మోడల్ల కంటే ఎక్కువ_accuracyతో, మా ఏజెంట్లు GPT‑5.1లో 50% వేగంగా రన్ అవుతున్నారు” అని తెలిపారు.
GPT‑5.1 తన థింకింగ్ టైమ్ను GPT‑5తో పోలిస్తే మరింత డైనమిక్గా మార్చుకుంటుంది.ప్రతినిధి ChatGPT టాస్క్ల పంపిణీలో, GPT‑5.1 ఈజీ టాస్క్లలో — హై రిజనింగ్ ఎఫర్ట్ ఉన్నప్పటికీ — ఎంతో వేగంగా పనిచేస్తుంది.
ఉదాహరణకు, "ప్రపంచవ్యాప్తంగా ఇన్స్టాల్ చేయబడిన ప్యాకేజీలను జాబితా చేయడానికి ఒక npm ఆదేశాన్ని చూపించండి" అని అడిగినప్పుడు, GPT‑5.1 10 సెకన్లకు బదులుగా 2 సెకన్లలో సమాధానం ఇస్తుంది.
GPT-5 (Medium) సుమారు 250 టోకన్లు (సుమారు 10 సెకన్లు) తీసుకుంటుంది
GPT-5.1 (Medium) సుమారు 50 టోకన్లు (సుమారు 2 సెకన్లు) తీసుకుంటుంది
డెవలపర్లు ఇప్పుడు reasoning అవసరం లేకుండా GPT‑5.1ను వాడుకోగలరు; అందుకు reasoning_effortను 'none'గా సెట్ చేస్తే సరిపోతుంది.దీంతో, GPT‑5.1 యొక్క అధిక ఇంటెలిజెన్స్ను అలాగే ఉంచుతూ, లేటెన్సీ-సెన్సిటివ్ యూజ్ కేసుల్లో ఈ మోడల్ నాన్-రిజనింగ్ మోడల్లా ప్రవర్తిస్తుంది, అదనంగా హై-పర్ఫార్మెన్స్ టూల్-కాలింగ్ బోనస్ కూడా అందిస్తుంది.‘minimal’ reasoningతో ఉన్న GPT‑5తో పోలిస్తే, no reasoningతో ఉన్న GPT‑5.1 parallel టూల్ కాలింగ్లో (ఇదే end-to-end టాస్క్ కంప్లీషన్ స్పీడ్ను పెంచుతుంది), కోడింగ్ టాస్క్లలో, ఇన్స్ట్రక్షన్లను ఫాలో కావడంలో, సెర్చ్ టూల్లను వాడడంలో మరింత మెరుగ్గా పనిచేస్తుంది — ఇంకా మా API ప్లాట్ఫారమ్లో web search(కొత్త విండోలో తెరుచుకుంటుంది) ను కూడా సపోర్ట్ చేస్తుంది.Sierra(కొత్త విండోలో తెరుచుకుంటుంది) తెలిపిందేమిటంటే, తమ రియల్-వరల్డ్ ఎవాల్స్లో “no reasoning” మోడ్లో ఉన్న GPT‑5.1, GPT‑5 minimal reasoningతో పోలిస్తే low-latency టూల్-కాలింగ్ పనితీరులో “20% మెరుగుదల” చూపించింది.
reasoning_effortలో 'none' అనే విలువను అందుబాటులోకి తేవడంతో, డెవలపర్లు ఇప్పుడు తమ యూజ్ కేస్కు కావలసిన స్పీడ్, ఖర్చు, మరియు ఇంటెలిజెన్స్ మధ్య బ్యాలెన్స్ను మరింత ఫ్లెక్సిబుల్గా, తమ నియంత్రణలో ఉంచుకుని నిర్ణయించుకోగలరు.GPT‑5.1 డిఫాల్ట్గా 'none'ను ఉపయోగిస్తుంది, ఇది లేటెన్సీ-సెన్సిటివ్ వర్క్లోడ్లకు అత్యంత అనుకూలం.అధిక క్లిష్టత ఉన్న టాస్క్ల కోసం డెవలపర్లు 'low' లేదా 'medium'ను ఎంచుకోవాలని, అలాగే స్పీడ్ కంటే ఇంటెలిజెన్స్ మరియు రీలైయబిలిటీ ముఖ్యం అయిన సందర్భాల్లో 'high'ను ఉపయోగించాలని మేము సూచిస్తున్నాము.
ఎక్స్టెండెడ్ క్యాషింగ్ వల్ల, ప్రాంప్ట్లు క్యాష్లో కొన్ని నిమిషాల బదులుగా 24 గంటల వరకు యాక్టివ్గా ఉంటాయి, దీని వల్ల రిజనింగ్ ఎఫిషియెన్సీ గణనీయంగా మెరుగుపడుతుంది.రిటెన్షన్ విండో ఎక్కువగా ఉండడం వల్ల, మరిన్ని ఫాలో-అప్ రిక్వెస్ట్లు క్యాష్లో ఉన్న కాంటెక్స్ట్ను ఉపయోగించుకోగలవు — దీనివల్ల లేటెన్సీ తగ్గి, ఖర్చు తగ్గి, మల్టీ-టర్న్ చాట్, కోడింగ్ సెషన్లు, లేదా నాలెడ్జ్ రిట్రీవల్ వర్క్ఫ్లోల వంటి దీర్ఘకాల ఇంటరాక్షన్లలో పనితీరు మరింత స్మూత్గా ఉంటుంది.
ప్రాంప్ట్ క్యాష్ ప్రైసింగ్లో మార్పులేవి లేవు; క్యాష్ చేసిన ఇన్పుట్ టోకన్లు క్యాష్ చేయని టోకన్లతో పోలిస్తే 90% చౌకగా ఉంటాయి, అలాగే క్యాష్ రైట్స్ లేదా స్టోరేజ్ కోసం ఎటువంటి అదనపు ఛార్జ్ ఉండదు.GPT‑5.1తో ఎక్స్టెండెడ్ క్యాషింగ్ను వాడడానికి, రెస్పాన్సెస్ లేదా చాట్ కంప్లీషన్స్ APIలో “prompt_cache_retention='24h'” అనే పరామీటర్ను జోడించండి. మరిన్ని వివరాలకు ప్రాంప్ట్ క్యాషింగ్ డాక్స్(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
GPT‑5.1, GPT‑5 యొక్క కోడింగ్ కెపబిలిటీలను మరింత స్టీరబుల్ కోడింగ్ పర్సనాలిటీ, తక్కువ ఓవర్థింకింగ్, మెరుగైన కోడ్ క్వాలిటీ, టూల్ కాల్ సీక్వెన్స్ల సమయంలో యూజర్కి టార్గెట్ చేసిన మంచి అప్డేట్ మెసేజ్లు (ప్రీయాంబిల్స్), ఇంకా మరింత ఫంక్షనల్ ఫ్రంట్ఎండ్ డిజైన్లతో విస్తరిస్తుంది — ముఖ్యంగా తక్కువ రిజనింగ్ ఎఫర్ట్లో.
క్విక్ కోడ్ ఎడిట్స్ వంటి సింపుల్ కోడింగ్ టాస్క్లలో, GPT‑5.1 యొక్కవేగంగా రన్ అవ్వడం వల్ల ముందుకు–వెనక్కు ఇటరేట్ చేయడం మరింత ఈజీ అవుతుంది.GPT‑5.1 యొక్క సింపుల్ టాస్క్లలో స్పీడ్ పెరగడం వల్ల కఠినమైన టాస్క్ల్లో పనితీరు ఎక్కడా తగ్గదు.SWE-bench Verifiedపై, GPT‑5.1 GPT‑5 కంటే ఇంకా ఎక్కువగా పనిచేసి 76.3%ను చేరింది.
లో SWE-bench Verified, మోడల్కి ఒక కోడ్ రిపోజిటరీ మరియు ఇష్యూ డిస్క్రిప్షన్ ఇవ్వబడుతుంది, మరియు ఆ ఇష్యూని పరిష్కరించడానికి పాచ్ను జనరేట్ చేయాలి. లేబల్లు రిజనింగ్ ఎఫర్ట్ను సూచిస్తాయి. అక్యురసీ మొత్తం 500 సమస్యలపై సగటు తీసుకుంటారు. అన్ని మోడల్లు JSON-బేస్డ్ apply_patch టూల్తో హార్నెస్ను ఉపయోగించాయి.
కొన్ని కోడింగ్ కంపెనీల నుంచి GPT‑5.1పై మాకు ప్రారంభ ఫీడ్బ్యాక్ వచ్చింది.వారి అభిప్రాయాలు ఇవి:
- Augment Code(కొత్త విండోలో తెరుచుకుంటుంది) GPT‑5.1ను “తక్కువ వృథా యాక్షన్లతో మరింత డిలిబరేట్గా, మరింత ఎఫిషియెంట్ రిజనింగ్తో, ఇంకా టాస్క్పై మంచి ఫోకస్తో పనిచేస్తుంది” అని పేర్కొంది. అలాగే, “మరింత యాక్యురేట్ మార్పులు, స్మూత్ పుల్ రిక్వెస్ట్లు, మరియు మల్టీ-ఫైల్ ప్రాజెక్ట్లలో వేగమైన ఇటరేషన్” చూస్తున్నామని తెలిపారు.
- Cline(కొత్త విండోలో తెరుచుకుంటుంది) తమ ఎవాల్స్లో “GPT‑5.1 మా డిఫ్ ఎడిటింగ్ బెంచ్మార్క్లో 7% మెరుగుదలతో SOTA సాధించింది, దీనివల్ల క్లిష్టమైన కోడింగ్ టాస్క్లకు అసాధారణ రీలైయబిలిటీ చూపింది” అని తెలిపారు.
- CodeRabbit(కొత్త విండోలో తెరుచుకుంటుంది) GPT‑5.1ను “PR రివ్యూల కోసం మా టాప్ మోడల్ ఆఫ్ చాయిస్” అని పేర్కొంది.
- Cognition(కొత్త విండోలో తెరుచుకుంటుంది) తెలిపిందేమిటంటే, GPT‑5.1 “మీరు ఏమి కోరుకుంటున్నారో అర్థం చేసుకోవడంలో, అలాగే అది పూర్తి చేసే వరకు మీతో కలిసి పనిచేయడంలో గణనీయంగా మెరుగ్గా ఉంది.”
- Factory(కొత్త విండోలో తెరుచుకుంటుంది) తెలిపిందేమిటంటే, “GPT‑5.1 గణనీయంగా వేగమైన రిస్పాన్స్లు ఇస్తుంది, టాస్క్కు తగ్గట్టుగా తన రిజనింగ్ లోతును అనుసరిస్తుంది, ఓవర్థింకింగ్ను తగ్గిస్తుంది, అలాగే మొత్తం డెవలపర్ అనుభవాన్ని మెరుగుపరుస్తుంది.”
- Warp(కొత్త విండోలో తెరుచుకుంటుంది) GPT‑5.1ను కొత్త యూజర్లకు డిఫాల్ట్గా చేస్తున్నది, ఎందుకంటే ఇది “GPT‑5 సిరీస్ అందించిన అద్భుతమైన ఇంటెలిజెన్స్ గెయిన్స్పై నిర్మించుకుని, మరింత రెస్పాన్సివ్ మోడల్గా పనిచేస్తుంది” అని వారు చెప్పారు.
"GPT 5.1 సాధారణ LLM కాదు — ఇది నిజంగా ఏజెంటిక్, నేను ఇప్పటివరకు టెస్ట్ చేసిన మోడళ్లలో సహజంగా అత్యంత ఆటోనమస్గా పనిచేసే మోడల్."ఇది మీరు రాసినట్లే రాస్తుంది, మీరు కోడ్ చేసినట్లే కోడ్ చేస్తుంది, క్లిష్టమైన ఇన్స్ట్రక్షన్లను ఈజీగా ఫాలో అవుతుంది, అలాగే ఫ్రంట్ఎండ్ టాస్క్లలో అద్భుతంగా పనిచేస్తూ మీ ప్రస్తుత కోడ్బేస్లో సహజంగా కలిసి పోతుంది.Responses APIలో దీని పూర్తి సామర్థ్యాన్ని నిజంగా అన్లాక్ చేసుకోవచ్చు, మరియు మా IDEలో దీన్ని అందించగలగడం మాకు చాలా ఎగ్జైటింగ్గా ఉంది."
GPT‑5.1తో రెండు కొత్త టూల్స్ను పరిచయం చేస్తున్నాము, ఇవి డెవలపర్లు Responses APIలో ఈ మోడల్ను మరింతగా ఉపయోగించుకోవడానికి సహాయపడతాయి: JSON escaping అవసరం లేకుండా కోడ్ ఎడిట్స్ను ఇంకా విశ్వసనీయంగా చేయడానికి freeform apply_patch tool, అలాగే మీ లోకల్ మిషీన్పై రన్ చేసే కమాండ్లను రాయడానికి మోడల్కు వీలు కల్పించే ఒక shell tool.
ఫ్రీఫార్మ్ apply_patch టూల్, స్ట్రక్చర్డ్ డిఫ్లను ఉపయోగించి GPT‑5.1కు కోడ్బేస్లో ఫైల్లను క్రియేట్ చేయడం, అప్డేట్ చేయడం, డిలీట్ చేయడం చేయగల సామర్థ్యాన్ని ఇస్తుంది.ఎడిట్స్ను సూచించడం మాత్రమే కాకుండా, మోడల్ అప్లికేషన్ అప్లై చేసి తిరిగి రిపోర్ట్ చేసే పాచ్ ఆపరేషన్లను జనరేట్ చేస్తుంది, దీంతో ఇటరేటివ్, మల్టీ-స్టెప్ కోడ్ ఎడిటింగ్ వర్క్ఫ్లోలు సాధ్యమవుతాయి.
Responses APIలో apply_patch టూల్ను వాడడానికి, "tools": [{“type”: “apply_patch”}] şeklలో tools arrayలో దాన్ని చేర్చండి. ఆపై, మీ ఇన్పుట్లో ఫైల్ కంటెంట్ను చేర్చండి లేదా ఫైల్ సిస్టమ్తో ఇంటరాక్ట్ అయ్యేందుకు మోడల్కు అవసరమైన టూల్స్ను ఇవ్వండి.మీ ఫైల్ సిస్టమ్లో మీరు అప్లై చేసే డిఫ్లతో ఫైల్లను క్రియేట్ చేయడానికి, అప్డేట్ చేయడానికి, లేదా డిలీట్ చేయడానికి మోడల్ apply_patch_call ఐటమ్లను జనరేట్ చేస్తుంది.apply_patch టూల్తో ఎలా ఇంటిగ్రేట్ కావాలో తెలుసుకోవడానికి, మా డెవలపర్ డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
షెల్ టూల్, కంట్రోల్డ్ కమాండ్-లైన్ ఇంటర్ఫేస్ ద్వారా మోడల్కి లోకల్ కంప్యూటర్తో ఇంటరాక్ట్ అయ్యే వీలు ఇస్తుంది.మోడల్ షెల్ కమాండ్లను సూచిస్తుంది; డెవలపర్ ఇంటిగ్రేషన్ అవి ఎగ్జిక్యూట్ చేసి అవుట్పుట్లను తిరిగి ఇస్తుంది.ఇది సింపుల్ ప్లాన్–ఎగ్జిక్యూట్ లూప్ను సృష్టిస్తుంది, దీని ద్వారా మోడల్ సిస్టమ్ను ఇన్స్పెక్ట్ చేయడం, యుటిలిటీలను రన్ చేయడం, అవసరమైన డేటాను సేకరించడం చేస్తూ టాస్క్ను పూర్తిచేసే వరకు కొనసాగుతుంది.
Responses APIలో షెల్ టూల్ను ఉపయోగించడానికి, డెవలపర్లు "tools": [{“type”: “shell”}] తో టూల్స్ శ్రేణిలో చేర్చవచ్చు. ఎగ్జిక్యూట్ చేయాల్సిన షెల్ కమాండ్లను కలిగి ఉన్న "shell_call" ఐటమ్లను API జనరేట్ చేస్తుంది.డెవలపర్లు లోకల్ ఎన్విరాన్మెంట్లో ఆ కమాండ్లను ఎగ్జిక్యూట్ చేసి, వాటి ఎగ్జిక్యూషన్ రిజల్ట్లను తదుపరి API రిక్వెస్ట్లో "shell_call_output" ఐటమ్గా తిరిగి పంపిస్తారు.మా డెవలపర్ డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది)లో మరింత తెలుసుకోండి.
GPT‑5.1 మరియు gpt-5.1-chat-latestAPIలోని అన్నీ పేడ్ టియర్లలో డెవలపర్లకు ఇవి అందుబాటులో ఉన్నాయి.ధరలు మరియు రేటు పరిమితులు(కొత్త విండోలో తెరుచుకుంటుంది) GPT‑5లాగే ఉంటాయి.మేము gpt-5.1-codex ను కూడా విడుదల చేస్తున్నాము మరియు API లో gpt-5.1-codex-mini. బహుళ కోడింగ్ టాస్క్లలో GPT‑5.1 అద్భుతంగా పనిచేస్తున్నప్పటికీ, gpt-5.1-codex.Codex లేదా Codex-లాంటి హార్నెస్లలో దీర్ఘకాలం నడిచే ఏజెంటిక్ కోడింగ్ టాస్క్ల కోసం ఈ మోడల్లు ఆప్టిమైజ్ చేయబడ్డాయి.
డెవలపర్లు మా GPT‑5.1 డెవలపర్ డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది) మరియు మోడల్ ప్రాంప్టింగ్ గైడ్(కొత్త విండోలో తెరుచుకుంటుంది) ను ఉపయోగించి బిల్డింగ్ను ప్రారంభించవచ్చు.ప్రస్తుతం APIలో GPT‑5ను డిప్రికేట్ చేసే ప్రణాళిక లేదు; అలాంటి నిర్ణయం తీసుకుంటే, ముందుగానే డెవలపర్లకు నోటీస్ ఇస్తాము.
నిజమైన ఏజెంటిక్ మరియు కోడింగ్ పనికి అత్యంత సామర్థ్యమైన, నమ్మదగిన మోడల్లను ఇటరేటివ్గా విడుదల చేయడంలో మా కట్టుబాటు కొనసాగుతోంది — ఇవి ఎఫిషియెంట్గా ఆలోచించే, వేగంగా ఇటరేట్ అయ్యే, క్లిష్టమైన టాస్క్లను హ్యాండిల్ చేస్తూ డెవలపర్లను వారి ఫ్లోలోనే ఉంచే మోడల్లు.అడాప్టివ్ రిజనింగ్, మరింత బలమైన కోడింగ్ పనితీరు, క్లియర్ యూజర్-ఫేసింగ్ అప్డేట్లు, అలాగే apply_patch మరియు shell వంటి కొత్త టూల్స్తో, GPT‑5.1 మీ బిల్డింగ్ ప్రాసెస్లో frictionను తగ్గించేలా రూపొందించబడింది.ఇక్కడ మా పెట్టుబడిని ఇంకా బలంగా కొనసాగిస్తున్నాము; రాబోయే వారాలు మరియు నెలల్లో మరింత సామర్థ్యమైన ఏజెంటిక్ మరియు కోడింగ్ మోడల్స్ను మీరు ఆశించవచ్చు.
మూల్యాంకనం | GPT‑5.1 (హై) | GPT‑5 (హై) |
SWE-bench Verified | 76.3% | 72.8% |
GPQA Diamond | 88.1% | 85.7% |
AIME 2025 | 94.0% | 94.6% |
FrontierMath | 26.7% | 26.3% |
MMMU | 85.4% | 84.2% |
Tau2-బెంచ్ ఎయిర్లైన్ | 67.0% | 62.6% |
Tau2-బెంచ్ టెలికామ్* | 95.6% | 96.7% |
Tau2-బెంచ్ రిటైల్ | 77.9% | 81.10% |
బ్రౌజ్కాంప్ లాంగ్ కాంటెక్స్ట్ 128k | 90.0% | 90.0% |
* Tau2-బెంచ్ టెలికాం కోసం, GPT‑5.1 పనితీరును మెరుగుపరచడానికి మేము ఒక చిన్న, సాధారణంగా సహాయపడే ప్రాంప్ట్ ఇచ్చాము.


