ఇవాళ, మా API ప్లాట్ఫారమ్లో కోడింగ్ మరియు ఏజెంటిక్ పనులు కోసం ఇప్పటి వరకు ఉన్న మా అత్యుత్తమ నమూనా— GPT‑5ని రిలీజ్ చేస్తున్నాం.
GPT‑5 కీలక కోడింగ్ బెంచ్మార్క్ల్లో అత్యాధునిక (SOTA), SWE-bench ధృవీకరణలో 74.9% మరియు Aider polyglotలో 88% స్కోర్ సాధించింది. GPT‑5ని నిజమైన కోడింగ్ కొలాబొరేటర్గా శిక్షణ ఇచ్చాం. ఇది హై-క్వాలిటీ కోడ్ తయారీలో, బగ్లను సరిచేయడంలో, కోడ్ ఎడిట్ చేయడంలో, క్లిష్టమైన కోడ్బేస్ల గురించి ప్రశ్నలకు సమాధానం చెప్పడంలో అద్భుతంగా రాణిస్తుంది. ఈ నమూనా స్టీరియబుల్ మరియు సహకారాత్మకం—ఇది అధిక ఖచ్చితత్వంతో చాలా వివరణాత్మకమైన సూచనలను అనుసరించగలదు మరియు టూల్ కాల్స్ ముందు మరియు వాటి మధ్య దాని కార్యాల గురించి ముందస్తు వివరణలను అందించగలదు. ఈ నమూనా ఫ్రంట్-ఎండ్ కోడింగ్లో కూడా అద్భుతం, ఇంటర్నల్ టెస్టింగ్లో 70% సార్లు OpenAI o3 ని ఫ్రంట్-ఎండ్ వెబ్ డెవలప్మెంట్లో ఓడించింది.
మేం స్టార్టప్లు మరియు ఎంటర్ప్రైజెస్లోని ఎర్లీ టెస్టర్లతో కలిసి రియల్-వరల్డ్ కోడింగ్ పనులను GPT‑5కు శిక్షణ ఇచ్చాం కర్సర్ ప్రకారం GPT‑5 “వాడిన స్మార్ట్ నమూనా” మరియు “అద్భుతమైన ఇంటెలిజెంట్, నడిపించడం సులభం, ఇంకా ఇతర నమూనాల్లో చూడని పర్సనాలిటీ కూడా ఉంది.” విండ్సర్ఫ్ GPT‑5 వారి ఎవాల్స్లో SOTA అని, మరియు “ఇతర ఫ్రంటియర్ నమూనాలతో పోలిస్తే టూల్ కాలింగ్ ఎర్రర్ రేట్ సగం మాత్రమే ఉంది” అని తెలిపింది. వెర్సెల్ “ఇది అత్యుత్తమ ఫ్రంట్ఎండ్ AI నమూనా, ఎస్తెటిక్ సెన్స్ మరియు కోడ్ క్వాలిటీ రెండింటిలోనూ టాప్ పనితీరు చూపి, దానిని ప్రత్యేక కేటగిరీలో నిలిపింది.” అని పేర్కొంది.
GPT‑5 దీర్ఘకాలంగా నడుస్తున్న ఏజెంటిక్ పనుల్లో కూడా రాణిస్తుంది—కేవలం 2 నెలల క్రితం రిలీజ్ చేసిన టూల్-కాలింగ్ బెంచ్మార్క్ అయిన τ2-బెంచ్ టెలికాం (96.7%) పై SOTA ఫలితాలను సాధించింది. GPT‑5 మెరుగైన టూల్ ఇంటెలిజెన్స్ దాన్ని వరుసలోనూ, సమాంతరంగా డజన్ల కొద్దీ టూల్ కాల్స్ని నమ్మదగిన రీతిలో చైన్ చేయనివ్వడం ద్వారా, తన మార్గం తప్పకుండా కాంప్లెక్స్ రియల్-వరల్డ్ పనులను ఎండ్ టు ఎండ్ ఎగ్జిక్యూట్ చేయడంలో చాలా మెరుగ్గా చేసింది. ఇది టూల్ ఇన్స్ట్రక్షన్స్ని మరింత ఖచ్చితంగా ఫాలో అవుతుంది, టూల్ ఎర్రర్లను మెరుగ్గా హ్యాండిల్ చేస్తుంది, అలాగే లాంగ్-కాంటెక్ట్స్ కంటెంట్ రిట్రీవల్లో అద్భుతంగా రాణిస్తుంది. GPT‑5 “[వారి] అంతర్గత బెంచ్మార్క్లపై ఒకే నమూనా నుండి ఇప్పటివరకు చూసిన అత్యుత్తమ పనితీరును సాధించింది [వారు చేసిన]” అని మానస్ చెప్పారు. నోషన్ “[నమూనా యొక్క] వేగవంతమైన ప్రతిస్పందనలు, ముఖ్యంగా తక్కువ తార్కిక మోడ్లో, మీకు ఒకే ప్రయత్నంలో సంక్లిష్ట పనులు పరిష్కరించాల్సినప్పుడు GPT‑5ను ఆదర్శ నమూనాగా చేస్తాయి” అని పేర్కొంది. ఇండీటెక్స్ “నిజంగా [GPT‑5]ని ప్రత్యేకంగా నిలబెట్టేది దాని తర్కం యొక్క లోతు: నిజమైన విషయ-విషయ అవగాహనను ప్రతిబింబించే సూక్ష్మమైన, బహుళ-స్థరాల సమాధానాలు” అని పంచుకుంది.
నమూనా ప్రతిస్పందనలపై డెవలపర్లకు ఎక్కువ నియంత్రణ ఇవ్వడానికి మా APIలో కొత్త ఫీచర్లను పరిచయం చేస్తున్నాం. సమాధానాలు చిన్నవి మరియు స్పష్టంగా లేదా పొడవైన మరియు సమగ్రమైనవిగా ఉండేలా నియంత్రించడంలో సాయపడటానికి GPT‑5 కొత్త verbosity పారామీటర్కు మద్దతు ఇస్తుంది (విలువలు: low, medium, high). GPT‑5 యొక్క reasoning_effort పారామితి ఇప్పుడు విస్తృతమైన తార్కికం లేకుండా, సమాధానాలను వెనుకకు వేగంగా పొందడానికి కనీస విలువను తీసుకోగలదు. మేం కొత్త టూల్ టైప్—కస్టమ్ టూల్స్—ని కూడా జోడించాము, దీని ద్వారా GPT‑5 JSON బదులుగా ప్లెయిన్టెక్ట్స్తో టూల్స్ని కాల్ చేయగలదు. కస్టమ్ టూల్స్ డెవలపర్ల ఇచ్చే సందర్భ-ఉచిత గ్రామర్స్ ద్వారా కన్స్ట్రెయింట్ చేయడాన్ని మద్దతు ఇస్తాయి.
డెవలపర్లు ఆఫ్ ట్రేడ్ మరింత వశ్యత ఇవ్వాలని పనితీరు, ఖర్చు, మరియు ల్యాటెన్సీ ఇవ్వడానికి —మేం API- gpt-5, gpt-5-మినీ, మరియు gpt-5- నానో మూడు పరిమాణాలలో GPT‑5 విడుదల చేస్తున్నాం. ChatGPTలో GPT‑5 రీజనింగ్, నాన్-రీజనింగ్, మరియు రౌటర్ నమూనాల సిస్టమ్గా ఉంటే, API ప్లాట్ఫారమ్లో GPT‑5 అనేది ChatGPTలో గరిష్ట పనితీరును అందించే రీజనింగ్ నమూనా. గమనించదగ్గది ఏమిటంటే, మినిమల్ రీజనింగ్తో ఉన్న GPT‑5, ChatGPTలో ఉన్న నాన్-రీజనింగ్ నమూనాకి భిన్నమైనది, మరియు డెవలపర్ల కోసం మెరుగ్గా ట్యూన్ చేయబడింది. ChatGPTలో ఉపయోగించిన నాన్-రీజనింగ్ నమూనా gpt-5-chat-latest గా అందుబాటులో ఉంది.
ChatGPTలో GPT‑5 గురించి చదవడానికి, ఇతర ChatGPT మెరుగుదలల గురించి మరింత తెలుసుకోవడానికి, మా పరిశోధన బ్లాగ్ చూడండి. ఎంటర్ప్రైజ్లు GPT‑5 వాడకం గురించి ఎలా ఉత్సాహంగా ఉన్నాయో తెలుసుకోవడానికి మా ఎంటర్ప్రైజ్ బ్లాగ్ చూడండి.
GPT‑5 మేం ఇప్పటివరకు రిలీజ్ చేసిన వాటిలో అత్యంత శక్తివంతమైన కోడింగ్ నమూనా. ఇది కోడింగ్ బెంచ్మార్క్లు మరియు రియల్-వరల్డ్ యూజ్ కేసుల్లో o3 ని మించిపోతుంది, అలాగే Cursor, Windsurf, GitHub Copilot, మరియు Codex CLI వంటి ఏజెంటిక్ కోడింగ్ ప్రొడక్ట్ల్లో మెరుగుదల చూపించడానికి ఫైన్-ట్యూన్ చేయబడింది. GPT‑5 మా ఆల్ఫా టెస్టర్లను ఆకట్టుకుంది, వారి అనేక ప్రైవేట్ అంతర్గత మూల్యాంకనాల్లో రికార్డులను నెలకొల్పింది.
రియల్-వరల్డ్ కోడింగ్ పనుల కోసం GPT‑5 పై ఎర్లీ ఫీడ్బ్యాక్
“GPT-5 మేం వాడిన స్మార్టెస్ట్ కోడింగ్ నమూనా.” మా టీమ్ GPT-5ని అద్భుతంగా ఇంటెలిజెంట్గా, సులభంగా నియంత్రించగలిగేలా, ఇంకా ఇతర నమూనాలలో చూడని ప్రత్యేకమైన వ్యక్తిత్వం ఉందని గుర్తించింది. ఇది ట్రికీ, లోతుగా దాగి ఉన్న బగ్స్ని మాత్రమే కాకుండా, లాంగ్ మల్టీ-టర్న్ బ్యాక్గ్రౌండ్ ఏజెంట్స్ని కూడా నడపగలదు, కాంప్లెక్స్ పనులని ఎండ్ వరకు పూర్తి చేస్తుంది—ఇలాంటి సమస్యల వల్ల ఇతర నమూనాల ఇరుక్కుపోయేవి. PRs స్కోపింగ్ మరియు ప్లానింగ్ నుండి ఎండ్-టు-ఎండ్ బిల్డ్స్ పూర్తి చేయడం వరకు ప్రతిరోజూ మా డైలీ డ్రైవర్గా మారింది.”
రియల్-వరల్డ్ సాఫ్ట్వేర్ ఇంజనీరింగ్ పనులపై ఆధారపడి ఉన్న SWE-bench ధృవీకరించిన మూల్యాంకనాల్లో, GPT‑5 74.9% స్కోర్ సాధించింది, ఇది o3 యొక్క 69.1% కంటే ఎక్కువ. గమనించదగిన విషయం ఏమిటంటే, GPT‑5 తన హై స్కోర్ను మరింత సమర్థత మరియు వేగంతో సాధించింది: హై రీజనింగ్ ఎఫర్ట్ వద్ద ఉన్న o3 తో పోలిస్తే, GPT‑5 22% తక్కువ అవుట్పుట్ టోకెన్స్ మరియు 45% తక్కువ టూల్ కాల్స్ వాడుతుంది.
SWE-bench ధృవీకరించబడిన లో, ఒక నమూనాకు కోడ్ రిపోజిటరీ మరియు సమస్య వివరణ ఇవ్వబడతాయి, మరియు సమస్యను పరిష్కరించడానికి ప్యాచ్ను ఉత్పత్తి చేయాలి. టెక్ట్స్ లేబల్లు రీజనింగ్ ఎఫర్ట్ను సూచిస్తాయి. మా స్కోర్లు, మా ఇన్ఫ్రాస్ట్రక్చర్లో నమ్మకంగా పాస్ కాని 500 సమస్యల్లో 23ని తప్పించాయి. GPT‑5కి సొల్యూషన్లను పూర్తిగా వెరిఫై చేయడాన్ని హైలైట్ చేసే చిన్న ప్రాంప్ట్ ఇవ్వబడింది; అదే ప్రాంప్ట్ o3కి ఉపయోగం కాలేదు.
కోడ్ ఎడిటింగ్పై ఎవాల్యుయేషన్ అయిన Aider polyglot లో, GPT‑5 88% అనే కొత్త రికార్డు సాధించింది, o3 తో పోలిస్తే ఎర్రర్ రేట్లో మూడో వంతు తగ్గుదల ఉంది.
Aider polygot(కొత్త విండోలో తెరుచుకుంటుంది) (తేడా)లో, ఒక నమూనాకు ఎక్సర్సిజమ్ నుండి కోడింగ్ అభ్యాసం ఇవ్వబడుతుంది మరియు దాని పరిష్కారాన్ని కోడ్ డిఫ్గా రాయాలి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్తో నడపబడ్డాయి.
మేం కూడా GPT‑5 కోడ్బేస్ల్లో లోతుగా విశ్లేషించడంలో అద్భుతంగా ఉందని, వివిధ భాగాలు ఎలా పనిచేస్తాయో లేదా ఎలా ఇంటర్ఆపరేట్ అవుతాయో అన్న ప్రశ్నలకు సమాధానాలు ఇవ్వడంలో దాని సామర్థ్యాన్ని గుర్తించాం. OpenAI ఉపబల అభ్యాసం స్టాక్ వలె క్లిష్టమైన కోడ్బేస్లో, మేం GPT‑5 మా కోడ్ గురించి తర్కం చేయడంలో మరియు ప్రశ్నలకు సమాధానం ఇవ్వడంలో మాకు సాయపడుతుందని, మా రోజువారీ పనిని వేగవంతం చేస్తుందని కనుగొంటున్నాం.
వెబ్ యాప్ల కోసం ఫ్రంట్ఎండ్ కోడ్ రూపొందించేటప్పుడు, GPT‑5 మరింత ఎస్తెటిక్-మైండెడ్, అంబిషస్, మరియు యాక్యురేట్గా ఉంటుంది. o3తో సైడ్-బై-సైడ్ కంపారిసన్స్లో, 70% సార్లు మా టెస్టర్లు GPT‑5ని ప్రిఫర్ చేశారు.
సింగిల్ ప్రాంప్ట్తో GPT‑5 చేయగల కొన్ని సరదా, ప్రత్యేకంగా ఎంచుకున్న ఉదాహరణలు ఉన్నాయి:
ప్రేరేపించు: దయచేసి కాఫీ ప్రియుల కోసం $200/నెల సబ్స్క్రిప్షన్ అందించే సేవకు ఒక అందమైన, వాస్తవిక ల్యాండింగ్ పేజీని ఉత్పత్తి చేయి, ఇది కాఫీ వేయించడం మరియు అత్యుత్తమ ఎస్ప్రెస్సో సృష్టించు కోసం పరికరాల అద్దె మరియు కోచింగ్ అందిస్తుంది. లక్ష్య ప్రేక్షకులు బే ఏరియాలోని మధ్య వయస్కులైన వ్యక్తులు, వారు టెక్ రంగంలో పని చేసే అవకాశం ఉంది, విద్యావంతులు, ఖర్చు చేయదగిన ఆదాయం కలిగి ఉంటారు, మరియు కాఫీ కళ మరియు విజ్ఞాన శాస్త్రం పట్ల ఆసక్తి కలిగి ఉంటారు. 6 నెలల సైన్-అప్ కోసం మార్పిడి కోసం ఆప్టిమైజ్ చేయండి.
మా గ్యాలరీలో GPT‑5 నుంచి మరిన్ని ఉదాహరణలు ఇక్కడ(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
GPT‑5 మరింత మంచి కొలాబరేటర్, ముఖ్యంగా Cursor, Windsurf, GitHub Copilot, Codex CLI వంటి ఏజెంటిక్ కోడింగ్ ప్రొడక్ట్స్లో. పని చేస్తూనే, GPT‑5 టూల్ కాల్స్ మధ్య ప్లాన్స్, అప్డేట్స్, మరియు రీక్యాప్స్ను అవుట్పుట్ చేయగలదు. మా గత నమూనాలతో పోలిస్తే, పోలిస్తే, GPT‑5 అధిక సవాళ్ల ఉన్న పనులను మీ అనుమతి కోసం వేచి లేకుండా, లేదా ఉన్నతమైన క్లిష్టతను చూసి ఆగకుండా పూర్తి చేయడంలో మరింత సానుకూలంగా ఉంటుంది.
సంక్లిష్ట పనులు (ఈ సందర్భంలో, ఒక రెస్టారెంట్ కోసం వెబ్సైట్ సృష్టించడం) ఎదుర్కొంటూ GPT‑5 ఎలా కనిపించవచ్చో ఒక ఉదాహరణ ఇక్కడ ఉంది:
యూజర్ తమ రెస్టారెంట్ కోసం వెబ్సైట్ అడిగిన తర్వాత, GPT‑5 క్విక్ ప్లాన్ పంచుకుంటుంది, యాప్ను స్కఫోల్డ్ చేస్తుంది, డిపెండెన్సీస్ ఇన్స్టాల్ చేస్తుంది, సైట్ కంటెంట్ సృష్టిస్తుంది, కంపైలేషన్ ఎర్రర్ల కోసం బిల్డ్ రన్ చేస్తుంది, తన వర్క్ను సంక్షిప్తీకరించిన అనంతరం, తదుపరి చర్యల కోసం సూచనలు ఇస్తుంది. ఈ వీడియోను మీరు వేచి ఉండరాదని ~3 రెట్లు వేగంగా ప్లే చేయబడింది; వెబ్సైట్ సృష్టించడానికి మొత్తం సమయం సుమారు మూడు నిమిషాలు పట్టింది.
ఏజెంటిక్ కోడింగ్ను మించిన స్థాయిలో, సాధారణంగా ఏజెంటిక్ పనులలో GPT‑5 మెరుగ్గా ఉంది. GPT‑5 సూచనల అనుసరణ బెంచ్ మార్క్ల్లో కొత్త రికార్డులను నెలకొల్పింది (స్కేల్ మల్టీఛాలెంజ్లో 69.6%, o3‑mini ద్వారా గ్రేడ్ చేసినట్లు) మరియు టూల్ కాలింగ్ (τ2-బెంచ్ టెలికాంలో 96.7%). మెరుగైన టూల్ ఇంటెలిజెన్స్ GPT‑5 రియల్-వరల్డ్ పనులను పూర్తి చేయడానికి చర్యలను మరింత విశ్వసనీయంగా చైన్ చేయడానికి అనుమతిస్తుంది.
ఏజెంటిక్ పనులపై GPT‑5 యొక్క ముందస్తు ఫీడ్బ్యాక్
“GPT-5 ఒక పెద్ద స్టెప్ అప్.” మా ఇంటర్నల్ బెంచ్మార్క్ల్లో ఒకే నమూనా నుంచి ఇప్పటివరకు చూసిన అత్యుత్తమ పెర్ఫార్మెన్స్ను ఇది సాధించింది. ఒక లైన్ కోడ్ టీవీక్ చేయకముందు, లేదా ప్రాంప్ట్ టైలర్ చేయకముందే, GPT-5 వివిధ ఏజెంటిక్ పనులలో ఎక్సెల్ చేసింది. కొత్త పీఠికలు మరియు సాధన వాడకంపై మరింత ఖచ్చితమైన నియంత్రణ మా ఏజెంట్ల స్థిరత్వం మరియు స్టీరబిలిటీలో గణనీయమైన పురోగతిని ప్రారంభించింది.
GPT‑5 దాని మునుపటి మోడళ్లకన్నా సూచనలను మరింత నమ్మకంగా అనుసరిస్తుంది, COLLIE, స్కేలు మల్టీలాంగ్వేజ్, మరియు మా అంతర్గత సూచన అనుసరణ మూల్యాంకనాల్లో ఉన్నతమైన స్కోర్లు పొందింది.
COLLIE(కొత్త విండోలో తెరుచుకుంటుంది) లో, నమూనాలు వివిధ పరిమితులను తీర్చే టెక్ట్స్ను రాయాలి. స్కేల్ మల్టీఛాలెంజ్లో(కొత్త విండోలో తెరుచుకుంటుంది), గత సందేశాల నుండి నాలుగు రకాల సమాచారాన్ని సరిగ్గా ఉపయోగించడానికి బహుళ-మలుపు సంభాషణలపై నమూనాలు సవాలు చేయబడతాయి. మా స్కోర్లు o3‑miniని గ్రేడర్గా ఉపయోగించడం ద్వారా వచ్చాయి, ఇది GPT‑4o కంటే ఎక్కువ యాక్యురేట్గా ఉంది. మా ఇంటర్నల్ OpenAI API ఆదేశం-ఫాలోయింగ్ ఎవాల్యుయేషన్లో, నమూనాల రియల్ డెవలపర్ ఫీడ్బ్యాక్ నుంచి వచ్చిన కఠినమైన సూచనలను తప్పనిసరిగా అనుసరించాలి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్తో నడపబడ్డాయి.
డెవలపర్లకి ముఖ్యమైన మార్గాల్లో టూల్ కాలింగ్ మెరుగుపర్చడానికి మేం బాగా శ్రమించాం. GPT‑5 టూల్ ఆదేశాలు అనుసరించడం ద్వారా, టూల్ ఎర్రర్లను హ్యాండిల్ చేయడంలో, అలాగే వరుసగా లేదా సమాంతరంగా అనేక టూల్ కాల్స్ని సానుకూలంగా చేయడంలో మరింత మెరుగ్గా ఉంది. ఆదేశం ఇచ్చినప్పుడు, GPT‑5 లాంగ్ ఏజెంటిక్ పనులలో ప్రోగ్రెస్పై యూజర్లను అప్డేట్ చేయడానికి టూల్ కాల్స్ ముందు మరియు మధ్యలో పీఠిక సందేశాలను కూడా అవుట్పుట్ చేయగలదు.
రెండు నెలల క్రితం, τ2-bench టెలికాం ఒక సవాలుగా ఉన్న సాధన వినియోగ బెంచ్మార్క్గా Sierra.ai ద్వారా ప్రచురించబడింది, ఇది వినియోగదారులు మార్చగలిగే పర్యావరణ స్థితితో పరస్పర చర్య చేసేటప్పుడు భాషా నమూనా పనితీరు గణనీయంగా పడిపోతుందని హైలైట్ చేసింది. వారి ప్రచురణలో(కొత్త విండోలో తెరుచుకుంటుంది), ఏ నమూనా 49% కంటే ఎక్కువ స్కోరు చేయలేదు. GPT‑5 97% స్కోర్ చేసింది.
τ2-bench(కొత్త విండోలో తెరుచుకుంటుంది)లో, కస్టమర్ సర్వీస్ టాస్క్ను పూర్తి చేయడానికి నమూనా టూల్స్ను ఉపయోగించాలి, అక్కడ కమ్యూనికేట్ చేయగలిగే మరియు వరల్డ్ స్టేట్పై చర్యలు తీసుకోగల యూజర్ ఉండవచ్చు. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్తో నడపబడ్డాయి.
GPT‑5 లాంగ్-కాంటెక్ట్స్ పనితీరులో కూడా బలమైన మెరుగుదలలను చూపిస్తుంది. OpenAI-MRCR, లాంగ్-కాంటెక్ట్స్ సమాచారం పునరుద్ధరణ కొలమానం అయిన, GPT‑5 o3 మరియు GPT‑4.1 కంటే మెరుగ్గా పనిచేస్తుంది, మరియు పొడవైన ఇన్పుట్ లెన్త్ల్లో ఈ తేడా గణనీయంగా పెరుగుతుంది.
OpenAI-MRCR(కొత్త విండోలో తెరుచుకుంటుంది) (బహుళ-రౌండ్ కో-రిఫరెన్స్ రిజల్యూషన్) లో, అనేక ఒకే విధమైన “సూది” వినియోగదారు అభ్యర్థనలు పొడవైన “హేస్టాక్” వంటి అభ్యర్థనలు మరియు ప్రతిస్పందనల్లో చొప్పించబడతాయి, మరియు నమూనా i-వ సూదికి ప్రతిస్పందనను పునరుత్పత్తి చేయమని అడుగుతుంది. మీన్ మ్యాచ్ రేషియో అనేది నమూనా రెస్పాన్స్ మరియు కరెక్ట్ ఆన్సర్ మధ్య సగటు స్ట్రింగ్ మ్యాచ్ రేషియోను కొలుస్తుంది. 256k మాక్స్ ఇన్పుట్ టోకెన్లు వద్ద ఉన్న పాయింట్లు, 128k–256k ఇన్పుట్ టోకెన్లుపై సగటులను సూచిస్తాయి; ఇదే విధంగా మిగతావి కూడా. ఇక్కడ, 256k అంటే 256 * 1,024 = 262,114 టోకెన్లు. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్తో నడపబడ్డాయి.
మేం BrowseComp Long Context(కొత్త విండోలో తెరుచుకుంటుంది)ను కూడా ఓపెన్ సోర్స్ చేస్తున్నాం, ఇది సుదీర్ఘ-సందర్భ ప్రశ్నోత్తరాలను అంచనా వేయడానికి కొత్త బెంచ్ మార్క్. ఈ బెంచ్మార్క్లో, నమూనాకి యూజర్ ప్రశ్న, సంబంధిత శోధన ఫలితాల పొడవైన జాబితా ఇవ్వబడతాయి, మరియు ఆ ఫలితాల ఆధారంగా ప్రశ్నకు సమాధానం ఇవ్వాలి. బ్రౌజ్కాంప్ లాంగ్ కాంటెక్ట్స్ Long Context ను వాస్తవికంగా, క్లిష్టంగా, అలాగే నమ్మదగిన గ్రౌండ్ ట్రూత్ సమాధానాలతో ఉండేలా రూపొందించాం. 128K–256K టోకెన్లు ఉన్న ఇన్పుట్ల్లో, GPT‑5 89% సందర్భాల్లో సరైన సమాధానం ఇస్తుంది.
APIలో, అన్ని GPT‑5 నమూనాల గరిష్టంగా 272,000 ఇన్పుట్ టోకెన్స్ను అంగీకరించగలవు మరియు గరిష్టంగా 128,000 రీజనింగ్ & అవుట్పుట్ టోకెన్స్ను ఉత్పత్తి చేయగలవు, మొత్తం కాంటెక్ట్స్ పొడవు 400,000 టోకెన్స్ వరకు ఉంటుంది.
GPT‑5 మా గత నమూనాల కంటే ఎక్కువగా విశ్వసించదగినది. LongFact మరియు FactScore బెంచ్మార్క్ల్లోని ప్రాంప్ట్లపై, GPT‑5, o3 కంటే దాదాపు 80% తక్కువ వాస్తవ తప్పులు చేస్తుంది. దీని వలన, సరైన సమాధానం ముఖ్యమైన ఏజెంటిక్ వినియోగాల్లో—ప్రత్యేకించి కోడ్, డేటా, నిర్ణయాలు తీసుకోవడంలో—ఇది మరింత సరిపోతుంది.
ఎక్కువ స్కోర్లు మరింత దారుణంగా ఉంటాయి. LongFact(కొత్త విండోలో తెరుచుకుంటుంది) మరియు FActScore(కొత్త విండోలో తెరుచుకుంటుంది) ఓపెన్-ఎండెడ్ ఫాక్ట్-సేకరణ ప్రశ్నలను కలిగి ఉంటాయి. మేం ఈ బెంచ్మార్క్ల ప్రాంప్ట్లపై వచ్చిన రెస్పాన్స్లను ఫ్యాక్ట్-చెక్ చేయడానికి బ్రౌజింగ్తో కూడిన LLM-బేస్డ్ గ్రేడర్ను ఉపయోగిస్తాము, మరియు వాస్తవానికి తప్పు క్లెయిమ్స్ వాటాను కొలుస్తాము. అమలు మరియు గ్రేడింగ్ వివరాలు సిస్టమ్ కార్డులో లభిస్తాయి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్ వాడాయి. సెర్చ్ ఎనేబుల్ చేయబడలేదు.
సాధారణంగా, GPT‑5 తన పరిమితులను బాగా తెలుసుకునేలా శిక్షణ ఇవ్వబడింది, అలాగే అనుకోని సమస్యలను మెరుగ్గా ఎదుర్కోగలదు. మేం ఆరోగ్య ప్రశ్నలపై మరింత ఖచ్చితంగా ఉండేలా GPT‑5కి శిక్షణ ఇచ్చాం (మా పరిశోధన బ్లాగ్లో మరింత చదవండి). అన్ని లాంగ్వేజ్ నమూనాలలాగే, రిస్క్ ఎక్కువగా ఉన్నప్పుడు GPT‑5 ఇచ్చిన ఫలితాలను మీరు నిర్ధారించుకోవాలని మేం సిఫారసు చేస్తున్నాం.
డెవలపర్లు API లోని reasoning_effort పరామితి ద్వారా GPT‑5 ఆలోచనా సమయాన్ని నియంత్రించగలరు. పూర్వపు విలువలు—low, medium (డిఫాల్ట్), మరియు high—తో పాటు, GPT‑5 ఇప్పుడు minimal ను కూడా సపోర్ట్ చేస్తుంది, ఇది GPT‑5 యొక్క తర్కాన్ని తగ్గించి త్వరగా సమాధానం ఇవ్వగలదు.
ఎక్కువ reasoning_effort విలువలు నాణ్యతను పెంచుతాయి, తక్కువ విలువలు వేగాన్ని పెంచుతాయి. అన్ని పనులు అదనపు రీజనింగ్ వలన సమానంగా లాభపడవు, కాబట్టి మీరు ఆసక్తి ఉన్న వినియోగాల కోసం ఏది బాగా పనిచేస్తుందో తెలుసుకోవడానికి ప్రయోగాలు చేయాలని మేం సూచిస్తున్నాం.
ఉదాహరణకు, low కంటే తర్కము సాపేక్షంగా సరళమైన దీర్ఘ-సందర్భం పునరుద్ధరణకు తక్కువగా జోడిస్తుంది, కానీ దృశ్య తార్కిక బెంచ్మార్క్ అయిన CharXiv Reasoning(కొత్త విండోలో తెరుచుకుంటుంది)కు చాలా శాతం పాయింట్లను జోడిస్తుంది.
GPT‑5 యొక్క రీజనింగ్ ఎఫర్ట్ వేర్వేరు పనులలో వేర్వేరు ప్రయోజనాలను ఇస్తుంది. CharXiv రీజనింగ్ కోసం, GPT‑5కి python టూల్ యాక్సెస్ ఇవ్వబడింది.
GPT‑5 సమాధానాల డిఫాల్ట్ పొడవు నియంత్రించడానికి, మేం తక్కువ, మధ్యస్థ (డిఫాల్ట్), మరియు అధిక విలువలను తీసుకునే వెర్బాసిటీ అనే కొత్త API పరామితిని పరిచయం చేశాం. స్పష్టమైన ఇన్స్ట్రక్షన్లు వర్బాసిటీ పారామీటర్తో విరుద్ధంగా ఉంటే, స్పష్టమైన ఇన్స్ట్రక్షన్లకే ప్రాధాన్యం ఇస్తారు. ఉదాహరణకు, మీరు GPT‑5ని “5 పేరాగ్రాఫ్ ఎస్సే రాయండి” అని అడిగితే, నమూనా సమాధానం ఎల్లప్పుడూ 5 పేరాగ్రాఫ్లుగానే ఉండాలి, వర్బాసిటీ స్థాయి ఏదైనా సరే (అయితే, పేరాగ్రాఫ్లు పొడవుగా లేదా చిన్నవిగా ఉండవచ్చు).
వెర్బోసిటీ=లో
వెర్బోసిటీ=మీడియం
వెర్బోసిటీ=హై
ఆదేశం ఇచ్చినట్లయితే, GPT‑5 టూల్ కాల్స్ ముందు మరియు మధ్యలో యూజర్కి కనిపించే పీఠిక సందేశాలను అవుట్పుట్ చేస్తుంది. హిడెన్ రీజనింగ్ మెసేజెస్ భిన్నంగా, ఈ విజిబుల్ మెసేజెస్ GPT‑5 యూజర్కి ప్లాన్స్ మరియు ప్రోగ్రెస్ను కమ్యూనికేట్ చేయడానికి సాయపడతాయి, దీని ద్వారా ఎండ్ యూజర్స్ టూల్ కాల్స్ వెనుక ఉన్న దాని ఆప్రోచ్ మరియు ఉద్దేశాన్ని అర్థం చేసుకోగలరు.
మేం కొత్త టూల్ టైప్—కస్టమ్ టూల్స్—ని పరిచయం చేస్తున్నాం, దీని ద్వారా GPT‑5 JSON బదులుగా ప్లెయిన్టెక్ట్స్తో టూల్ని కాల్ చేయగలదు. GPT‑5ని కస్టమ్ టూల్ ఫార్మెట్లను అనుసరించడానికి పరిమితం చేయడానికి, డెవలపర్లు ఒక regex లేదా మరింత పూర్తిగా పేర్కొన్న సందర్భ-రహిత వ్యాకరణాన్ని(కొత్త విండోలో తెరుచుకుంటుంది) కూడా అందించవచ్చు.
ఇంతకుముందు, డెవలపర్-నిర్వచించిన టూల్స్ కోసం మా ఇంటర్ఫేస్ వాటిని JSONతోనే కాల్ చేయాలని కోరేది, ఇది సాధారణంగా వెబ్ APIలు మరియు డెవలపర్ల వాడే ఫార్మెట్. అయితే, సరైన JSON అవుట్పుట్ చేయడానికి, నమూనా అన్ని కోటేషన్ మార్క్స్, బ్యాక్స్లాష్లు, న్యూ లైన్లు మరియు ఇతర నియంత్రణ క్యారెక్టర్లను పర్ఫెక్ట్గా ఎస్కేప్ చేయాలి. మా నమూనాల JSON అవుట్పుట్ చేయడంలో బాగా ట్రెయిన్ చేయబడ్డా, వందల లైన్ల కోడ్ లేదా 5-పేజీల రిపోర్ట్లాంటి పెద్ద ఇన్పుట్ల్లో ఎర్రర్ వచ్చే అవకాశాలు పెరుగుతాయి. కస్టమ్ టూల్స్తో, GPT‑5 తప్పించుకోవాల్సిన అన్ని క్యారెక్టర్ల నుండి తప్పించుకోకుండా, టూల్ ఇన్పుట్లను ప్లెయిన్ టెక్ట్స్గా రాయగలదు.
SWE-bench వెరిఫైడ్లో JSON టూల్స్ బదులుగా కస్టమ్ టూల్స్ వాడినప్పుడు కూడా, GPT‑5 దాదాపు అదే స్కోర్ సాధించింది.
GPT‑5 సేఫ్టీలో ఫ్రంటియర్ను ముందుకు తీసుకెళ్లి, ఇది మరింత బలమైన, నమ్మదగిన మరియు సహాయకరమైన నమూనా. GPT‑5 మా గత నమూనాల కంటే హాల్యూసినేట్ అయ్యే అవకాశాలు గణనీయంగా తక్కువ, తన యాక్షన్స్ మరియు సామర్థ్యాలను యూజర్కి మరింత నిజాయితీగా కమ్యూనికేట్ చేస్తుంది, అలాగే సేఫ్టీ పరిమితుల్లో ఉండగానే సాధ్యమైనంత సాయక సమాధానం ఇస్తుంది. మీరు మా రీసెర్చ్ బ్లాగ్లో మరింత చదవవచ్చు.
GPT‑5 ఇప్పుడు API ప్లాట్ఫారమ్లో మూడు పరిమాణాల్లో లభ్యమవుతుంది: gpt-5, gpt-5-mini, మరియు gpt-5-nano. ఇది ప్రతిస్పందనల API, చాట్ కంప్లీషన్ల APIలో లభ్యమవుతుంది, మరియు Codex CLIలో డిఫాల్ట్గా ఉంటుంది. GPT‑5 ధర $1.25/1M ఇన్పుట్ టోకెన్లు మరియు $10/1M అవుట్పుట్ టోకెన్లు, GPT‑5 mini ధర $0.25/1M ఇన్పుట్ టోకెన్లు మరియు $2/1M అవుట్పుట్ టోకెన్లు, మరియు GPT‑5 nano ధర $0.05/1M ఇన్పుట్ టోకెన్లు మరియు $0.40/1M అవుట్పుట్ టోకెన్లు.
ఈ నమూనాల మరియు API వెర్బోసిటీ పారామితులు, అలాగే కస్టమ్ టూల్స్కు మద్దతు ఇస్తాయి reasoning_effort. ఇవి ప్యారలెల్ టూల్ కాలింగ్, బిల్ట్-ఇన్ టూల్స్ (వెబ్ శోధన, ఫైల్ శోధన, ఇమేజ్ జనరేషన్ మరియు మరిన్ని), కోర్ API లక్షణాలు (స్ట్రీమింగ్, స్ట్రక్చర్డ్ అవుట్పుట్లు మరియు మరిన్ని) మరియు ప్రాంప్ట్ కాషింగ్ మరియు Batch API వంటి ఖర్చు-పొదుపు లక్షణాలను కూడా సపోర్ట్ చేస్తాయి.
ChatGPTలో ఉపయోగించే GPT‑5 యొక్క నాన్-రీజనింగ్ వెర్షన్ APIలో gpt-5-chat-latest గా లభ్యమవుతుంది, దీని ధర 1 మిలియన్ ఇన్పుట్ టోకెన్లకు $1.25 మరియు 1 మిలియన్ అవుట్పుట్ టోకెన్లకు $10.
GPT‑5 Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry వంటి Microsoft ప్లాట్ఫారాల్లో కూడా లాంచ్ అవుతోంది.
ప్రారంభించడానికి GPT‑5 డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది), ధర వివరాలు(కొత్త విండోలో తెరుచుకుంటుంది), మరియు ప్రాంప్టింగ్ గైడ్(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
ఇంటెలిజెన్స్
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] మా గత బ్లాగ్ పోస్ట్లో తెలిపిన సంఖ్యలతో చిన్న తేడా ఉంది, ఎందుకంటే అవి HLE యొక్క పాత వెర్షన్పై నడపబడ్డాయి.
మల్టీమోడల్
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
కోడింగ్
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $112వే | $75వే | $49వే | $86వే | $66వే | $34వే | $31వే | $9వే |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] మా ఇన్ఫ్రాస్ట్రక్చర్పై రన్ చేయలేని 23/500 సమస్యలను మేం వదిలేశాం. వదిలేసిన 23 పనుల పూర్తి లిస్ట్ ఇది 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', మరియు 'sphinx-doc__sphinx-9367'.
సూచనలను అనుసరించడం
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] గమనిక: MultiChallenge (GPT-4o)లో డీఫాల్ట్ గ్రేడర్ తరచుగా నమూనా రెస్పాన్స్లను తప్పుగా స్కోర్ చేస్తుందని మేం కనుగొన్నాం. గ్రేడర్ను o3-mini లాంటి రీజనింగ్ నమూనాతో మారిస్తే, మేం పరిశీలించిన ఉదాహరణల్లో గ్రేడింగ్లో ఖచ్చితత్వం గణనీయంగా మెరుగైంది.
ఫంక్షన్ కాలింగ్
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
లాంగ్ కాంటెక్ట్స్
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
భ్రాంతులు
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


