ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

7 ఆగస్టు, 2025

ప్రోడక్ట్

డెవలపర్‌ల కోసం GPT‑5ని పరిచయం చేస్తున్నాం

కోడింగ్ మరియు ఏజెంటిక్ పనుల కోసం అత్యుత్తమ నమూనా.

లోడ్ అవుతోంది…

పరిచయం

ఇవాళ, మా API ప్లాట్‌ఫారమ్‌లో కోడింగ్ మరియు ఏజెంటిక్ పనులు కోసం ఇప్పటి వరకు ఉన్న మా అత్యుత్తమ నమూనా— GPT‑5ని రిలీజ్‌ చేస్తున్నాం.

GPT‑5 కీలక కోడింగ్ బెంచ్‌మార్క్‌ల్లో అత్యాధునిక (SOTA), SWE-bench ధృవీకరణలో 74.9% మరియు Aider polyglotలో 88% స్కోర్ సాధించింది. GPT‑5ని నిజమైన కోడింగ్ కొలాబొరేటర్‌గా శిక్షణ ఇచ్చాం. ఇది హై-క్వాలిటీ కోడ్ తయారీలో, బగ్‌లను సరిచేయడంలో, కోడ్ ఎడిట్ చేయడంలో, క్లిష్టమైన కోడ్‌బేస్‌ల గురించి ప్రశ్నలకు సమాధానం చెప్పడంలో అద్భుతంగా రాణిస్తుంది. ఈ నమూనా స్టీరియబుల్ మరియు సహకారాత్మకం—ఇది అధిక ఖచ్చితత్వంతో చాలా వివరణాత్మకమైన సూచనలను అనుసరించగలదు మరియు టూల్ కాల్స్ ముందు మరియు వాటి మధ్య దాని కార్యాల గురించి ముందస్తు వివరణలను అందించగలదు.  ఈ నమూనా ఫ్రంట్-ఎండ్ కోడింగ్‌లో కూడా అద్భుతం, ఇంటర్నల్ టెస్టింగ్‌లో 70% సార్లు OpenAI o3 ని ఫ్రంట్-ఎండ్ వెబ్ డెవలప్మెంట్‌లో ఓడించింది.

మేం స్టార్టప్‌లు మరియు ఎంటర్‌ప్రైజెస్‌లోని ఎర్లీ టెస్టర్‌లతో కలిసి రియల్-వరల్డ్ కోడింగ్ పనులను GPT‑5కు శిక్షణ ఇచ్చాం కర్సర్‌ ప్రకారం GPT‑5 “వాడిన స్మార్ట్ నమూనా” మరియు “అద్భుతమైన ఇంటెలిజెంట్, నడిపించడం సులభం, ఇంకా ఇతర నమూనాల్లో చూడని పర్సనాలిటీ కూడా ఉంది.” విండ్‌సర్ఫ్ GPT‑5 వారి ఎవాల్స్‌లో SOTA అని, మరియు “ఇతర ఫ్రంటియర్ నమూనాల‌తో పోలిస్తే టూల్ కాలింగ్ ఎర్రర్ రేట్ సగం మాత్రమే ఉంది” అని తెలిపింది. వెర్సెల్ “ఇది అత్యుత్తమ ఫ్రంట్‌ఎండ్ AI నమూనా, ఎస్తెటిక్ సెన్స్ మరియు కోడ్ క్వాలిటీ రెండింటిలోనూ టాప్ పనితీరు చూపి, దానిని ప్రత్యేక కేటగిరీలో నిలిపింది.” అని పేర్కొంది.

GPT‑5 దీర్ఘకాలంగా నడుస్తున్న ఏజెంటిక్ పనుల్లో కూడా రాణిస్తుంది—కేవలం 2 నెలల క్రితం రిలీజ్ చేసిన టూల్-కాలింగ్ బెంచ్‌మార్క్ అయిన τ2-బెంచ్ టెలికాం (96.7%) పై SOTA ఫలితాలను సాధించింది. GPT‑5 మెరుగైన టూల్ ఇంటెలిజెన్స్ దాన్ని వరుసలోనూ, సమాంతరంగా డజన్‌ల కొద్దీ టూల్ కాల్స్‌ని నమ్మదగిన రీతిలో చైన్ చేయనివ్వడం ద్వారా, తన మార్గం తప్పకుండా కాంప్లెక్స్ రియల్-వరల్డ్ పను‌ల‌ను ఎండ్ టు ఎండ్ ఎగ్జిక్యూట్ చేయడంలో చాలా మెరుగ్గా చేసింది. ఇది టూల్ ఇన్‌స్ట్రక్షన్స్‌ని మరింత ఖచ్చితంగా ఫాలో అవుతుంది, టూల్ ఎర్రర్‌లను మెరుగ్గా హ్యాండిల్ చేస్తుంది, అలాగే లాంగ్-కాంటెక్ట్స్‌ కంటెంట్ రిట్రీవల్‌లో అద్భుతంగా రాణిస్తుంది. GPT‑5 “[వారి] అంతర్గత బెంచ్‌మార్క్‌లపై ఒకే నమూనా నుండి ఇప్పటివరకు చూసిన అత్యుత్తమ పనితీరును సాధించింది [వారు చేసిన]” అని మానస్ చెప్పారు. నోషన్ “[నమూనా యొక్క] వేగవంతమైన ప్రతిస్పందనలు, ముఖ్యంగా తక్కువ తార్కిక మోడ్‌లో, మీకు ఒకే ప్రయత్నంలో సంక్లిష్ట పనులు పరిష్కరించాల్సినప్పుడు GPT‑5ను ఆదర్శ నమూనాగా చేస్తాయి” అని పేర్కొంది. ఇండీటెక్స్ “నిజంగా [GPT‑5]ని ప్రత్యేకంగా నిలబెట్టేది దాని తర్కం యొక్క లోతు: నిజమైన విషయ-విషయ అవగాహనను ప్రతిబింబించే సూక్ష్మమైన, బహుళ-స్థరాల సమాధానాలు” అని పంచుకుంది.

నమూనా ప్రతిస్పందనలపై డెవలపర్‌ల‌కు ఎక్కువ నియంత్రణ ఇవ్వడానికి మా APIలో కొత్త ఫీచర్‌లను పరిచయం చేస్తున్నాం. సమాధానాలు చిన్నవి మరియు స్పష్టంగా లేదా పొడవైన మరియు సమగ్రమైనవిగా ఉండేలా నియంత్రించడంలో సాయపడటానికి GPT‑5 కొత్త verbosity పారామీటర్‌కు మద్దతు ఇస్తుంది (విలువలు: low, medium, high). GPT‑5 యొక్క reasoning_effort పారామితి ఇప్పుడు విస్తృతమైన తార్కికం లేకుండా, సమాధానాలను వెనుకకు వేగంగా పొందడానికి కనీస విలువను తీసుకోగలదు. మేం కొత్త టూల్ టైప్—కస్టమ్ టూల్స్—ని కూడా జోడించాము, దీని ద్వారా GPT‑5 JSON బదులుగా ప్లెయిన్‌టెక్ట్స్‌‌తో టూల్స్‌ని కాల్ చేయగలదు. కస్టమ్ టూల్స్ డెవలపర్‌ల ఇచ్చే సందర్భ-ఉచిత గ్రామర్స్ ద్వారా కన్‌స్ట్రెయింట్ చేయడాన్ని మద్దతు ఇస్తాయి.

డెవలపర్లు ఆఫ్ ట్రేడ్ మరింత వశ్యత ఇవ్వాలని పనితీరు, ఖర్చు, మరియు ల్యాటెన్సీ ఇవ్వడానికి —మేం API- gpt-5, gpt-5-మినీ, మరియు gpt-5- నానో మూడు పరిమాణాలలో GPT‑5 విడుదల చేస్తున్నాం. ChatGPTలో GPT‑5 రీజనింగ్, నాన్-రీజనింగ్, మరియు రౌటర్ నమూనాల సిస్టమ్‌గా ఉంటే, API ప్లాట్‌ఫారమ్‌లో GPT‑5 అనేది ChatGPTలో గరిష్ట పనితీరును అందించే రీజనింగ్ నమూనా. గమనించదగ్గది ఏమిటంటే, మినిమల్ రీజనింగ్‌తో ఉన్న GPT‑5, ChatGPTలో ఉన్న నాన్-రీజనింగ్ నమూనా‌కి భిన్నమైనది, మరియు డెవలపర్‌ల కోసం మెరుగ్గా ట్యూన్ చేయబడింది. ChatGPTలో ఉపయోగించిన నాన్-రీజనింగ్ నమూనా gpt-5-chat-latest గా అందుబాటులో ఉంది.

ChatGPTలో GPT‑5 గురించి చదవడానికి, ఇతర ChatGPT మెరుగుదలల గురించి మరింత తెలుసుకోవడానికి, మా పరిశోధన బ్లాగ్ చూడండి. ఎంటర్‌ప్రైజ్‌లు GPT‑5 వాడకం గురించి ఎలా ఉత్సాహంగా ఉన్నాయో తెలుసుకోవడానికి మా ఎంటర్‌ప్రైజ్ బ్లాగ్ చూడండి.

కోడింగ్

GPT‑5 మేం ఇప్పటివరకు రిలీజ్ చేసిన వాటిలో అత్యంత శక్తివంతమైన కోడింగ్ నమూనా. ఇది కోడింగ్ బెంచ్‌మార్క్‌లు మరియు రియల్-వరల్డ్ యూజ్ కేసుల్లో o3 ని మించిపోతుంది, అలాగే Cursor, Windsurf, GitHub Copilot, మరియు Codex CLI వంటి ఏజెంటిక్ కోడింగ్ ప్రొడక్ట్‌ల్లో మెరుగుదల చూపించడానికి ఫైన్-ట్యూన్ చేయబడింది. GPT‑5 మా ఆల్ఫా టెస్టర్‌లను ఆకట్టుకుంది, వారి అనేక ప్రైవేట్ అంతర్గత మూల్యాంకనాల్లో రికార్డులను నెలకొల్పింది. 

రియల్-వరల్డ్ కోడింగ్ పనుల కోసం GPT‑5 పై ఎర్లీ ఫీడ్‌బ్యాక్

“GPT-5 మేం వాడిన స్మార్టెస్ట్ కోడింగ్ నమూనా.” మా టీమ్ GPT-5ని అద్భుతంగా ఇంటెలిజెంట్‌గా, సులభంగా నియంత్రించగలిగేలా, ఇంకా ఇతర నమూనాల‌లో చూడని ప్రత్యేకమైన వ్యక్తిత్వం ఉందని గుర్తించింది. ఇది ట్రికీ, లోతుగా దాగి ఉన్న బగ్స్‌ని మాత్రమే కాకుండా, లాంగ్ మల్టీ-టర్న్ బ్యాక్‌గ్రౌండ్ ఏజెంట్స్‌ని కూడా నడపగలదు, కాంప్లెక్స్ పనుల‌ని ఎండ్ వరకు పూర్తి చేస్తుంది—ఇలాంటి సమస్యల వల్ల ఇతర నమూనాల ఇరుక్కుపోయేవి. PRs స్కోపింగ్ మరియు ప్లానింగ్ నుండి ఎండ్-టు-ఎండ్ బిల్డ్స్ పూర్తి చేయడం వరకు ప్రతిరోజూ మా డైలీ డ్రైవర్‌గా మారింది.”
మైకెల్ ట్రూలెల్, కో-ఫౌండర్ & CEO, Cursor

రియల్-వరల్డ్ సాఫ్ట్‌వేర్ ఇంజనీరింగ్ పనులపై ఆధారపడి ఉన్న SWE-bench ధృవీకరించిన మూల్యాంకనాల్లో, GPT‑5 74.9% స్కోర్ సాధించింది, ఇది o3 యొక్క 69.1% కంటే ఎక్కువ. గమనించదగిన విషయం ఏమిటంటే, GPT‑5 తన హై స్కోర్‌ను మరింత సమర్థత మరియు వేగంతో సాధించింది: హై రీజనింగ్ ఎఫర్ట్ వద్ద ఉన్న o3 తో పోలిస్తే, GPT‑5 22% తక్కువ అవుట్‌పుట్ టోకెన్స్ మరియు 45% తక్కువ టూల్ కాల్స్ వాడుతుంది.

SWE-bench ధృవీకరించబడిన లో, ఒక నమూనాకు కోడ్ రిపోజిటరీ మరియు సమస్య వివరణ ఇవ్వబడతాయి, మరియు సమస్యను పరిష్కరించడానికి ప్యాచ్‌ను ఉత్పత్తి చేయాలి. టెక్ట్స్‌ లేబల్‌లు రీజనింగ్ ఎఫర్ట్‌ను సూచిస్తాయి. మా స్కోర్లు, మా ఇన్‌ఫ్రాస్ట్రక్చర్‌లో నమ్మకంగా పాస్ కాని 500 సమస్యల్లో 23ని తప్పించాయి. GPT‑5కి సొల్యూషన్‌లను పూర్తిగా వెరిఫై చేయడాన్ని హైలైట్ చేసే చిన్న ప్రాంప్ట్ ఇవ్వబడింది; అదే ప్రాంప్ట్ o3కి ఉపయోగం కాలేదు.

కోడ్ ఎడిటింగ్‌పై ఎవాల్యుయేషన్ అయిన Aider polyglot లో, GPT‑5 88% అనే కొత్త రికార్డు సాధించింది, o3 తో పోలిస్తే ఎర్రర్ రేట్‌లో మూడో వంతు తగ్గుదల ఉంది.

Aider polygot(కొత్త విండోలో తెరుచుకుంటుంది) (తేడా)లో, ఒక నమూనాకు ఎక్సర్సిజమ్ నుండి కోడింగ్ అభ్యాసం ఇవ్వబడుతుంది మరియు దాని పరిష్కారాన్ని కోడ్ డిఫ్‌గా రాయాలి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్‌తో నడపబడ్డాయి.

మేం కూడా GPT‑5 కోడ్‌బేస్‌ల్లో లోతుగా విశ్లేషించడంలో అద్భుతంగా ఉందని, వివిధ భాగాలు ఎలా పనిచేస్తాయో లేదా ఎలా ఇంటర్‌ఆపరేట్ అవుతాయో అన్న ప్రశ్నలకు సమాధానాలు ఇవ్వడంలో దాని సామర్థ్యాన్ని గుర్తించాం. OpenAI ఉపబల అభ్యాసం స్టాక్ వలె క్లిష్టమైన కోడ్‌బేస్‌లో, మేం GPT‑5 మా కోడ్ గురించి తర్కం చేయడంలో మరియు ప్రశ్నలకు సమాధానం ఇవ్వడంలో మాకు సాయపడుతుందని, మా రోజువారీ పనిని వేగవంతం చేస్తుందని కనుగొంటున్నాం. 

ఫ్రంట్‌ఎండ్ ఇంజనీరింగ్

వెబ్ యాప్‌ల కోసం ఫ్రంట్‌ఎండ్ కోడ్ రూపొందించేటప్పుడు, GPT‑5 మరింత ఎస్తెటిక్-మైండెడ్, అంబిషస్, మరియు యాక్యురేట్‌గా ఉంటుంది. o3తో సైడ్-బై-సైడ్ కంపారిసన్స్‌లో, 70% సార్లు మా టెస్టర్లు GPT‑5ని ప్రిఫర్ చేశారు.

సింగిల్ ప్రాంప్ట్‌తో GPT‑5 చేయగల కొన్ని సరదా, ప్రత్యేకంగా ఎంచుకున్న ఉదాహరణలు ఉన్నాయి:

ప్రేరేపించు: దయచేసి కాఫీ ప్రియుల కోసం $200/నెల సబ్‌స్క్రిప్షన్ అందించే సేవకు ఒక అందమైన, వాస్తవిక ల్యాండింగ్ పేజీని ఉత్పత్తి చేయి, ఇది కాఫీ వేయించడం మరియు అత్యుత్తమ ఎస్ప్రెస్సో సృష్టించు కోసం పరికరాల అద్దె మరియు కోచింగ్ అందిస్తుంది. లక్ష్య ప్రేక్షకులు బే ఏరియాలోని మధ్య వయస్కులైన వ్యక్తులు, వారు టెక్ రంగంలో పని చేసే అవకాశం ఉంది, విద్యావంతులు, ఖర్చు చేయదగిన ఆదాయం కలిగి ఉంటారు, మరియు కాఫీ కళ మరియు విజ్ఞాన శాస్త్రం పట్ల ఆసక్తి కలిగి ఉంటారు. 6 నెలల సైన్-అప్ కోసం మార్పిడి కోసం ఆప్టిమైజ్ చేయండి.

మా గ్యాలరీలో GPT‑5 నుంచి మరిన్ని ఉదాహరణలు ఇక్కడ(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.

కోడింగ్ కొలాబరేషన్

GPT‑5 మరింత మంచి కొలాబరేటర్‌, ముఖ్యంగా Cursor, Windsurf, GitHub Copilot, Codex CLI వంటి ఏజెంటిక్ కోడింగ్ ప్రొడక్ట్స్‌లో. పని చేస్తూనే, GPT‑5 టూల్ కాల్స్ మధ్య ప్లాన్స్, అప్‌డేట్స్, మరియు రీక్యాప్స్‌ను అవుట్‌పుట్ చేయగలదు. మా గత నమూనాల‌తో పోలిస్తే, పోలిస్తే, GPT‑5 అధిక సవాళ్ల ఉన్న పనులను మీ అనుమతి కోసం వేచి లేకుండా, లేదా ఉన్నతమైన క్లిష్టతను చూసి ఆగకుండా పూర్తి చేయడంలో మరింత సానుకూలంగా ఉంటుంది.

సంక్లిష్ట పనులు (ఈ సందర్భంలో, ఒక రెస్టారెంట్ కోసం వెబ్‌సైట్ సృష్టించడం) ఎదుర్కొంటూ GPT‑5 ఎలా కనిపించవచ్చో ఒక ఉదాహరణ ఇక్కడ ఉంది:

యూజర్ తమ రెస్టారెంట్ కోసం వెబ్‌సైట్ అడిగిన తర్వాత, GPT‑5 క్విక్ ప్లాన్ పంచుకుంటుంది, యాప్‌ను స్కఫోల్డ్ చేస్తుంది, డిపెండెన్సీస్ ఇన్‌స్టాల్ చేస్తుంది, సైట్ కంటెంట్ సృష్టిస్తుంది, కంపైలేషన్ ఎర్రర్‌ల కోసం బిల్డ్ రన్ చేస్తుంది, తన వర్క్‌ను సంక్షిప్తీకరించిన అనంతరం, తదుపరి చర్యల కోసం సూచనలు ఇస్తుంది. ఈ వీడియోను మీరు వేచి ఉండరాదని ~3 రెట్లు వేగంగా ప్లే చేయబడింది; వెబ్‌సైట్ సృష్టించడానికి మొత్తం సమయం సుమారు మూడు నిమిషాలు పట్టింది.

ఏజెంటిక్ పనులు

ఏజెంటిక్ కోడింగ్‌ను మించిన స్థాయిలో, సాధారణంగా ఏజెంటిక్ పనుల‌లో GPT‑5 మెరుగ్గా ఉంది. GPT‑5 సూచనల అనుసరణ బెంచ్ మార్క్‌ల్లో కొత్త రికార్డులను నెలకొల్పింది (స్కేల్ మల్టీఛాలెంజ్‌లో 69.6%, o3‑mini ద్వారా గ్రేడ్ చేసినట్లు) మరియు టూల్ కాలింగ్ (τ2-బెంచ్ టెలికాంలో 96.7%). మెరుగైన టూల్ ఇంటెలిజెన్స్ GPT‑5 రియల్-వరల్డ్ పనుల‌ను పూర్తి చేయడానికి చర్యలను మరింత విశ్వసనీయంగా చైన్ చేయడానికి అనుమతిస్తుంది.

ఏజెంటిక్ పనులపై GPT‑5 యొక్క ముందస్తు ఫీడ్‌బ్యాక్

“GPT-5 ఒక పెద్ద స్టెప్ అప్.” మా ఇంటర్నల్ బెంచ్‌మార్క్‌ల్లో ఒకే నమూనా నుంచి ఇప్పటివరకు చూసిన అత్యుత్తమ పెర్ఫార్మెన్స్‌ను ఇది సాధించింది. ఒక లైన్ కోడ్ టీవీక్ చేయకముందు, లేదా ప్రాంప్ట్ టైలర్ చేయకముందే, GPT-5 వివిధ ఏజెంటిక్ పనుల‌లో ఎక్సెల్ చేసింది. కొత్త పీఠికలు మరియు సాధన వాడకంపై మరింత ఖచ్చితమైన నియంత్రణ మా ఏజెంట్ల స్థిరత్వం మరియు స్టీరబిలిటీలో గణనీయమైన పురోగతిని ప్రారంభించింది.
యిచావో ‘పీకు’ జీ, కో-ఫౌండర్ & చీఫ్ సైంటిస్ట్, Manus

సూచనలను అనుసరించడం

GPT‑5 దాని మునుపటి మోడళ్లకన్నా సూచనలను మరింత నమ్మకంగా అనుసరిస్తుంది, COLLIE, స్కేలు మల్టీలాంగ్వేజ్, మరియు మా అంతర్గత సూచన అనుసరణ మూల్యాంకనాల్లో ఉన్నతమైన స్కోర్లు పొందింది.

COLLIE(కొత్త విండోలో తెరుచుకుంటుంది) లో, నమూనాలు వివిధ పరిమితులను తీర్చే టెక్ట్స్‌ను రాయాలి. స్కేల్ మల్టీఛాలెంజ్‌లో(కొత్త విండోలో తెరుచుకుంటుంది), గత సందేశాల నుండి నాలుగు రకాల సమాచారాన్ని సరిగ్గా ఉపయోగించడానికి బహుళ-మలుపు సంభాషణలపై నమూనాలు సవాలు చేయబడతాయి. మా స్కోర్లు o3‑miniని గ్రేడర్‌గా ఉపయోగించడం ద్వారా వచ్చాయి, ఇది GPT‑4o కంటే ఎక్కువ యాక్యురేట్‌గా ఉంది. మా ఇంటర్నల్ OpenAI API ఆదేశం-ఫాలోయింగ్ ఎవాల్యుయేషన్‌లో, నమూనాల రియల్ డెవలపర్ ఫీడ్బ్యాక్ నుంచి వచ్చిన కఠినమైన సూచనలను తప్పనిసరిగా అనుసరించాలి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్‌తో నడపబడ్డాయి.

టూల్ కాలింగ్

డెవలపర్‌ల‌కి ముఖ్యమైన మార్గాల్లో టూల్ కాలింగ్ మెరుగుపర్చడానికి మేం బాగా శ్రమించాం. GPT‑5 టూల్ ఆదేశాలు అనుసరించడం ద్వారా, టూల్ ఎర్రర్‌లను హ్యాండిల్ చేయడంలో, అలాగే వరుసగా లేదా సమాంతరంగా అనేక టూల్ కాల్స్‌ని సానుకూలంగా చేయడంలో మరింత మెరుగ్గా ఉంది. ఆదేశం ఇచ్చినప్పుడు, GPT‑5 లాంగ్ ఏజెంటిక్ పనుల‌లో ప్రోగ్రెస్‌పై యూజర్‌లను అప్‌డేట్ చేయడానికి టూల్ కాల్స్ ముందు మరియు మధ్యలో పీఠిక సందేశాలను కూడా అవుట్‌పుట్ చేయగలదు.

రెండు నెలల క్రితం, τ2-bench టెలికాం ఒక సవాలుగా ఉన్న సాధన వినియోగ బెంచ్‌మార్క్‌గా Sierra.ai ద్వారా ప్రచురించబడింది, ఇది వినియోగదారులు మార్చగలిగే పర్యావరణ స్థితితో పరస్పర చర్య చేసేటప్పుడు భాషా నమూనా పనితీరు గణనీయంగా పడిపోతుందని హైలైట్ చేసింది. వారి ప్రచురణలో(కొత్త విండోలో తెరుచుకుంటుంది), ఏ నమూనా 49% కంటే ఎక్కువ స్కోరు చేయలేదు. GPT‑5 97% స్కోర్ చేసింది.

τ2-bench(కొత్త విండోలో తెరుచుకుంటుంది)లో, కస్టమర్ సర్వీస్ టాస్క్‌ను పూర్తి చేయడానికి నమూనా టూల్స్‌ను ఉపయోగించాలి, అక్కడ కమ్యూనికేట్ చేయగలిగే మరియు వరల్డ్ స్టేట్‌పై చర్యలు తీసుకోగల యూజర్ ఉండవచ్చు. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్‌తో నడపబడ్డాయి.

GPT‑5 లాంగ్-కాంటెక్ట్స్‌ పనితీరులో కూడా బలమైన మెరుగుదలలను చూపిస్తుంది. OpenAI-MRCR, లాంగ్-కాంటెక్ట్స్‌ సమాచారం పునరుద్ధరణ కొలమానం అయిన, GPT‑5 o3 మరియు GPT‑4.1 కంటే మెరుగ్గా పనిచేస్తుంది, మరియు పొడవైన ఇన్‌పుట్ లెన్త్‌ల్లో ఈ తేడా గణనీయంగా పెరుగుతుంది.

OpenAI-MRCR(కొత్త విండోలో తెరుచుకుంటుంది) (బహుళ-రౌండ్ కో-రిఫరెన్స్ రిజల్యూషన్) లో, అనేక ఒకే విధమైన “సూది” వినియోగదారు అభ్యర్థనలు పొడవైన “హేస్టాక్” వంటి అభ్యర్థనలు మరియు ప్రతిస్పందనల్లో చొప్పించబడతాయి, మరియు నమూనా i-వ సూదికి ప్రతిస్పందనను పునరుత్పత్తి చేయమని అడుగుతుంది. మీన్ మ్యాచ్ రేషియో అనేది నమూనా రెస్పాన్స్ మరియు కరెక్ట్ ఆన్సర్ మధ్య సగటు స్ట్రింగ్ మ్యాచ్ రేషియోను కొలుస్తుంది. 256k మాక్స్ ఇన్‌పుట్ టోకెన్‌లు వద్ద ఉన్న పాయింట్లు, 128k–256k ఇన్‌పుట్ టోకెన్‌లు‌పై సగటులను సూచిస్తాయి; ఇదే విధంగా మిగతావి కూడా. ఇక్కడ, 256k అంటే 256 * 1,024 = 262,114 టోకెన్‌లు. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్‌తో నడపబడ్డాయి.

మేం BrowseComp Long Context(కొత్త విండోలో తెరుచుకుంటుంది)ను కూడా ఓపెన్ సోర్స్ చేస్తున్నాం, ఇది సుదీర్ఘ-సందర్భ ప్రశ్నోత్తరాలను అంచనా వేయడానికి కొత్త బెంచ్ మార్క్. ఈ బెంచ్‌మార్క్‌లో, నమూనా‌కి యూజర్ ప్రశ్న, సంబంధిత శోధన ఫలితాల పొడవైన జాబితా ఇవ్వబడతాయి, మరియు ఆ ఫలితాల ఆధారంగా ప్రశ్నకు సమాధానం ఇవ్వాలి. బ్రౌజ్‌కాంప్ లాంగ్ కాంటెక్ట్స్ Long Context ను వాస్తవికంగా, క్లిష్టంగా, అలాగే నమ్మదగిన గ్రౌండ్ ట్రూత్ సమాధానాలతో ఉండేలా రూపొందించాం. 128K–256K టోకెన్‌లు ఉన్న ఇన్‌పుట్‌ల్లో, GPT‑5 89% సందర్భాల్లో సరైన సమాధానం ఇస్తుంది.

APIలో, అన్ని GPT‑5 నమూనాల గరిష్టంగా 272,000 ఇన్‌పుట్ టోకెన్స్‌ను అంగీకరించగలవు మరియు గరిష్టంగా 128,000 రీజనింగ్ & అవుట్‌పుట్ టోకెన్స్‌ను ఉత్పత్తి చేయగలవు, మొత్తం కాంటెక్ట్స్‌ పొడవు 400,000 టోకెన్స్ వరకు ఉంటుంది.

వాస్తవికత

GPT‑5 మా గత నమూనాల కంటే ఎక్కువగా విశ్వసించదగినది. LongFact మరియు FactScore బెంచ్‌మార్క్‌ల్లోని ప్రాంప్ట్‌లపై, GPT‑5, o3 కంటే దాదాపు 80% తక్కువ వాస్తవ తప్పులు చేస్తుంది. దీని వలన, సరైన సమాధానం ముఖ్యమైన ఏజెంటిక్ వినియోగాల్లో—ప్రత్యేకించి కోడ్, డేటా, నిర్ణయాలు తీసుకోవడంలో—ఇది మరింత సరిపోతుంది.

ఎక్కువ స్కోర్లు మరింత దారుణంగా ఉంటాయి. LongFact(కొత్త విండోలో తెరుచుకుంటుంది) మరియు FActScore(కొత్త విండోలో తెరుచుకుంటుంది) ఓపెన్-ఎండెడ్ ఫాక్ట్-సేకరణ ప్రశ్నలను కలిగి ఉంటాయి. మేం ఈ బెంచ్‌మార్క్‌ల ప్రాంప్ట్‌లపై వచ్చిన రెస్పాన్స్‌లను ఫ్యాక్ట్-చెక్ చేయడానికి బ్రౌజింగ్‌తో కూడిన LLM-బేస్డ్ గ్రేడర్‌ను ఉపయోగిస్తాము, మరియు వాస్తవానికి తప్పు క్లెయిమ్స్ వాటాను కొలుస్తాము. అమలు మరియు గ్రేడింగ్ వివరాలు సిస్టమ్ కార్డులో లభిస్తాయి. రీజనింగ్ నమూనాల హై రీజనింగ్ ఎఫర్ట్ వాడాయి. సెర్చ్ ఎనేబుల్ చేయబడలేదు.

సాధారణంగా, GPT‑5 తన పరిమితులను బాగా తెలుసుకునేలా శిక్షణ ఇవ్వబడింది, అలాగే అనుకోని సమస్యలను మెరుగ్గా ఎదుర్కోగలదు. మేం ఆరోగ్య ప్రశ్నలపై మరింత ఖచ్చితంగా ఉండేలా GPT‑5కి శిక్షణ ఇచ్చాం (మా పరిశోధన బ్లాగ్‌లో మరింత చదవండి). అన్ని లాంగ్వేజ్ నమూనాల‌లాగే, రిస్క్ ఎక్కువగా ఉన్నప్పుడు GPT‑5 ఇచ్చిన ఫలితాలను మీరు నిర్ధారించుకోవాలని మేం సిఫారసు చేస్తున్నాం.

కొత్త ఫీచర్లు

కనీస రీజనింగ్ శ్రమ

డెవలపర్‌లు API లోని reasoning_effort పరామితి ద్వారా GPT‑5 ఆలోచనా సమయాన్ని నియంత్రించగలరు. పూర్వపు విలువలు—low, medium (డిఫాల్ట్), మరియు high—తో పాటు, GPT‑5 ఇప్పుడు minimal ను కూడా సపోర్ట్ చేస్తుంది, ఇది GPT‑5 యొక్క తర్కాన్ని తగ్గించి త్వరగా సమాధానం ఇవ్వగలదు.

ఎక్కువ reasoning_effort విలువలు నాణ్యతను పెంచుతాయి, తక్కువ విలువలు వేగాన్ని పెంచుతాయి. అన్ని పనులు అదనపు రీజనింగ్ వలన సమానంగా లాభపడవు, కాబట్టి మీరు ఆసక్తి ఉన్న వినియోగాల కోసం ఏది బాగా పనిచేస్తుందో తెలుసుకోవడానికి ప్రయోగాలు చేయాలని మేం సూచిస్తున్నాం.

ఉదాహరణకు, low కంటే తర్కము సాపేక్షంగా సరళమైన దీర్ఘ-సందర్భం పునరుద్ధరణకు తక్కువగా జోడిస్తుంది, కానీ దృశ్య తార్కిక బెంచ్‌మార్క్ అయిన CharXiv Reasoning(కొత్త విండోలో తెరుచుకుంటుంది)కు చాలా శాతం పాయింట్‌లను జోడిస్తుంది.

GPT‑5 యొక్క రీజనింగ్ ఎఫర్ట్ వేర్వేరు పనుల‌లో వేర్వేరు ప్రయోజనాలను ఇస్తుంది. CharXiv రీజనింగ్ కోసం, GPT‑5కి python టూల్ యాక్సెస్ ఇవ్వబడింది.

వెర్బాసిటీ

GPT‑5 సమాధానాల డిఫాల్ట్ పొడవు నియంత్రించడానికి, మేం తక్కువ, మధ్యస్థ (డిఫాల్ట్), మరియు అధిక విలువలను తీసుకునే వెర్బాసిటీ అనే కొత్త API పరామితిని పరిచయం చేశాం. స్పష్టమైన ఇన్‌స్ట్రక్షన్లు వర్బాసిటీ పారామీటర్‌తో విరుద్ధంగా ఉంటే, స్పష్టమైన ఇన్‌స్ట్రక్షన్లకే ప్రాధాన్యం ఇస్తారు. ఉదాహరణకు, మీరు GPT‑5ని “5 పేరాగ్రాఫ్ ఎస్సే రాయండి” అని అడిగితే, నమూనా సమాధానం ఎల్లప్పుడూ 5 పేరాగ్రాఫ్‌లుగానే ఉండాలి, వర్బాసిటీ స్థాయి ఏదైనా సరే (అయితే, పేరాగ్రాఫ్‌లు పొడవుగా లేదా చిన్నవిగా ఉండవచ్చు).

వెర్బోసిటీ=లో

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

వెర్బోసిటీ=మీడియం

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

వెర్బోసిటీ=హై

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

టూల్ కాల్స్ ముందు పీఠిక సందేశాలు

ఆదేశం ఇచ్చినట్లయితే, GPT‑5 టూల్ కాల్స్ ముందు మరియు మధ్యలో యూజర్‌కి కనిపించే పీఠిక సందేశాలను అవుట్‌పుట్ చేస్తుంది. హిడెన్ రీజనింగ్ మెసేజెస్ భిన్నంగా, ఈ విజిబుల్ మెసేజెస్ GPT‑5 యూజర్‌కి ప్లాన్స్ మరియు ప్రోగ్రెస్‌ను కమ్యూనికేట్ చేయడానికి సాయపడతాయి, దీని ద్వారా ఎండ్ యూజర్స్ టూల్ కాల్స్ వెనుక ఉన్న దాని ఆప్రోచ్ మరియు ఉద్దేశాన్ని అర్థం చేసుకోగలరు.

కస్టమ్ టూల్స్

మేం కొత్త టూల్ టైప్—కస్టమ్ టూల్స్—ని పరిచయం చేస్తున్నాం, దీని ద్వారా GPT‑5 JSON బదులుగా ప్లెయిన్‌టెక్ట్స్‌‌తో టూల్‌ని కాల్ చేయగలదు. GPT‑5ని కస్టమ్ టూల్ ఫార్మెట్‌లను అనుసరించడానికి పరిమితం చేయడానికి, డెవలపర్‌లు ఒక regex లేదా మరింత పూర్తిగా పేర్కొన్న సందర్భ-రహిత వ్యాకరణాన్ని(కొత్త విండోలో తెరుచుకుంటుంది) కూడా అందించవచ్చు.

ఇంతకుముందు, డెవలపర్-నిర్వచించిన టూల్స్ కోసం మా ఇంటర్‌ఫేస్ వాటిని JSONతోనే కాల్ చేయాలని కోరేది, ఇది సాధారణంగా వెబ్ APIలు మరియు డెవలపర్‌ల వాడే ఫార్మెట్. అయితే, సరైన JSON అవుట్‌పుట్ చేయడానికి, నమూనా అన్ని కోటేషన్ మార్క్స్, బ్యాక్‌స్లాష్‌లు, న్యూ లైన్‌లు మరియు ఇతర నియంత్రణ క్యారెక్టర్‌లను పర్ఫెక్ట్‌గా ఎస్కేప్ చేయాలి. మా నమూనాల JSON అవుట్‌పుట్ చేయడంలో బాగా ట్రెయిన్ చేయబడ్డా, వందల లైన్ల కోడ్ లేదా 5-పేజీల రిపోర్ట్‌లాంటి పెద్ద ఇన్‌పుట్‌ల్లో ఎర్రర్ వచ్చే అవకాశాలు పెరుగుతాయి. కస్టమ్ టూల్స్‌తో, GPT‑5 తప్పించుకోవాల్సిన అన్ని క్యారెక్టర్‌ల నుండి తప్పించుకోకుండా, టూల్ ఇన్‌పుట్‌లను ప్లెయిన్ టెక్ట్స్‌గా రాయగలదు.

SWE-bench వెరిఫైడ్‌లో JSON టూల్స్ బదులుగా కస్టమ్ టూల్స్ వాడినప్పుడు కూడా, GPT‑5 దాదాపు అదే స్కోర్ సాధించింది.

సేఫ్టీ

GPT‑5 సేఫ్టీలో ఫ్రంటియర్‌ను ముందుకు తీసుకెళ్లి, ఇది మరింత బలమైన, నమ్మదగిన మరియు సహాయకరమైన నమూనా. GPT‑5 మా గత నమూనాల కంటే హాల్యూసినేట్ అయ్యే అవకాశాలు గణనీయంగా తక్కువ, తన యాక్షన్స్ మరియు సామర్థ్యాలను యూజర్‌కి మరింత నిజాయితీగా కమ్యూనికేట్ చేస్తుంది, అలాగే సేఫ్టీ పరిమితుల్లో ఉండగానే సాధ్యమైనంత సాయక సమాధానం ఇస్తుంది. మీరు మా రీసెర్చ్ బ్లాగ్లో మరింత చదవవచ్చు.

లభ్యత & ధరలు

GPT‑5 ఇప్పుడు API ప్లాట్‌ఫారమ్‌లో మూడు పరిమాణాల్లో లభ్యమవుతుంది: gpt-5, gpt-5-mini, మరియు gpt-5-nano. ఇది ప్రతిస్పందనల API, చాట్ కంప్లీషన్‌ల APIలో లభ్యమవుతుంది, మరియు Codex CLIలో డిఫాల్ట్‌గా ఉంటుంది. GPT‑5 ధర $1.25/1M ఇన్‌పుట్ టోకెన్‌లు మరియు $10/1M అవుట్‌పుట్ టోకెన్‌లు, GPT‑5 mini ధర $0.25/1M ఇన్‌పుట్ టోకెన్‌లు మరియు $2/1M అవుట్‌పుట్ టోకెన్‌లు, మరియు GPT‑5 nano ధర $0.05/1M ఇన్‌పుట్ టోకెన్‌లు మరియు $0.40/1M అవుట్‌పుట్ టోకెన్‌లు.

ఈ నమూనాల మరియు API వెర్బోసిటీ పారామితులు, అలాగే కస్టమ్ టూల్స్‌కు మద్దతు ఇస్తాయి reasoning_effort. ఇవి ప్యారలెల్ టూల్ కాలింగ్, బిల్ట్-ఇన్ టూల్స్ (వెబ్ శోధన, ఫైల్ శోధన, ఇమేజ్ జనరేషన్ మరియు మరిన్ని), కోర్ API లక్షణాలు (స్ట్రీమింగ్, స్ట్రక్చర్డ్ అవుట్‌పుట్‌లు మరియు మరిన్ని) మరియు ప్రాంప్ట్ కాషింగ్ మరియు Batch API వంటి ఖర్చు-పొదుపు లక్షణాలను కూడా సపోర్ట్ చేస్తాయి.

ChatGPTలో ఉపయోగించే GPT‑5 యొక్క నాన్-రీజనింగ్ వెర్షన్ APIలో gpt-5-chat-latest గా లభ్యమవుతుంది, దీని ధర 1 మిలియన్ ఇన్‌పుట్ టోకెన్‌లకు $1.25 మరియు 1 మిలియన్ అవుట్‌పుట్ టోకెన్‌లకు $10.

GPT‑5 Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry వంటి Microsoft ప్లాట్‌ఫారాల్లో కూడా లాంచ్ అవుతోంది.

వివరణాత్మక బెంచ్‌మార్క్‌లు

ఇంటెలిజెన్స్
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] మా గత బ్లాగ్ పోస్ట్‌లో తెలిపిన సంఖ్యలతో చిన్న తేడా ఉంది, ఎందుకంటే అవి HLE యొక్క పాత వెర్షన్‌పై నడపబడ్డాయి.

మల్టీమోడల్
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
కోడింగ్
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$112వే$75వే$49వే$86వే$66వే$34వే$31వే$9వే
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] మా ఇన్‌ఫ్రాస్ట్రక్చర్‌పై రన్ చేయలేని 23/500 సమస్యలను మేం వదిలేశాం. వదిలేసిన 23 పనుల పూర్తి లిస్ట్ ఇది 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', మరియు 'sphinx-doc__sphinx-9367'.

సూచనలను అనుసరించడం
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] గమనిక: MultiChallenge (GPT-4o)లో డీఫాల్ట్ గ్రేడర్ తరచుగా నమూనా రెస్పాన్స్‌లను తప్పుగా స్కోర్ చేస్తుందని మేం కనుగొన్నాం. గ్రేడర్‌ను o3-mini లాంటి రీజనింగ్ నమూనా‌తో మారిస్తే, మేం పరిశీలించిన ఉదాహరణల్లో గ్రేడింగ్‌లో ఖచ్చితత్వం గణనీయంగా మెరుగైంది.

ఫంక్షన్ కాలింగ్
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
లాంగ్ కాంటెక్ట్స్‌
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
భ్రాంతులు
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

రచయిత

OpenAI