OpenAI o3 మరియు o4-mini పరిచయం
ఇప్పటివరకు మా అత్యంత తెలివైన, సామర్థ్యవంతమైన మోడళ్లు — పూర్తి సాధనాల ప్రాప్తితో
జూన్ 10, 2025 నాడు అప్డేట్: OpenAI o3‑pro ఇప్పుడు ChatGPTలోని Pro వినియోగదారులకు మరియు మా APIలో అందుబాటులో ఉంది. OpenAI o1‑pro మాదిరిగానే, o3‑pro అనేది మా అత్యంత తెలివైన నమూనా, OpenAI o3 వెర్షన్, ఇది ఎక్కువ కాలం ఆలోచించడానికి మరియు అత్యంత నమ్మదగిన ప్రతిస్పందనలను అందించడానికి రూపొందించబడింది. పూర్తి వివరాలను మా విడుదల గమనికలలో(కొత్త విండోలో తెరుచుకుంటుంది)చూడవచ్చు.
ఈ రోజు, మేము OpenAI o3 మరియు o4-miniను విడుదల చేస్తున్నాము, ఇవి స్పందించే ముందు ఎక్కువసేపు ఆలోచించేలా ట్రైన్ చేసిన మా o-series మోడళ్లలో తాజావి.ఇవి ఇప్పటివరకు మేము విడుదల చేసిన అత్యంత తెలివైన మోడళ్లు, ఇవి ChatGPT యొక్క సామర్థ్యాల్లో ఒక పెద్ద మార్పును సూచిస్తున్నాయి — ఆసక్తి ఉన్న యూజర్ల నుండి ఆధునిక పరిశోధకుల వరకు అందరికీ.మొదటిసారిగా, మా రీజనింగ్ మోడళ్లు ChatGPTలోని ప్రతి టూల్ను ఏజెంటిక్ గా ఉపయోగించి కలపగలవు — ఇందులో వెబ్ ను సర్చ్ చేయడం, అప్లోడ్ చేసిన ఫైల్ లు మరియు ఇతర డేటాను Pythonతో విశ్లేషించడం, విజువల్ ఇన్పుట్ లపై లోతైన రీజనింగ్ చేయడం, అలాగే ఇమేజ్లు జెనరేట్ చేయడం కూడా ఉన్నాయి.ముఖ్యంగా, ఈ మోడళ్లు ఎప్పుడు మరియు ఎలా టూల్స్ను ఉపయోగించాలో రీజనింగ్ చేయడానికి ట్రైన్ చేయబడ్డాయి, తద్వారా సరైన అవుట్పుట్ ఫార్మాట్లలో వివరమైన మరియు ఆలోచనాత్మక సమాధానాలు ఇవ్వగలవు — సాధారణంగా ఒక నిమిషం లోపే — మరింత క్లిష్టమైన సమస్యలను పరిష్కరించడానికి.ఇది వాటిని బహుముఖ ప్రశ్నలను మరింత సమర్థవంతంగా ఎదుర్కొనేలా చేస్తుంది, అలాగే మీ తరఫున స్వతంత్రంగా పనులను నిర్వర్తించగల మరింత ఏజెంటిక్ ChatGPT వైపు ఒక ముందడుగుగా ఉంటుంది.స్టేట్-ఆఫ్-ది-ఆర్ట్ రీజనింగ్ శక్తి మరియు పూర్తి టూల్ యాక్సెస్ కలయిక, అకాడమిక్ బెంచ్మార్క్లు మరియు రియల్-వర్డ్ టాస్క్లలో గణనీయంగా బలమైన పనితీరు అందిస్తుంది, ఇంటెలిజెన్స్ మరియు ఉపయోగకరతలో కొత్త ప్రమాణాన్ని ఏర్పరుస్తుంది.
OpenAI o3 మా అత్యంత శక్తివంతమైన తార్కిక నమూనా, ఇది కోడింగ్, గణితం, శాస్త్రం, దృశ్య అవగాహన మరియు మరెన్నో రంగాల్లో సరిహద్దులను విస్తరిస్తుంది. Codeforces, SWE-bench (కస్టమ్ మోడల్-స్పెసిఫిక్ స్కాఫోల్డ్ లేకుండా), మరియు MMMU వంటి బెంచ్మార్క్లపై కొత్త SOTAని స్థాపిస్తుంది. బహుముఖ విశ్లేషణ అవసరమయ్యే, సమాధానాలు వెంటనే స్పష్టంగా కాని క్లిష్టమైన ప్రశ్నలకు ఇది అనుకూలం. చిత్రాలు, చార్టులు, గ్రాఫిక్స్ను విశ్లేషించడం వంటి దృశ్య పనుల్లో ఇది ప్రత్యేకంగా బలంగా పనిచేస్తుంది. బాహ్య నిపుణుల మూల్యాంకనాల్లో, కఠినమైన నిజజీవిత పనులపై o3, OpenAI o1 కంటే 20 శాతం తక్కువ ప్రధాన తప్పులు చేస్తుంది—ప్రత్యేకంగా ప్రోగ్రామింగ్, బిజినెస్/కన్సల్టింగ్, మరియు క్రియేటివ్ ఐడియేషన్ వంటి రంగాల్లో అద్భుతంగా రాణిస్తుంది. ప్రారంభ పరీక్షకులు దీనిని ఆలోచనా భాగస్వామిగా దాని విశ్లేషణ కట్టుదిట్టతను హైలైట్ చేసి, కొత్త హైపోథీసిస్లను సృష్టించి వాటిని విమర్శనాత్మకంగా మూల్యాంకనం చేసే సామర్థ్యాన్ని—ముఖ్యంగా బయాలజీ, గణితం, ఇంజినీరింగ్ సందర్భాల్లో—ప్రస్తావించారు.
OpenAI o4-mini వేగవంతమైన, తక్కువ ఖర్చుతో కూడిన తర్కానికి ఆప్టిమైజ్ చేయబడిన చిన్న మోడల్—దాని పరిమాణం మరియు ఖర్చుకు అనుగుణంగా, మరిముఖ్యంగా గణితం, కోడింగ్, మరియు విజువల్ టాస్క్ల్లో అద్భుతమైన పనితీరును సాధిస్తుంది. ఇది AIME 2024 మరియు 2025లో అత్యుత్తమ పనితీరు కనబరిచిన బెంచ్మార్క్ చేయబడిన మోడల్. కంప్యూటర్ ప్రాప్తి AIME పరీక్ష కష్టతను గణనీయంగా తగ్గించినప్పటికీ, Python ఇంటర్ప్రెటర్ ప్రాప్తి ఇచ్చినప్పుడు AIME 2025లో o4-mini 99.5% pass@1 (100% consensus@8) సాధించిందనే విషయం కూడా గమనార్హం. ఈ ఫలితాలను టూల్ ప్రాప్యత లేని నమూనాల పనితీరుతో పోల్చకూడదు, కానీ ఇవి o4-mini అందుబాటులో ఉన్న టూల్స్ను ఎంత సమర్థవంతంగా వినియోగిస్తుందో ఒక ఉదాహరణ; o3 కూడా టూల్ వినియోగంతో AIME 2025లో ఇలాంటి మెరుగుదలలను చూపించింది (98.4% pass@1, 100% consensus@8).
నిపుణుల మూల్యాంకనాల్లో, o4-mini తన పూర్వికమైన o3‑mini కంటే STEM కాకపోయే పనులు మరియు డేటా సైన్స్ వంటి డొమైన్ల్లో కూడా మెరుగ్గా రాణించింది. దాని సమర్థత కారణంగా, o4-miniకి o3 కంటే గణనీయంగా ఎక్కువ వినియోగ పరిమితులు ఉన్నాయి, ఇది తర్కం వల్ల ప్రయోజనం పొందే ప్రశ్నల కోసం అధిక వాల్యూమ్, అధిక థ్రూపుట్ ఉన్న బలమైన ఎంపికగా నిలుస్తుంది. బాహ్య నిపుణులు రెండు నమూనాలను మెరుగైన బోధన అనుసరణ మరియు వారి పూర్వీకుల కంటే మరింత ఉపయోగకరమైన, ధృవీకరించదగిన ప్రతిస్పందనలను ప్రదర్శిస్తున్నట్లుగా రేట్ చేశారు, మెరుగైన మేధస్సు మరియు వెబ్ మూలాల చేర్చడం వల్ల. మా తర్క మోడళ్ల గత వెర్షన్లతో పోలిస్తే, ఈ రెండు మోడళ్లు మరింత సహజంగా మరియు సంభాషణాత్మకంగా అనిపించాలి, ముఖ్యంగా అవి మెమరీ మరియు గత సంభాషణలను ప్రస్తావించడం ద్వారా సమాధానాలను మరింత వ్యక్తిగతీకరించి, సంబంధితంగా చేస్తాయి.
మల్టీమోడల్
కోడింగ్
అన్ని SWE-bench ఈవాల్యుయేషన్ రన్స్లో, మా ఇంటర్నల్ ఇన్ఫ్రాస్ట్రక్చర్పై ధృవీకరించబడిన n=477 వెరిఫైడ్ టాస్క్ల ఫిక్స్డ్ సబ్సెట్ను ఉపయోగిస్తారు.
ఇన్స్ట్రక్షన్ ఫాలోయింగ్ మరియు ఏజెంటిక్ టూల్ వినియోగం
అన్ని నమూనాలు అధిక ‘తర్క శ్రమ’ సెట్టింగ్లలో మూల్యాంకించబడతాయి—ChatGPTలోని ‘o4-mini-high’ వేరియంట్లకు సమానంగా.
OpenAI o3 అభివృద్ధి చేసేటప్పుడల్లా మేం GPT‑సిరీస్ ప్రీట్రైనింగ్లో గమనించిన అదే “మరింత గణన = మెరుగైన పనితీరు” ధోరణిని పెద్ద ఎత్తున ఉపబల అభ్యాసాన్ని ప్రదర్శిస్తుందని గమనించాం. స్కేలింగ్ మార్గాన్ని తిరిగి అనుసరించడం ద్వారా—ఈసారి RLలో—మేం శిక్షణ కంప్యూట్ మరియు ఇన్ఫరెన్స్-టైమ్ తర్కంలో అదనపు స్థాయిని చేరుకున్నాం, అయితే స్పష్టమైన పనితీరు లాభాలను చూశాం, ఇది నమూనాల పనితీరు ఎక్కువగా ఆలోచించనిచ్చిన కొద్దీ మెరుగవుతుందని ధృవీకరిస్తుంది. OpenAI o1తో సమాన లేటెన్సీ మరియు ఖర్చుతో, o3 ChatGPTలో అధిక పనితీరును ఇస్తుంది—దానిని ఎక్కువసేపు ఆలోచించేట్లుగా చేస్తే, పనితీరు మరింత పెరుగుతుందని మేం ధృవీకరించాం.
మేం రెండు నమూనాలను కూడా రీఫోర్స్మెంట్ లెర్నింగ్ ద్వారా టూల్స్ వినియోగించేందుకుశిక్షణ ఇచ్చాం—వాటిని టూల్స్ ఎలా ఉపయోగించాలో మాత్రమే కాకుండా, ఎప్పుడు ఉపయోగించాలనే తర్కం నేర్పించాం. వాంఛిత ఫలితాల ఆధారంగా టూల్స్ను వినియోగించే వాటి సామర్థ్యం వాటిని ఓపెన్-ఎండెడ్ పరిస్థితుల్లో—ప్రత్యేకంగా దృశ్య తార్కికత మరియు బహుశ్రేణి వర్క్ఫ్లోలతో సంబంధమున్న వాటిలో—మరింత సమర్థవంతంగా చేస్తుంది. ఈ మెరుగుదల అకడమిక్ బెంచ్మార్క్లు మరియు నిజజీవిత పనులలో ప్రతిబింబించిందని తొలినాటి టెస్టర్లు నివేదించారు.

మొదటిసారిగా, ఈ మోడళ్లు చిత్రాలను నేరుగా తమ ఆలోచనా శ్రేణిలో ఏకీకృతం చేయగలవు. ఇవి చిత్రాన్ని కేవలం చూడవు—దానితోనే ఆలోచిస్తాయి. ఇది దృశ్య మరియు పాఠ్య తర్కాన్ని మిళితం చేసే కొత్త తరహా సమస్య పరిష్కారాన్ని తెరుస్తుంది, మల్టీమోడల్ బెంచ్మార్క్లలో వాటి అత్యాధునిక పనితీరులో ఇది ప్రతిఫలిస్తుంది.
వినియోగదారులు వైట్బోర్డు ఫోటో, పాఠ్యపుస్తకంలోని బొమ్మ, లేదా చేతితో వేసిన స్కెచ్ను అప్లోడ్ చేయవచ్చు, మరియు చిత్రం అస్పష్టంగా, తలక్రిందులుగా, లేదా తక్కువ నాణ్యతగా ఉన్నప్పటికీ—మోడల్ దాన్ని అర్థం చేసుకోగలదు. టూల్ వినియోగంతో, మోడళ్లు వెంటనే చిత్రాలను మార్చగలవు—రొటేట్ చేయడం, జూమ్ చేయడం, లేదా తర్క ప్రక్రియలో భాగంగా ట్రాన్స్ఫార్మ్ చేయడం.
ఈ మోడల్స్ దృశ్య గ్రహణ పనుల్లో అత్యుత్తమ ఖచ్చితత్వాన్ని అందిస్తాయి, ముందుగా పరిష్కరించలేని ప్రశ్నలను కూడా సాధ్యంచేస్తాయి. మరింత తెలుసుకోవడానికి విజువల్ రీజనింగ్ రీసెర్చ్ బ్లాగ్ చూడండి.
OpenAI o3 మరియు o4-mini కు ChatGPTలోని టూల్స్తో పాటు APIలో ఫంక్షన్ కాలింగ్ ద్వారా మీ కస్టమ్ టూల్స్కూ పూర్తి ప్రాప్యత ఉంది. ఈ మోడళ్లను సమస్యలను ఎలా పరిష్కరించాలో తర్కించేందుకు శిక్షణ ఇచ్చారు, టూల్స్ను ఎప్పుడు మరియు ఎలా ఉపయోగించాలో ఎంచుకుని, సరైన అవుట్పుట్ ఫార్మాట్లలో త్వరగా — సాధారణంగా ఒక నిమిషంలోపే — విశదమైన మరియు ఆలోచనాత్మక సమాధానాలు ఇవ్వడానికి.
ఉదాహరణకు, ఒక వినియోగదారు ఇలా అడగవచ్చు: “కాలిఫోర్నియాలో వేసవి శక్తి వినియోగం గత సంవత్సరంతో పోలిస్తే ఎలా ఉంటుంది?” మోడల్ వెబ్లో పబ్లిక్ యుటిలిటీ డేటాను వెతకగలదు, ఫోర్కాస్ట్ తయారుచేయడానికి పైథాన్ కోడ్ రాయగలదు, గ్రాఫ్ లేదా చిత్రం సృష్టించగలదు, అంచనాకు వెనుక ఉన్న ముఖ్యమైన కారణాలను వివరించగలదు, మరియు అనేక టూల్ కాల్స్ను కలిపి పనిచేస్తుంది. తర్క సామర్థ్యం మోడళ్లను ఎదురయ్యే సమాచారానికి అనుగుణంగా స్పందించి, అవసరమైతే దిశ మార్చుకునేలా చేస్తుంది. ఉదాహరణకు, అవి సెర్చ్ ప్రొవైడర్ల సహాయంతో వెబ్ను పలుమార్లు శోధించగలవు, ఫలితాలను పరిశీలించగలవు, మరింత సమాచారం అవసరమైతే కొత్త శోధనలు ప్రయత్నించగలవు.
ఈ అనువైన వ్యూహాత్మక విధానం మోడళ్లను, వాటి అంతర్గత జ్ఞానాన్ని మించి తాజా సమాచార ప్రాప్తి అవసరమయ్యే పనులను—విస్తృత తర్కం, సమన్వయం, మరియు విభిన్న విధానాల్లో అవుట్పుట్ తయారీతో—ఎదుర్కొనేలా చేస్తుంది.
అన్ని ఉదాహరణలు OpenAI o3తో పూర్తయ్యాయి.
OpenAI o3
OpenAI o1
OpenAI o3 సెర్చ్ ఉపయోగించకుండా సరైన సమాధానం పొందుతుంది, అయితే o1 సరైన సమాధానం ఇవ్వడంలో విఫలమవుతుంది.
ఖర్చు-సమర్థత తర్కాన్ని అభివృద్ధి చేయడం
ఖర్చు vs పనితీరు: o3‑mini మరియు o4-mini


ఖర్చు vs పనితీరు: o1 మరియు o3


OpenAI o3 మరియు o4-mini మేమెప్పుడైనా విడుదల చేసిన అత్యంత తెలివైన మోడళ్లు, మరియు ఇవి తరచుగా వాటి పూర్వికులైన OpenAI o1 మరియు o3‑mini కంటే మరింత సమర్థవంతంగా ఉంటాయి. ఉదాహరణకు, 2025 AIME గణిత పోటీలో, o3 యొక్క ఖర్చు-పనితీరు ఫ్రంటియర్ o1 కంటే స్పష్టంగా మెరుగుపడింది, అలాగే o4-mini ఫ్రంటియర్ కూడా o3‑mini కంటే స్పష్టంగా మెరుగుపడింది. సాధారణంగా, ఎక్కువ నిజజీవిత వినియోగాల్లో o3 మరియు o4-mini వరుసగా o1 మరియు o3‑mini కంటే తెలివిగానూ, తక్కువ ఖర్చుగానూ ఉంటాయని మేం భావిస్తున్నాము.
నమూనా సామర్థ్యాలలో ప్రతి మెరుగుదల భద్రతకు తగిన మెరుగుదలలకు హామీ ఇస్తుంది. OpenAI o3 మరియు o4-mini కోసం, మేం మా భద్రతా శిక్షణ డేటాను పూర్తిగా పునర్నిర్మించి, బయోలాజికల్ ముప్పులు (బయోరిస్క్), మాల్వేర్ జనరేషన్, జైల్బ్రేక్స్ వంటి రంగాల్లో కొత్త తిరస్కరణ ప్రాంప్ట్లను చేర్చాం. ఈ రీఫ్రెష్ చేసిన డేటా o3 మరియు o4-mini లను మా అంతర్గత తిరస్కరణ బెంచ్మార్క్లపై (ఉదా., సూచనా హైరార్కీ, జైల్బ్రేక్లు) బలమైన పనితీరును సాధించడానికి దారితీసింది. నమూనా తిరస్కరణ పనితీరు బలంగా ఉండటమే కాకుండా, ఫ్రంటియర్ రిస్క్ ప్రాంతాల్లో ప్రమాదకరమైన ప్రాంప్ట్లను గుర్తించేందుకు సిస్టమ్ స్థాయి నివారణలను కూడా అభివృద్ధి చేశాం. చిత్రం జనరేషన్లో మా గత పని మాదిరిగా, మేం మానవ-రచిత మరియు అర్థమయ్యే భద్రతా నిర్దేశాల నుండి పనిచేసే రీజనింగ్ LLM మానిటర్కు శిక్షణ ఇచ్చాం. బయోరిస్క్కు అప్లై చేసినప్పుడు, మా మానవ రెడ్-టీమింగ్ ప్రచారంలోని సంభాషణల్లో సుమారు ~99%ను ఈ మానిటర్ విజయవంతంగా ఫ్లాగ్ చేసింది.
ఇప్పటివరకు మా అత్యంత కఠినమైన భద్రతా కార్యక్రమంతో రెండు మోడల్స్ను స్ట్రెస్ టెస్ట్ చేశాం. మా అప్డేట్ చేసిన సంసిద్ధతా ఫ్రేమ్వర్క్ ప్రకారం, మేం ఫ్రేమ్వర్క్ కవర్ చేసిన మూడు ట్రాక్ చేసిన సామర్ధ్య ప్రాంతాలు: జీవ మరియు రసాయన, సైబర్ సెక్యూరిటీ, మరియు AI స్వీయ-మెరుగుదలలో o3 మరియు o4-మినీని అంచనా వేశాం. ఈ మూల్యాంకనాల ఫలితాల ఆధారంగా, మొత్తం మూడు కేటగిరీల్లో కూడా o3 మరియు o4-mini రెండూ ఫ్రేమ్వర్క్ యొక్క "హై" పరిమితి కంటే దిగువనే ఉన్నాయని మేం నిర్ధారించాం. మేం ఈ మూల్యాంకనాల నుండి వివరణాత్మక ఫలితాలను అనుబంధ సిస్టమ్ కార్డ్లోప్రచురించాం.
మేం ఒక కొత్త ప్రయోగాన్ని కూడా పంచుకుంటున్నాం: Codex CLI, మీరు మీ టెర్మినల్ నుండి అమలు చేయగల తేలికైన కోడింగ్ ఏజెంట్. ఇది మీ కంప్యూటర్లో నేరుగా పనిచేస్తుంది మరియు o3 మరియు o4-mini వంటి మోడళ్ల తర్క సామర్థ్యాలను గరిష్టం చేసేందుకు రూపకల్పన చేయబడింది, అలాగే GPT‑4.1 వంటి అదనపు API మోడళ్లకు త్వరలో మద్దతు అందించబడనుంది.
కమాండ్ లైన్ నుంచే, స్క్రీన్షాట్లు లేదా తక్కువ నాణ్యత స్కెచ్లను మోడల్కి పంపించి—మీ లోకల్ కోడ్కు ప్రాప్యతతో కలిపి—మల్టీమోడల్ తర్కం యొక్క ప్రయోజనాలు పొందవచ్చు. మా మోడళ్లను వినియోగదారులు మరియు వారి కంప్యూటర్లతో అనుసంధానించడానికి ఇది ఒక కనీస ఇంటర్ఫేస్గా మేం భావిస్తున్నాము. Codex CLI పూర్తిగా ఓపెన్ సోర్స్గా github.com/openai/codex(కొత్త విండోలో తెరుచుకుంటుంది) అందుబాటులో ఉంది. ఇవాళ.
దీనికితోడు, Codex CLI మరియు OpenAI మోడల్స్ను ఉపయోగించే ప్రాజెక్టులకు మద్దతు ఇవ్వడానికి మేం $1 మిలియన్ కార్యక్రమాన్ని ప్రారంభిస్తున్నాం. API క్రెడిట్స్ రూపంలో, $25,000 USD దశల్లో గ్రాంట్లకు దరఖాస్తులను మేం మూల్యాంకించి ఆమోదిస్తాము. ప్రతిపాదనలను ఇక్కడ సమర్పించవచ్చు.
ఈ రోజు నుండి ChatGPT Plus, Pro, మరియు Team వినియోగదారులు మోడల్ సెలెక్టర్లో o3, o4-mini, మరియు o4-mini-high ను చూస్తారు; ఇవి o1, o3‑mini, మరియు o3‑mini‑high స్థానాన్ని దక్కించుకుంటాయి. ChatGPT Enterprise మరియు Edu వినియోగదారులకు ఒక వారంలో ప్రాప్యత లభిస్తుంది. ఉచిత వినియోగదారులు తమ ప్రశ్నను సమర్పించే ముందు కంపోజర్లో 'Think' ను ఎంచుకుని o4-miniని ప్రయత్నించవచ్చు. అన్ని ప్లాన్లలో రేట్ పరిమితులు, గత మోడళ్ల సమితి నుండి మార్పులేకుండా అలాగే ఉంటాయి.
మేం పూర్తి టూల్ మద్దతుతో OpenAI o3‑pro ను కొద్ది వారాల్లో విడుదల చేయాలని భావిస్తున్నాం. ప్రస్తుతం, Pro వినియోగదారులు ఇంకా o1‑pro ను ఉపయోగించవచ్చు.
o3 మరియు o4-mini రెండూ ఈ రోజు చాట్ కంప్లీషన్స్ API మరియు రెస్పాన్స్ API ద్వారా డెవలపర్లకు లభ్యమవుతున్నాయి (కొంతమంది డెవలపర్లు ఈ నమూనాలను యాక్సెస్ చేయడానికి వారి సంస్థలను ధృవీకరించాలి(కొత్త విండోలో తెరుచుకుంటుంది)). Responses API తర్క సారాంశాలను మద్దతు ఇస్తుంది, మెరుగైన పనితీరు కోసం ఫంక్షన్ కాల్ల చుట్టూ తర్క టోకెన్లను నిలుపుకోవడం సాధ్యమవుతుంది, మరియు త్వరలోనే మోడల్ తర్కంలో వెబ్ సెర్చ్, ఫైల్ సెర్చ్, కోడ్ ఇంటర్ప్రెటర్ వంటి బిల్ట్-ఇన్ టూల్లను మద్దతు ఇస్తుంది. ప్రారంభించడానికి, మా డాక్యుమెంట్లను అన్వేషించండి(కొత్త విండోలో తెరుచుకుంటుంది) మరియు మరిన్ని నవీకరణల కోసం వేచి ఉండండి.
ఇవాల్టి అప్డేట్లు మా నమూనాలు ఏ దిశలో వెళుతున్నాయో ప్రతిబింబిస్తాయి: మేం GPT‑సిరీస్ యొక్క సహజ సంభాషణ సామర్థ్యాలు మరియు సాధన వాడకంతో O-సిరీస్ యొక్క ప్రత్యేక తార్కికత సామర్థ్యాలను కలుపుతున్నాం. ఈ బలాలను ఏకీకృతం చేయడం ద్వారా, మా భవిష్యత్ నమూనాలు చురుకైన సాధన వినియోగం మరియు అధునాతన సమస్య పరిష్కారంతో పాటు అంతరాయం లేని, సహజ సంభాషణలకు మద్దతు ఇస్తాయి.
జూలై 28, 2025న అప్డేట్: SWE-Lancer డేటాసెట్ మరియు ఫలితాలు జులై 17, 2025 నాటికి అప్డేట్ చేయబడ్డాయి, ఇక్కడ లభ్యమవుతున్నాయి: https://github.com/openai/preparedness(కొత్త విండోలో తెరుచుకుంటుంది) మరియు మా సిస్టమ్ కార్డుల్లో. ఈ అప్డేట్ డాలర్లు సంపాదించిన ఫలితాలపై ప్రభావితం చేసే అనేక సమస్యలను పరిష్కరిస్తుంది మరియు అమలు చేసే సమయంలో ఇంటర్నెట్ కనెక్టివిటీ అవసరాన్ని తొలగిస్తుంది, నమూనా పనితీరులో వైవిధ్యం యొక్క ప్రాథమిక మూలాన్ని తీసివేస్తుంది.
2025 ఏప్రిల్ 16 అప్డేట్: అసలు మూల్యాంకనంలో లేని సిస్టమ్ ప్రేరేపించు మార్పును ప్రతిబింబించేలా Charxiv-r మరియు Mathvista పై o3 కోసం ఫలితాలు అప్డేట్ చేయబడ్డాయి.
రచయిత
ఫుట్ నోట్స్
* టౌ-బెంచ్ మూల్యాంకన సంఖ్యలు వ్యత్యాసాన్ని తగ్గించడానికి 5 రన్ల సగటు తీసుకుంటారు, ఎలాంటి కస్టమ్ టూల్స్ లేదా ప్రాంప్టింగ్ లేకుండా నడుస్తాయి. టౌ-బెంచ్ రిటైల్ రోల్అవుట్లు వినియోగదారు నమూనా పొరపాట్లకు ఎక్కువగా గురవుతాయని మేం గుర్తించాం. షేడెడ్ బార్కు సంబంధించిన సంఖ్యలను GPT-4o కంటే సూచనలను అనుసరించడంలో GPT-4.1 గణనీయంగా మెరుగ్గా పనిచేస్తుందనేది కారణంగా, GPT-4.1 ను యూజర్ మోడల్గా ఉపయోగించి అమలు చేశారు.
* SWE-bench 256k గరిష్ట కాంెక్ట్స్ పొడవును ఉపయోగిస్తుంది, ఇది o4-mini పరిష్కార రేటును సుమారు 3% మెరుగుపరుస్తుంది మరియు o3 పరిష్కార రేటును <1% ప్రభావితం చేస్తుంది. మా అంతర్గత మౌలిక సదుపాయాలపై అమలు చేయలేని 23 నమూనాలను కూడా మేం మినహాయిస్తున్నాము.
** బ్రౌజింగ్ ప్రారంభించినప్పుడు, మోడల్ కొన్నిసార్లు ఆన్లైన్లో ఖచ్చితమైన సమాధానాలను కనుగొనగలదు, ఉదాహరణకు, డేటాసెట్ నుండి నమూనా సమస్యలతో కూడిన బ్లాగ్ పోస్టులను చదివి. మేం రెండు వ్యూహాలతో బ్రౌజ్ చేస్తున్నప్పుడు నమూనా మోసం ఆందోళనలను తగ్గించాం:
గతంలో మోడల్ చీటింగ్ చేసినట్లు మేం గమనించిన డొమైన్లను బ్లాక్ చేశాం.
అనుమానాస్పద ప్రవర్తనను గుర్తించడానికి ప్రతి ప్రయత్నంలో అన్ని tokenలను పరిశీలించడానికి మానిటర్గా తర్క నమూనాను ఉపయోగించారు. అనుమానాస్పద ప్రవర్తనను "ఒక పేజీ, ఫైల్ లేదా స్నిప్పెట్, దీని ప్రధాన ఉద్దేశ్యం ఈ నిర్దిష్ట ప్రశ్నకు ఖచ్చితమైన సమాధానాన్ని అందించడం - ఉదా., అధికారిక గ్రేడింగ్ కీ, లీకైన “పరిష్కారాలు” గిస్ట్, లేదా చర్చ పూర్తయిన సమాధానాన్ని పదబంధంతో ఉటంకించడం"గా నిర్వచించారు. నిరపాయమైన ప్రవర్తనను "ఏదైనా అధికార వనరు, ఒక శ్రద్ధగల మానవుడు సంప్రదించవచ్చు (డాక్యుమెంటేషన్, మాన్యువల్స్, స్కాలర్ పేపర్లు, ప్రసిద్ధ కథనాలు) అది యాదృచ్ఛికంగా సరైన సమాధానాన్ని కలిగి ఉన్నప్పటికీ"గా నిర్వచించారు.మానిటర్ రోల్అవుట్ను అనుమానాస్పదంగా భావించిన ఏదైనా ప్రయత్నాలు తప్పుగా లెక్కించబడతాయి. ఈ తనిఖీలో విఫలమైన చాలా నమూనాలు HLEకి సంబంధం లేని అనేక ఇంటర్నెట్ వనరులలో ఖచ్చితమైన పరిష్కారం అందుబాటులో ఉన్న సమస్యలే.
చివరగా, ChatGPT మరియు OpenAI APIల మధ్య సెర్చ్ ఇంజిన్ బ్యాక్ఎండ్ల తేడా కారణంగా, బ్రౌజింగ్తో చేసిన మా మూల్యాంకనాలు OpenAI APIలో పరిపూర్ణంగా పునరావృతం కావకపోవచ్చు. ఈ ఫలితాలు ChatGPT వినియోగదారుల అనుభవాన్ని ప్రతిబింబించడానికి ఉద్దేశించబడ్డాయి; అయితే డిమాండ్పై ఆధారపడి, సెర్చ్ కాన్ఫిగరేషన్ కాలక్రమేణా మారవచ్చు.
సహకారులు
ఆదిత్య సింగ్, ఆరోన్ ష్లెసింజర్, ఆడమ్ ఫ్రై, ఆడమ్ లెరర్, ఆడమ్ పెరెల్మాన్, ఆడమ్ వాకర్, అహ్మద్ ఎల్-కిష్కీ, ఐడెన్ క్లార్క్, ఐడెన్ మెక్లాఫ్లిన్, ఐడెన్ లో, ఆకిలా వెలిహిందా, అక్షయ్ నాథన్, అలెక్సాండర్ మ్యాడ్రి, అలెక్సాండ్రా స్పైరా, అలెక్స్ కార్పెన్కో, అలెక్స్ నైట్జ్, అలెక్స్ టాచార్డ్ పాసోస్, అలెక్స్ వే, అలెగ్జాండర్ ప్రోకోఫివ్, అలెగ్జాండర్ జీలెన్స్కీ, అలెగ్జాండ్రా బార్, అలెక్సీ ఇవానోవ్, ఆలెక్సీ క్రిస్టాకిస్, ఆల్ఫ్రెడ్ జూ, అలిసన్ టామ్, అలీ బెన్నెట్, అలీ బెన్నెట్, అమీలియా లియూ, ఎమి మెక్డొనాల్డ్ సాంజిదెహ్, అనన్య కుమార్, ఆండ్రే సరైవా, ఆండ్రియా వల్లొనే, ఆండ్రూ చెన్, ఆండ్రూ డ్యూబర్స్టీన్, ఆండ్రూ గిబియాన్స్కీ, ఆండ్రూ కొండ్రిచ్, ఆండ్రూ టల్లాక్, ఆండ్రే మిష్చెంకో, ఆండీ ఆపిల్బామ్, ఆండీ వాంగ్, ఏంజెలా బేక్, అన్నీ వే, అంటింగ్ షెన్, ఆంటోయిన్ పేలిస్, అనూజ్ సహారన్, అరుణ్ విజయ్వెర్గియా, ఆష్లీ టైరా, అశ్విన్ నాయర్, ఆవి నాయక్, అవితాల్ ఒలివర్, బెహ్రూస్ ఘోర్బాని, బెలిండా ట్రూం, బెన్ సొకలోవ్స్కీ, బెత్ హూవర్, బో జూ, బోవాజ్ బారక్, బోహాన్ జాంగ్, బోరిస్ మీనాయేవ్, బోటావో హావో, బోవెన్ బేకర్, బోవెన్ చెంగ్, బ్రాండన్ మెక్కింజీ, బ్రాండన్ వాంగ్, బ్రియాన్ హ్సు, బ్రియాన్ యాంగ్, బ్రియాన్ యూ, బ్రియాన్ జాంగ్, కమిలో లుగారేసీ, క్యారోలినా పాజ్, కార్పస్ చాంగ్, క్యారీ బాసిన్, క్యారీ హడ్సన్, కేసీ చూ, చాక్ లీ, చార్లెస్ జావో, చార్లీ జాట్, షార్లెట్ కోల్, చెల్సియా వోస్, చెన్ షెన్, చెంగ్షు జువాంగ్, క్రిస్ కాల్బీ, క్రిస్ హల్లాసీ, క్రిస్ కోచ్, క్రిస్టినా కెప్లాన్, క్రిస్టినా కిమ్, కోలిన్ రీడ్, కోలిన్ వే, క్రిస్టినా షావ్, డి. స్కల్లే, డామియన్ డెవిల్లే, డాన్ రాబర్ట్స్, డానా పాల్మీ, డేన్ స్టక్కీ, డేనియల్ లెవైన్, డేవిడ్ హు, డేవిడ్ మార్టిన్, డేవిడ్ రాబిన్సన్, డేవిడ్ సాసాకీ, డేవిస్ వూ, డెరిక్ చెన్, దిబ్య భట్టాచార్య, డిమిట్రిస్ సిప్రాస్, డింగ్హువా లీ, డిజె స్ట్రౌస్, డ్మెడ్ మెడినా, డ్రూ హింట్జ్, ఎడ్డి జాంగ్, ఎడ్మండ్ వాంగ్, ఎలైన్ యా లే, ఎలి యాని, ఎలిజబెత్ ప్రోహెల్, ఎమిలీ సోకలొవా, ఇనాక్ చెంగ్, ఎరీ ష్వార్ట్జ్, ఎరిక్ మిచెల్, ఎరిక్ నింగ్, ఎరిక్ సిగ్లర్, ఎరిక్ వాలెస్, యూజెనియో పనీరో, ఎవాన్ మేస్, ఎవ్గెని నికిషిన్, ఫ్యాన్ వాంగ్, ఫాంగ్యుయాన్ లీ, ఫిలిపో రాసో, ఫోయివోస్ సింపౌర్లాస్, ఫౌద్ మాటిన్, ఫ్రాన్సిస్ సాంగ్, ఫ్రాన్సిస్ జాంగ్, గ్యారీ యాంగ్, జీన్ ఓడెన్, జియాంబటిస్టా పరాస్కాండోలో, గిల్డాస్ చాబోట్, గ్రేస్ కిమ్, గ్రేస్ జావో, గ్రెగ్ బ్రాక్మన్, గ్రెగరీ వేలియంట్, గిలామ్ లెక్లెర్క్, హాది సాల్మాన్, హైటాంగ్ హు, హన్నా షిహాన్, హావో శేంగ్, హావ్యూ వాంగ్, హెన్రిక్ పాండే డి ఒలివేరా పింటో, హెన్రీ ఆస్పెగ్రెన్, హెకింగ్ యాన్, హెస్సామ్ బఘెరినెజాద్, హోంగ్యు రెన్, హంటర్ లైట్మన్, హైయెన్వూ నోహ్, ఇయాన్ కివ్లిచాన్, ఇయాన్ సోహల్, ఇగ్నాసి క్లావెరా, ఐకై లాన్, ఇల్గే అకాయా, ఇల్యా కోస్ట్రికోవ్, ఇరినా కోఫ్మాన్, ఈసా ఫుల్ఫోర్డ్, జేక్ బ్రిల్, జకుబ్ పాచోకి, జేమ్స్ బెటికర్, జేమ్స్ లీ, జేమ్స్ క్విన్, జేమీ కిరోస్, జేసన్ ఐ, జే వాంగ్, జీన్ హార్బ్, జెఫ్ మిక్కీ, జెఫ్రీ హాన్, జెఫ్రీ వాంగ్, జెరెమీ చెన్, జెర్రీ ట్వోరెక్, జెసికా లియాంగ్, జెసికా షీ, జీ లిన్, జియాహుయ్ యూ, జియాన్ఫెంగ్ వాంగ్, జీ టాంగ్, జిహాన్ యిన్, జింగ్ లీ, జోయాన్ జాంగ్, జోయెల్ మోరిస్, జోహన్నెస్ ఫెర్స్టాడ్, జోహన్నెస్ హైడెక్, జాన్ ఫిష్బీన్, జోన్ ఓకూన్, జొనాథన్ గోర్డన్, జోస్ట్ హుయిజింగా, జోస్ క్రాయీజెవెల్డ్, జోసఫ్ మో, జోష్ లాసన్, జోష్ టోబిన్, జున్హువా మావో, కై చెన్, కై హయాషి, కరణ్ సింఘాల్, కరీనా న్గుయెన్, కేటీ షీ, కెల్లీ స్టిర్మన్, కెన్జీ హటా, కెనీ న్గుయెన్, కెరెన్ గు-లెంబర్గ్, కెవిన్ గ్లాడ్స్టోన్, కెవిన్ కింగ్, కెవిన్ లియూ, కెవిన్ లూ, కెవిన్ పార్క్, కెవిన్ స్టోన్, కెవిన్ వేల్, కెవిన్ వినరీ, కెవిన్ యూ, కోటే ముషేగియాని, క్రిస్టెన్ యింగ్, క్రిస్టియన్ జార్జీవ్, క్షితిజ్ గుప్తా, కైల్ కొసిక్, లామా అహ్మద్, లారీ ల్వ్, లారెన్ ఐటో, లారెన్ యాంగ్, లీ బయ్రన్, లియో చెన్, లియో లియూ, లియోన్ మాక్సిన్, లేటన్ హో, లీ జింగ్, లియాంగ్ జియాంగ్, లిన్ యాంగ్, లిండెన్ లీ, లోరెంజ్ కుహన్, లూయీ ఫెవ్రియర్, లూ జాంగ్, లుకాజ్ కైసర్, మహ్మూద్ ఎరిబీ, మాయా త్రెంబాజ్, మనస్ జోగాలేకర్, మనోలీ లియోడాకిస్, మనుకా స్ట్రాటా, మార్క్ చెన్, మార్క్ హుడ్నాల్, మార్క్ సన్, మార్క్ వాంగ్, మార్టిన్ లీ, మార్విన్ జాంగ్, మత్యూష్ లిట్విన్, మాట్ జోన్స్, మాట్ లిమ్, మ్యాక్స్ జాన్సన్, మ్యాక్స్ శ్వార్జర్, మయాంక్ గుప్తా, మేఘన్ షా, మెంగ్చింగ్ వాంగ్, మెంగ్యువాన్ యాన్, మియా గ్లేస్, మైకేల్ బోలిన్, మైకేల్ లాంపే, మైకేల్ మాలెక్, మైకేల్ షార్మన్, మైకేల్ జాంగ్, మిచెల్ వాంగ్, మిచెల్ పొక్రాస్, మిగ్వెల్ ఓమ్ తెముడో డి క్యాస్ట్రో, మిహాయి ఫ్లోరియన్, మైక్ మెక్క్లే, మైక్ ట్ర్ప్సిక్, మికీ హాబ్రిన్, మైల్స్ వాంగ్, మింగ్ చెన్, మింగ్స్యువాన్ వాంగ్, మిన్నియా ఫెంగ్, మిచెల్ గార్డన్, మో బావేరియన్, మోస్తఫా రోహానినెజాద్, నాచో సోటో, నకూల్ ఖన్నా, నాట్ మెక్అలీస్, నటాలి స్టాడాచర్, నాటన్ లాఫాంటైన్, నీల్ అజ్జరపు, నిక్ ఫెల్ట్, నిక్ టర్లీ, నికిల్ పంచా, నికిటా మిఖైలిన్, నికో ఫెలిక్స్, నికుంజ్ హండా, నింగ్ లియూ, నిశాంత్ రాయ్, నోహా జార్జెన్సన్, నోమ్ బ్రౌన్, ఓలేగ్ బోయ్కో, ఓలేగ్ ముర్క్, ఒలీవియా వాట్కిన్స్, ఒలివియర్ గోడెమెంట్, ఊనా గ్లీసన్, పాల్ ఆష్బోర్న్, పావెల్ బెలోవ్, పీటర్ ఫ్లాక్హార్ట్, పీటర్ హోషెల్, పీటర్ జ్హోకోవ్, ఫిలిప్ ప్రొనిన్, ఫిలిప్ గువో, ఫీబీ థాకర్, ప్రఫుల్ ధారీవాల్, ప్రశాంత్ ఆర్, రాచెల్ డియాస్, రాహుల్ అరోరా, రాజ్కుమార్ శామ్యూల్, రాస్మస్ రైగార్డ్, రవి తేజ ముళ్లపూడి, రేమండ్ లీ, రజ్ గాయోన్, రియా మియారా, రేయిచిరో నకానో, రీమర్ లైకే, రెన్నీ సాంగ్, రిథమ్ గార్గ్, ఆర్జె మార్సన్, రాబర్ట్ జియాంగ్, రాబిన్ బ్రౌన్, రోమన్ త్స్యూపా, రుయి షు, రుస్లాన్ నిగ్మటులిన్, సాచి జైన్, సాగార్ పటేల్, సామ్ ఆల్ట్మన్, సామ్ టోయిజర్, సామ్ టోయర్, సమీర్ అహ్మద్, శామ్యూల్ మైసరెండినో, శామ్యూల్ వోల్రిచ్, సందిని అగర్వాల్, సాంటియాగో హెర్నాండెజ్, సారా డాంగ్, సవన్నా హియోన్, స్కాట్ ఏథర్స్మిత్, స్కాట్ మేయర్ మెక్కిన్నే, శీన్ ఫిట్జ్జెరాల్డ్, సెవర్ బానెసియు, షమేజ్ హేమాని, శెంగ్జియా జావో, శెంగ్లీ హు, శిబాని సంతుర్కార్, శ్రేయాస్ కృష్ణస్వామి, షుచావో బై, షున్యు యావో, షుయుయాన్ జాంగ్, సిమోన్ పోసాడా ఫిష్మాన్, స్పెన్సర్ పపాయ్, స్పగ్ గోల్డెన్, శ్రీనివాస్ నారాయణన్, స్టాన్లీ హ్షీ, స్టీఫెన్ లాగ్స్డన్, సుందీప్ తిరుమలరెడ్డి, టాల్ స్ట్రామర్, టావో వాంగ్, టావో జిన్, టేలర్ గార్డన్, తేజల్ పాట్వర్ధన్, తిబోల్ట్ సొట్టియాక్స్, టీనా శ్రీస్కందరాజా, టోనీ క్యాస్పారో, టోనీ జావో, ట్రెవర్ క్రీచ్, ఉజైర్ నవీద్ ఇఫ్తిఖార్, వాలెరీ చీ, వినీత్ కొసరాజు, విశాల్ కువో, విచ్యిర్ పాంగ్, వివేక్ వర్మ, వ్లాడ్ పెట్రోవ్, వెండా జౌ, వెన్లే షీ, వెన్టింగ్ జాన్, విల్ డి ప్యూ, విల్ ఎల్స్వర్త్, విలియం ష్యూ, వైట్ థాంప్సన్, యామింగ్ లిన్, యాన్ డుబాయిస్, యావోయింగ్ యూ, యారా ఖాక్బజ్, యష్ పాటిల్, యిఫాన్ వూ, యిలాంగ్ క్విన్, యినింగ్ చెన్, యిరుయ్ జాంగ్, యో షవిట్, యంగ్ చా, యున్యున్ వాంగ్, యుషి వాంగ్, జాక్ సుల్తాన్, జెహావో డౌ, జెవే చూ, జెంగ్ షావో, జిగాంగ్ వాంగ్, జిషుయ్ జాంగ్, జిహావో జాంగ్