ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

25 సెప్టెంబర్, 2025

ప్రచురణరీసెర్చ్

వాస్తవ ప్రపంచ పనులపై మా నమూనాల పనితీరును కొలవడం

మేము GDPval ను పరిచయం చేస్తున్నాము, ఇది 44 వృత్తులలో ఆర్థికంగా విలువైన, వాస్తవ ప్రపంచ పనులపై నమూనా పనితీరును కొలిచే ఒక కొత్త మూల్యాంకనం.

కృత్రిమ జనరల్ ఇంటెలిజెన్స్ మొత్తం మానవాళికి ప్రయోజనం చేకూర్చేలా చూడడమే మా లక్ష్యం. మా లక్ష్యంలో భాగంగా, AI నమూనాలు వాస్తవ ప్రపంచంలో ప్రజలకు ఎలా సహాయపడతాయో దానిపై పురోగతిని పారదర్శకంగా తెలియజేయాలనుకుంటున్నాము. అందుకే మేము GDPval ను పరిచయం చేస్తున్నాము: మా నమూనాలు మరియు ఇతరులు ఆర్థికంగా విలువైన, వాస్తవ ప్రపంచ పనులపై ఎంత బాగా పని చేస్తారో ట్రాక్ చేయడంలో మాకు సహాయపడటానికి రూపొందించబడిన ఒక కొత్త మూల్యాంకనం. స్థూల దేశీయోత్పత్తి (GDP) అనే భావనను కీలకమైన ఆర్థిక సూచికగా ప్రారంభించి, GDPకి అత్యధికంగా దోహదపడే పరిశ్రమలలోని కీలక వృత్తుల నుండి పనులను తీసుకున్నందున మేము ఈ మూల్యాంకనాన్ని GDPval అని పిలుస్తాము.

సమాజంపై AI యొక్క విస్తృత ప్రభావం గురించి ప్రజలు తరచుగా ఊహిస్తారు, కానీ దాని సామర్థ్యాన్ని అర్థం చేసుకోవడానికి స్పష్టమైన మార్గం ఏమిటంటే, నమూనాలు ఇప్పటికే ఏమి చేయగలవో చూడటం. ఇంటర్నెట్ నుండి స్మార్ట్‌ఫోన్‌ల వరకు ప్రధాన సాంకేతికతలు ఆవిష్కరణ నుండి విస్తృతంగా స్వీకరించబడటానికి ఒక దశాబ్దానికి పైగా పట్టిందని చరిత్ర చూపిస్తుంది. GDPval వంటి మూల్యాంకనాలు అంచనాలకు బదులుగా సాక్ష్యాలలో భవిష్యత్ AI మెరుగుదలల గురించి గ్రౌండ్ సంభాషణలకు సహాయపడతాయి మరియు కాలక్రమేణా నమూనా మెరుగుదలను ట్రాక్ చేయడంలో మాకు సహాయపడతాయి.

నమూనా తర్కము సామర్థ్యాల సరిహద్దులను నెట్టడంలో సవాలు చేసే విద్యా పరీక్షలు మరియు పోటీ కోడింగ్ సవాళ్లు వంటి మునుపటి AI మూల్యాంకనాలు చాలా ముఖ్యమైనవి, కానీ అవి తరచుగా చాలా మంది వ్యక్తులు తమ రోజువారీ పనిలో నిర్వహించే పనులకు సరిపోవు.

ఈ అంతరాన్ని తగ్గించడానికి, మేము వాస్తవికమైన మరియు ఆర్థికంగా సంబంధిత సామర్థ్యాలను కొలిచే మూల్యాంకనాలను అభివృద్ధి చేస్తున్నాము. ఈ పురోగతి MMLU (డజన్ల కొద్దీ సబ్జెక్టులలో పరీక్షా-శైలి ప్రశ్నలు) వంటి క్లాసిక్ అకాడమిక్ బెంచ్‌మార్క్‌ల నుండి SWE-Bench (సాఫ్ట్‌వేర్ ఇంజనీరింగ్ బగ్-ఫిక్సింగ్ పనులు), MLE-Bench (నమూనా శిక్షణ మరియు విశ్లేషణ వంటి యంత్ర అభ్యాస ఇంజనీరింగ్ పనులు), మరియు పేపర్-బెంచ్ (పరిశోధన పత్రాలపై శాస్త్రీయ తర్కము మరియు విమర్శ) వంటి మరింత అనువర్తిత మూల్యాంకనాలకు మరియు ఇటీవల SWE-Lancer (నిజమైన చెల్లింపుల ఆధారంగా ఫ్రీలాన్స్ సాఫ్ట్‌వేర్ ఇంజనీరింగ్ ప్రాజెక్టులు) వంటి మార్కెట్ ఆధారిత మూల్యాంకనాలకు మారింది.

ఆ పురోగతిలో GDPval తరువాత దశ. ఇది విస్తృత శ్రేణి వృత్తులు మరియు రంగాలలోని అనుభవజ్ఞులైన నిపుణుల వాస్తవ-ప్రపంచ జ్ఞాన పని నుండి నేరుగా తీసుకోబడిన పనులపై నమూనా పనితీరును కొలుస్తుంది, ఆర్థికంగా విలువైన పనులపై నమూనాలు ఎలా పని చేస్తాయనే దానిపై స్పష్టమైన చిత్రాన్ని అందిస్తుంది. వాస్తవిక వృత్తిపరమైన పనులపై నమూనాలను మూల్యాంకనం చేయడం వల్ల అవి ప్రయోగశాలలో ఎంత బాగా పని చేస్తాయో అర్థం చేసుకోవడమే కాకుండా, వారు ప్రతిరోజూ చేసే పనిలో ప్రజలకు ఎలా మద్దతు ఇస్తారో కూడా అర్థం చేసుకోవచ్చు. 

GDPval ఏమి కొలుస్తుంది

ఈ మూల్యాంకనం యొక్క మొదటి వెర్షన్ అయిన GDPval, US GDPకి దోహదపడే టాప్ 9 పరిశ్రమల నుండి ఎంపిక చేయబడిన 44 వృత్తులను విస్తరించింది. GDPval పూర్తి సెట్‌లో 1,320 ప్రత్యేక పనులు (గోల్డ్ ఓపెన్-సోర్స్డ్ సెట్‌లో 220) ఉన్నాయి, ప్రతి ఒక్కటి ఈ రంగాల నుండి సగటున 14 సంవత్సరాలకు పైగా అనుభవం ఉన్న అనుభవజ్ఞులైన నిపుణులచే జాగ్రత్తగా రూపొందించబడి పరిశీలించబడతాయి. ప్రతి పని చట్టపరమైన బ్రీఫ్, ఇంజనీరింగ్ బ్లూప్రింట్, కస్టమర్ మద్దతు సంభాషణ లేదా నర్సింగ్ కేర్ ప్రణాళిక వంటి నిజమైన పని ఉత్పత్తులపై ఆధారపడి ఉంటుంది.

GDPval దాని వాస్తవికత మరియు మూల్యాంకనం చేయబడిన పనుల వైవిధ్యం రెండింటిలోనూ విలక్షణమైనది. నిర్దిష్ట డొమైన్‌లపై (ఉదా. SWE-Lancer) దృష్టి సారించే ఆర్థిక విలువతో ముడిపడి ఉన్న ఇతర మూల్యాంకనాల మాదిరిగా కాకుండా, GDPval అనేక పనులు మరియు వృత్తులను కవర్ చేస్తుంది. మరియు విద్యా పరీక్ష లేదా పరీక్ష (ఉదా., హ్యుమానిటీస్ లాస్ట్ ఎగ్జామ్ లేదా MMLU) శైలిలో కృత్రిమంగా పనులను సృష్టించే బెంచ్‌మార్క్‌ల మాదిరిగా కాకుండా, GDPval నేటి వాస్తవ పని లేదా ఉత్పత్తి లేదా అదేవిధంగా నిర్మించిన పని ఉత్పత్తి అయిన డెలివరీల ఆధారంగా పనులపై దృష్టి పెడుతుంది. 

సాంప్రదాయ బెంచ్‌మార్క్‌ల మాదిరిగా కాకుండా, GDPval పనులు సాధారణ టెక్స్ట్ ప్రాంప్ట్‌లు కావు. అవి రిఫరెన్స్ ఫైల్స్ మరియు సందర్భంతో వస్తాయి మరియు ఆశించిన డెలివరీలు పత్రాలు, స్లయిడ్‌లు, రేఖాచిత్రాలు, స్ప్రెడ్‌షీట్‌లు మరియు మల్టీమీడియాను కలిగి ఉంటాయి. ఈ వాస్తవికత GDPval ను నమూనాస్ నిపుణులకు ఎలా మద్దతు ఇస్తాయో మరింత వాస్తవిక పరీక్షగా చేస్తుంది.

GDPval అనేది అనేక ఆర్థిక పనుల పూర్తి సూక్ష్మ నైపుణ్యాన్ని ప్రతిబింబించని ప్రారంభ దశ. ఇది 44 వృత్తులు మరియు వందలాది నాలెడ్జ్ వర్క్ పనులను విస్తరించి ఉన్నప్పటికీ, ఇది ఒక-షాట్ మూల్యాంకనాలకే పరిమితం చేయబడింది, కాబట్టి ఇది ఒక నమూనా సందర్భాన్ని నిర్మించాల్సిన లేదా బహుళ డ్రాఫ్ట్‌ల ద్వారా మెరుగుపరచాల్సిన సందర్భాలను సంగ్రహించదు. భవిష్యత్ వెర్షన్‌లు వాస్తవ ప్రపంచ జ్ఞాన పని యొక్క సంక్లిష్టతను బాగా ప్రతిబింబించడానికి మరింత ఇంటరాక్టివ్ వర్క్‌ఫ్లోలు మరియు సందర్భోచిత పనులకు విస్తరిస్తాయి (క్రింద ఉన్న మా పరిమితుల విభాగంలో మరిన్ని చూడండి).

మేము వృత్తులను ఎలా ఎంచుకున్నాము

GDPval 9 పరిశ్రమలు మరియు 44 వృత్తులలోని పనులను కవర్ చేస్తుంది మరియు భవిష్యత్తు వెర్షన్లు కవరేజీని విస్తరిస్తూనే ఉంటాయి. సెయింట్ లూయిస్‌లోని ఫెడరల్ రిజర్వ్ బ్యాంక్ డేటా ప్రకారం, US GDPకి 5% కంటే ఎక్కువ దోహదపడే పరిశ్రమల ఆధారంగా ప్రారంభ 9 పరిశ్రమలను ఎంపిక చేశారు. తరువాత, మే 2024 US బ్యూరో ఆఫ్ లేబర్ స్టాటిస్టిక్స్ (BLS) వృత్తిపరమైన ఉపాధి నివేదిక(కొత్త విండోలో తెరుచుకుంటుంది) నుండి వేతనం మరియు ఉపాధి డేటాను ఉపయోగించి, ప్రతి పరిశ్రమలోని మొత్తం వేతనాలు మరియు పరిహారానికి అత్యధికంగా దోహదపడే మరియు ప్రధానంగా జ్ఞాన పని వృత్తులలో 5 వృత్తులను మేము ఎంచుకున్నాము. వృత్తులు ప్రధానంగా జ్ఞాన పనినా కాదా అని నిర్ణయించడానికి, మేము US కార్మిక శాఖ స్పాన్సర్ చేసిన US వృత్తి సమాచారం యొక్క డేటాబేస్ అయిన O*NET(కొత్త విండోలో తెరుచుకుంటుంది) నుండి టాస్క్ డేటాను ఉపయోగించాము. మేము O*NETలో ప్రతి వృత్తికి సంబంధించిన ప్రతి పని జ్ఞాన పనినా లేక శారీరక పని/చేతి శ్రమనా (భౌతిక ప్రపంచంలో తీసుకోవలసిన చర్యలు అవసరం) అని వర్గీకరించాము. కనీసం 60% పనులు శారీరక శ్రమ లేదా శారీరక శ్రమతో సంబంధం లేనివిగా వర్గీకరించబడితే, ఆ వృత్తిని "ప్రధానంగా జ్ఞాన పని"గా పరిగణిస్తారు. GDPval యొక్క మొదటి వెర్షన్ కోసం మేము ఈ 60% థ్రెషోల్డ్‌ను ప్రారంభ బిందువుగా ఎంచుకున్నాము, వాస్తవ ప్రపంచ ఉత్పాదకతపై AI అత్యధిక ప్రభావాన్ని చూపే వృత్తులపై దృష్టి సారించాము. 

ఈ ప్రక్రియలో 44 వృత్తులు చేర్చబడ్డాయి.

రియల్ ఎస్టేట్ మరియు అద్దె మరియు లీజింగ్

  • కాన్సియర్జెస్

  • ఆస్తి, రియల్ ఎస్టేట్ మరియు కమ్యూనిటీ అసోసియేషన్ నిర్వాహకులు

  • రియల్ ఎస్టేట్ అమ్మకాల ఏజెంట్‌లు

  • రియల్ ఎస్టేట్ బ్రోకర్‌లు

  • కౌంటర్ మరియు అద్దె గుమాస్తాలు

ప్రభుత్వం

  • వినోద కార్మికులు

  • కంప్లైయన్స్ అధికారులు

  • పోలీసు మరియు డిటెక్టివ్ల మొదటి-లైన్ పర్యవేక్షకులు

  • అడ్మినిస్ట్రేటివ్ సర్వీసెస్ మేనేజర్‌లు

  • బాల, కుటుంబం మరియు పాఠశాల సామాజిక కార్యకర్తలు

తయారీ

  • మెకానికల్ ఇంజనీర్‌లు

  • పారిశ్రామిక ఇంజనీర్‌లు

  • కొనుగోలుదారులు మరియు కొనుగోలు ఏజెంట్‌లు

  • షిప్పింగ్, రిసీవింగ్ మరియు ఇన్వెంటరీ క్లర్కులు

  • ఉత్పత్తి మరియు నిర్వహణ కార్మికుల మొదటి-శ్రేణి పర్యవేక్షకులు

వృత్తిపరమైన, శాస్త్రీయ మరియు సాంకేతిక సేవలు

  • సాఫ్ట్‌వేర్ డెవలపర్‌లు

  • న్యాయవాదులు

  • అకౌంటెంట్‌లు మరియు ఆడిటర్‌లు

  • కంప్యూటర్ మరియు ఇన్ఫర్మేషన్ సిస్టమ్స్ మేనేజర్‌లు

  • ప్రాజెక్ట్ నిర్వహణ నిపుణులు

ఆరోగ్య సంరక్షణ మరియు సామాజిక సహాయం

  • రిజిస్టర్డ్ నర్సులు

  • నర్స్ ప్రాక్టీషనర్‌లు

  • వైద్య మరియు ఆరోగ్య సేవల నిర్వాహకులు

  • ఆఫీస్ మరియు అడ్మినిస్ట్రేటివ్ మద్దతు వర్కర్ల ఫస్ట్-లైన్ సూపర్‌వైజర్‌లు

  • వైద్య కార్యదర్శులు మరియు పరిపాలనా సహాయకులు

ఆర్థిక మరియు బీమా

  • కస్టమర్ సర్వీస్ ప్రతినిధులు

  • ఆర్థిక మరియు పెట్టుబడి విశ్లేషకులు

  • ఆర్థిక నిర్వాహకులు

  • వ్యక్తిగత ఆర్థిక సలహాదారులు

  • సెక్యూరిటీలు, వస్తువులు మరియు ఆర్థిక సేవల అమ్మకాల ఏజెంట్‌లు

రిటైల్ వ్యాపారం

  • ఫార్మసిస్ట్‌లు

  • రిటైల్ అమ్మకాల కార్మికుల మొదటి-లైన్ పర్యవేక్షకులు

  • జనరల్ మరియు ఆపరేషన్స్ మేనేజర్‌లు

  • ప్రైవేట్ డిటెక్టివ్లు మరియు పరిశోధకులు

టోకు వ్యాపారం

  • అమ్మకాల నిర్వాహకులు

  • ఆర్డర్ క్లర్కులు

  • నాన్-రీటైల్ సేల్స్ కార్మికుల మొదటి-లైన్ సూపర్‌వైజర్‌లు

  • అమ్మకాల ప్రతినిధులు, టోకు మరియు తయారీ, సాంకేతిక మరియు శాస్త్రీయ ఉత్పత్తులు తప్ప

  • అమ్మకాల ప్రతినిధులు, టోకు మరియు తయారీ, సాంకేతిక మరియు శాస్త్రీయ ఉత్పత్తులు

సమాచారం

  • ఆడియో మరియు వీడియో టెక్నీషియన్లు

  • నిర్మాతలు మరియు దర్శకులు

  • వార్తా విశ్లేషకులు, విలేకరులు మరియు పాత్రికేయులు

  • సినిమా మరియు వీడియో ఎడిటర్‌లు

  • ఎడిటర్‌లు

GDPval సాఫ్ట్‌వేర్ డెవలపర్‌లు మరియు న్యాయవాదుల నుండి రిజిస్టర్డ్ నర్సులు మరియు మెకానికల్ ఇంజనీర్ల వరకు 9 రంగాలలో 44 జ్ఞానం వర్క్ వృత్తులను విస్తరించింది. ఈ వృత్తులు వాటి ఆర్థిక ప్రాముఖ్యత కోసం ఎంపిక చేయబడ్డాయి మరియు AI నిపుణులకు అర్థవంతంగా సహాయపడే రోజువారీ పని రకాలను సూచిస్తాయి.

మేము డేటాసెట్‌ను ఎలా నిర్మించాము

ప్రతి వృత్తికి, వారి రోజువారీ పనిని ప్రతిబింబించే ప్రాతినిధ్య పనులను సృష్టించడానికి మేము అనుభవజ్ఞులైన నిపుణులతో కలిసి పనిచేశాము. ఈ నిపుణులు సగటున 14 సంవత్సరాల అనుభవం కలిగి ఉన్నారు, బలమైన పురోగతి రికార్డులతో ఉన్నారు. ప్రాతినిధ్యాన్ని పెంచడానికి మేము ఉద్దేశపూర్వకంగా—వివిధ ప్రాక్టీస్ ప్రాంతాల నుండి న్యాయవాదులు మరియు వివిధ పరిమాణాల సంస్థల వంటి—నిపుణులను నియమించాము.

ప్రతి పని నిజమైన పనికి ప్రాతినిధ్యం వహిస్తుందని, మరొక ప్రొఫెషనల్ పూర్తి చేయడానికి సాధ్యమవుతుందని మరియు మూల్యాంకనానికి స్పష్టంగా ఉందని నిర్ధారించుకోవడానికి బహుళ-దశల సమీక్ష ప్రక్రియ ద్వారా వెళ్ళింది. సగటున, ప్రతి పనికి 5 రౌండ్ల నిపుణుల సమీక్ష లభించింది, ఇందులో ఇతర టాస్క్ రైటర్‌లు, అదనపు వృత్తి సమీక్షకుల నుండి తనిఖీలు మరియు నమూనా-ఆధారిత ధ్రువీకరణ ఉన్నాయి. 

ఫలిత డేటాసెట్‌లో మా ఓపెన్-సోర్స్డ్ గోల్డ్ సెట్‌లో ఒక్కో వృత్తికి 5 టాస్క్‌లతో (పూర్తి-సెట్) 30 పూర్తిగా సమీక్షించబడిన పనులు ఉంటాయి, ఇది వాస్తవ-ప్రపంచ జ్ఞాన పనిపై నమూనా పనితీరును అంచనా వేయడానికి బలమైన పునాదిని అందిస్తుంది.

GDPval పనుల ఉదాహరణలు

ప్రాంప్ట్ + టాస్క్ సందర్భం

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

అనుభవజ్ఞుడైన మానవ డెలివరబుల్

కేబుల్ రీల్ కోసం డిజైన్ యొక్క పేలిన దృశ్యం
GDPval లోని ప్రతి పని అనుభవజ్ఞుడైన ప్రొఫెషనల్ చేత రూపొందించబడింది మరియు వారి వృత్తి నుండి నిజమైన జ్ఞాన పనిని ప్రతిబింబిస్తుంది. ప్రాంప్ట్ అనేది డొమైన్ నిపుణుడిచే సృష్టించబడిన వాస్తవిక పని అసైన్‌మెంట్, మరియు బంగారాన్ని అందించగలగడం అనేది నిపుణుల స్వంత పరిష్కారం.

మేము నమూనా పనితీరును ఎలా గ్రేడ్ చేస్తాము

GDPval పనులపై నమూనా పనితీరును అంచనా వేయడానికి, మేము నిపుణులైన “గ్రేడర్‌లు” పై ఆధారపడతాము—డేటాసెట్‌లో ప్రాతినిధ్యం వహించిన అదే వృత్తుల నుండి అనుభవజ్ఞులైన నిపుణుల సమూహం. ఈ గ్రేడర్‌లు నమూనా-ఉత్పత్తి చేసిన డెలివరీలను టాస్క్ రైటర్‌లు రూపొందించిన వాటితో గుడ్డిగా పోల్చి చూస్తారు (ఏది AI వర్సెస్ మానవ ఉత్పత్తి అని తెలియదు), మరియు విమర్శలు మరియు ర్యాంకింగ్‌లను అందిస్తారు. అప్పుడు గ్రేడర్‌లు మానవ మరియు AI డెలివరీలను ర్యాంక్ చేస్తారు మరియు ప్రతి AI డెలివరీని ఒకదానికొకటి "మెరుగైనది", "అంత మంచిది" లేదా "అధ్వాన్నంగా" వర్గీకరిస్తారు.

పని రైటర్‌లు వారి వృత్తుల కోసం వివరణాత్మక స్కోరింగ్ రూబ్రిక్‌లను కూడా సృష్టించారు, ఇవి గ్రేడింగ్ ప్రక్రియకు స్థిరత్వం మరియు పారదర్శకతను జోడిస్తాయి. మానవ నిపుణులు ఇచ్చిన డెలివరీని ఎలా నిర్ణయిస్తారో అంచనా వేయడానికి శిక్షణ పొందిన AI వ్యవస్థ అయిన “ఆటోమేటెడ్ గ్రేడర్” ను కూడా మేము నిర్మించాము. మరో మాటలో చెప్పాలంటే, ప్రతిసారీ పూర్తి నిపుణుల సమీక్షను అమలు చేయడానికి బదులుగా, ఆటోమేటెడ్ గ్రేడర్ ప్రజలు ఏ అవుట్‌పుట్‌ను ఇష్టపడతారో త్వరగా అంచనా వేయగలదు. మేము ఈ సాధనాన్ని evals.openai.com ద్వారా ప్రయోగాత్మక పరిశోధన సేవగా విడుదల చేస్తున్నాము, కానీ ఇది నిపుణులైన గ్రేడర్‌ల వలె ఇంకా నమ్మదగినది కాదు, కాబట్టి మేము వాటిని భర్తీ చేయడానికి దీనిని ఉపయోగించము. 

ముందస్తు ఫలితాలు

నేటి ఉత్తమ సరిహద్దు నమూనాలు ఇప్పటికే పరిశ్రమ నిపుణులు ఉత్పత్తి చేసే పని నాణ్యతకు చేరువలో ఉన్నాయని మేము కనుగొన్నాము. దీనిని పరీక్షించడానికి, మేము పరిశ్రమ నిపుణులు అనేక ప్రముఖ నమూనాల నుండి డెలివరీలను—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, మరియు Grok 4—మానవ-ఉత్పత్తి పనితో పోల్చిన బ్లైండ్ మూల్యాంకనాలను నిర్వహించాము. GDPval గోల్డ్ సెట్‌లోని 220 పనులలో, నమూనా అవుట్‌పుట్‌లు ("విజయాలు") కంటే మెరుగ్గా లేదా పరిశ్రమ నిపుణుల నుండి డెలివరీలతో సమానంగా ("సంబంధాలు") రేట్ చేయబడినప్పుడు, దిగువ బార్ చార్ట్‌లో చూపిన విధంగా మేము రికార్డ్ చేసాము. Claude Opus 4.1 ఈ సెట్‌లో అత్యుత్తమ పనితీరు కనబరిచిన నమూనా, ముఖ్యంగా సౌందర్యశాస్త్రంలో (ఉదా., పత్రం ఫార్మాటింగ్, స్లయిడ్ లేఅవుట్) రాణించింది మరియు GPT‑5 ముఖ్యంగా ఖచ్చితత్వంలో (ఉదా., డొమైన్-నిర్దిష్ట జ్ఞానాన్ని కనుగొనడం) రాణించింది. ఈ పనులలో కాలక్రమేణా స్పష్టమైన పురోగతిని కూడా మనం చూస్తున్నాము. స్పష్టమైన లీనియర్ ట్రెండ్‌ను అనుసరించి, పనితీరు GPT‑4o (2024 వసంతకాలంలో విడుదలైంది) నుండి GPT‑5 (2025 వేసవిలో విడుదలైంది)కి రెట్టింపు కంటే ఎక్కువైంది.

అదనంగా, సరిహద్దు నమూనాలు పరిశ్రమ నిపుణుల కంటే దాదాపు 100 రెట్‌లు వేగంగా మరియు 100 రెట్‌లు చౌకగా GDPval పనులను పూర్తి చేయగలవని మేము కనుగొన్నాము. అయితే, ఈ గణాంకాలు స్వచ్ఛమైన నమూనా అనుమితి సమయం మరియు API బిల్లింగ్ రేట్లను ప్రతిబింబిస్తాయి మరియు అందువల్ల మా నమూనాలను ఉపయోగించడానికి నిజమైన కార్యాలయ సెట్టింగ్‌లలో అవసరమైన మానవ పర్యవేక్షణ, పునరావృతం మరియు ఏకీకరణ దశలను సంగ్రహించవు. అయినప్పటికీ, ముఖ్యంగా నమూనాలు చాలా బలంగా ఉన్న పనుల ఉపసమితిలో, మానవుడితో ప్రయత్నించే ముందు నమూనాకు ఒక పనిని ఇవ్వడం వల్ల సమయం మరియు డబ్బు సేవ్ అవుతుందని మేము ఆశిస్తున్నాము.

నిపుణుల గ్రేడర్‌లు ప్రముఖ నమూనాల నుండి డెలివరీలను మానవ నిపుణులతో పోల్చారు. నేటి సరిహద్దు నమూనాలు ఇప్పటికే పరిశ్రమ నిపుణులు ఉత్పత్తి చేసే పని నాణ్యతకు చేరువవుతున్నాయి. Claude Opus 4.1 సగం కంటే తక్కువ పనులలో మానవులతో సమానమైన లేదా మెరుగైన రేటింగ్ పొందిన అవుట్‌పుట్‌లను ఉత్పత్తి చేసింది.

GPT‑4o నుండి GPT‑5 వరకు, GDPval పనులపై పనితీరు ఒక సంవత్సరంలో మూడు రెట్‌లు ఎక్కువ. 

చివరగా, GDPval పై పనితీరును మెరుగుపరచగలమా లేదా అని అంచనా వేయడానికి మేము GPT‑5 యొక్క అంతర్గత, ప్రయోగాత్మక వెర్షన్‌కు క్రమంగా శిక్షణ ఇచ్చాము. ఈ ప్రక్రియ పనితీరును మెరుగుపరిచిందని, మరింత సంభావ్య మెరుగుదలకు మార్గాన్ని సృష్టిస్తుందని మేము కనుగొన్నాము. ఇతర నియంత్రిత ప్రయోగాలు దీనికి మద్దతు ఇస్తున్నాయి: నమూనా పరిమాణాన్ని పెంచడం, మరిన్ని తర్కము దశలను ప్రోత్సహించడం మరియు గొప్ప పని సందర్భాన్ని ఇవ్వడం వంటివి కొలవగల లాభాలకు దారితీశాయి.

మీరు మా పేపర్‌లో పూర్తి ఫలితాలను చదవవచ్చు. ఇతర పరిశోధకులు ఈ పనిపై నిర్మించగలిగేలా మేము GDPval పనుల యొక్క గోల్డ్ సబ్‌సెట్ మరియు పబ్లిక్ గ్రేడింగ్ సేవను కూడా విడుదల చేస్తున్నాము.

పని మరియు AI యొక్క భవిష్యత్తు 

AI మరింత సామర్థ్యం పొందుతున్న కొద్దీ, అది ఉద్యోగ మార్కెట్‌లో మార్పులకు కారణం కావచ్చు. ప్రారంభ GDPval ఫలితాలు నమూనాలు ఇప్పటికే కొన్ని పునరావృతమయ్యే, బాగా పేర్కొన్న పనులను నిపుణుల కంటే వేగంగా మరియు తక్కువ ఖర్చుతో చేపట్టగలవని చూపిస్తున్నాయి. అయితే, చాలా ఉద్యోగాలు కేవలం వ్రాయగలిగే పనుల సమాహారం కంటే ఎక్కువ. GDPval హైలైట్ చేస్తుంది, ఇక్కడ AI నిత్యకృత్యాలను నిర్వహించగలదు, తద్వారా ప్రజలు సృజనాత్మకమైన, తీర్పు-బరువైన పని భాగాలపై ఎక్కువ సమయం గడపవచ్చు. AI ఈ విధంగా కార్మికులను పూర్తి చేసినప్పుడు అది గణనీయమైన ఆర్థిక వృద్ధికి దారితీస్తుంది. ఈ సాధనాలకు ప్రాప్యతను ప్రజాస్వామ్యీకరించడం, మార్పు ద్వారా కార్మికులకు మద్దతు ఇవ్వడం మరియు విస్తృత సహకారాన్ని అందించే వ్యవస్థలను నిర్మించడం ద్వారా ప్రతి ఒక్కరినీ AI యొక్క "అప్ లిఫ్ట్"లో ఉంచడమే మా లక్ష్యం. 

పరిమితులు మరియు తరువాత ఏమిటి

GDPval అనేది ఒక ప్రారంభ దశ. ఇది 44 వృత్తులు మరియు వందలాది పనులను కవర్ చేస్తున్నప్పటికీ, మా పరీక్ష పరిధిని విస్తరించడానికి మరియు ఫలితాలను మరింత అర్థవంతంగా చేయడానికి మేము మా విధానాన్ని మెరుగుపరుస్తూనే ఉన్నాము. ప్రస్తుత మూల్యాంకన వెర్షన్ కూడా ఒకేసారి రూపొందించబడింది, కాబట్టి ఇది ఒక నమూనా సందర్భాన్ని నిర్మించాల్సిన లేదా బహుళ డ్రాఫ్ట్‌ల ద్వారా మెరుగుపరచాల్సిన సందర్భాలను సంగ్రహించదు—ఉదాహరణకు, క్లయింట్ ఫీడ్ బ్యాక్ తర్వాత చట్టపరమైన సంక్షిప్త నివేదికను సవరించడం లేదా క్రమరాహిత్యాన్ని గుర్తించిన తర్వాత డేటా విశ్లేషణను పునరావృతం చేయడం. అదనంగా, నిజ ప్రపంచంలో, పనులు ఎల్లప్పుడూ ప్రాంప్ట్ మరియు రిఫరెన్స్ ఫైల్‌లతో స్పష్టంగా నిర్వచించబడవు; ఉదాహరణకు, ఒక న్యాయవాది అస్పష్టతను నావిగేట్ చేసి, వారి క్లయింట్‌తో మాట్లాడి, వారికి సహాయం చేయడానికి చట్టపరమైన బ్రీఫ్‌ను సృష్టించడం సరైన విధానం అని నిర్ణయించుకోవలసి ఉంటుంది. విభిన్న జ్ఞాన పనిపై పురోగతిని బాగా కొలవాలనే దీర్ఘకాలిక లక్ష్యంతో, పెరిగిన ఇంటరాక్టివిటీతో మరియు అస్పష్టతను నావిగేట్ చేసే మరిన్ని పనులతో మరిన్ని వృత్తులు, పరిశ్రమలు మరియు పని రకాలను చేర్చడానికి మేము GDPval ని విస్తరించాలని ప్రణాళిక చేస్తున్నాము.

పాల్గొనండి

కమ్యూనిటీ భాగస్వామ్యం చాలా అవసరం—AGIని పనిలో ఉన్న వ్యక్తులకు మరింత ఉపయోగకరంగా మార్చాలనే మా లక్ష్యాన్ని పంచుకునే పరిశోధకులు, అభ్యాసకులు మరియు సంస్థలతో కలిసి GDPval ని నిర్మించడానికి మేము సంతోషిస్తున్నాము.