వాస్తవ ప్రపంచ పనులపై మా నమూనాల పనితీరును కొలవడం
మేము GDPval ను పరిచయం చేస్తున్నాము, ఇది 44 వృత్తులలో ఆర్థికంగా విలువైన, వాస్తవ ప్రపంచ పనులపై నమూనా పనితీరును కొలిచే ఒక కొత్త మూల్యాంకనం.
కృత్రిమ జనరల్ ఇంటెలిజెన్స్ మొత్తం మానవాళికి ప్రయోజనం చేకూర్చేలా చూడడమే మా లక్ష్యం. మా లక్ష్యంలో భాగంగా, AI నమూనాలు వాస్తవ ప్రపంచంలో ప్రజలకు ఎలా సహాయపడతాయో దానిపై పురోగతిని పారదర్శకంగా తెలియజేయాలనుకుంటున్నాము. అందుకే మేము GDPval ను పరిచయం చేస్తున్నాము: మా నమూనాలు మరియు ఇతరులు ఆర్థికంగా విలువైన, వాస్తవ ప్రపంచ పనులపై ఎంత బాగా పని చేస్తారో ట్రాక్ చేయడంలో మాకు సహాయపడటానికి రూపొందించబడిన ఒక కొత్త మూల్యాంకనం. స్థూల దేశీయోత్పత్తి (GDP) అనే భావనను కీలకమైన ఆర్థిక సూచికగా ప్రారంభించి, GDPకి అత్యధికంగా దోహదపడే పరిశ్రమలలోని కీలక వృత్తుల నుండి పనులను తీసుకున్నందున మేము ఈ మూల్యాంకనాన్ని GDPval అని పిలుస్తాము.
సమాజంపై AI యొక్క విస్తృత ప్రభావం గురించి ప్రజలు తరచుగా ఊహిస్తారు, కానీ దాని సామర్థ్యాన్ని అర్థం చేసుకోవడానికి స్పష్టమైన మార్గం ఏమిటంటే, నమూనాలు ఇప్పటికే ఏమి చేయగలవో చూడటం. ఇంటర్నెట్ నుండి స్మార్ట్ఫోన్ల వరకు ప్రధాన సాంకేతికతలు ఆవిష్కరణ నుండి విస్తృతంగా స్వీకరించబడటానికి ఒక దశాబ్దానికి పైగా పట్టిందని చరిత్ర చూపిస్తుంది. GDPval వంటి మూల్యాంకనాలు అంచనాలకు బదులుగా సాక్ష్యాలలో భవిష్యత్ AI మెరుగుదలల గురించి గ్రౌండ్ సంభాషణలకు సహాయపడతాయి మరియు కాలక్రమేణా నమూనా మెరుగుదలను ట్రాక్ చేయడంలో మాకు సహాయపడతాయి.
నమూనా తర్కము సామర్థ్యాల సరిహద్దులను నెట్టడంలో సవాలు చేసే విద్యా పరీక్షలు మరియు పోటీ కోడింగ్ సవాళ్లు వంటి మునుపటి AI మూల్యాంకనాలు చాలా ముఖ్యమైనవి, కానీ అవి తరచుగా చాలా మంది వ్యక్తులు తమ రోజువారీ పనిలో నిర్వహించే పనులకు సరిపోవు.
ఈ అంతరాన్ని తగ్గించడానికి, మేము వాస్తవికమైన మరియు ఆర్థికంగా సంబంధిత సామర్థ్యాలను కొలిచే మూల్యాంకనాలను అభివృద్ధి చేస్తున్నాము. ఈ పురోగతి MMLU (డజన్ల కొద్దీ సబ్జెక్టులలో పరీక్షా-శైలి ప్రశ్నలు) వంటి క్లాసిక్ అకాడమిక్ బెంచ్మార్క్ల నుండి SWE-Bench (సాఫ్ట్వేర్ ఇంజనీరింగ్ బగ్-ఫిక్సింగ్ పనులు), MLE-Bench (నమూనా శిక్షణ మరియు విశ్లేషణ వంటి యంత్ర అభ్యాస ఇంజనీరింగ్ పనులు), మరియు పేపర్-బెంచ్ (పరిశోధన పత్రాలపై శాస్త్రీయ తర్కము మరియు విమర్శ) వంటి మరింత అనువర్తిత మూల్యాంకనాలకు మరియు ఇటీవల SWE-Lancer (నిజమైన చెల్లింపుల ఆధారంగా ఫ్రీలాన్స్ సాఫ్ట్వేర్ ఇంజనీరింగ్ ప్రాజెక్టులు) వంటి మార్కెట్ ఆధారిత మూల్యాంకనాలకు మారింది.
ఆ పురోగతిలో GDPval తరువాత దశ. ఇది విస్తృత శ్రేణి వృత్తులు మరియు రంగాలలోని అనుభవజ్ఞులైన నిపుణుల వాస్తవ-ప్రపంచ జ్ఞాన పని నుండి నేరుగా తీసుకోబడిన పనులపై నమూనా పనితీరును కొలుస్తుంది, ఆర్థికంగా విలువైన పనులపై నమూనాలు ఎలా పని చేస్తాయనే దానిపై స్పష్టమైన చిత్రాన్ని అందిస్తుంది. వాస్తవిక వృత్తిపరమైన పనులపై నమూనాలను మూల్యాంకనం చేయడం వల్ల అవి ప్రయోగశాలలో ఎంత బాగా పని చేస్తాయో అర్థం చేసుకోవడమే కాకుండా, వారు ప్రతిరోజూ చేసే పనిలో ప్రజలకు ఎలా మద్దతు ఇస్తారో కూడా అర్థం చేసుకోవచ్చు.
ఈ మూల్యాంకనం యొక్క మొదటి వెర్షన్ అయిన GDPval, US GDPకి దోహదపడే టాప్ 9 పరిశ్రమల నుండి ఎంపిక చేయబడిన 44 వృత్తులను విస్తరించింది. GDPval పూర్తి సెట్లో 1,320 ప్రత్యేక పనులు (గోల్డ్ ఓపెన్-సోర్స్డ్ సెట్లో 220) ఉన్నాయి, ప్రతి ఒక్కటి ఈ రంగాల నుండి సగటున 14 సంవత్సరాలకు పైగా అనుభవం ఉన్న అనుభవజ్ఞులైన నిపుణులచే జాగ్రత్తగా రూపొందించబడి పరిశీలించబడతాయి. ప్రతి పని చట్టపరమైన బ్రీఫ్, ఇంజనీరింగ్ బ్లూప్రింట్, కస్టమర్ మద్దతు సంభాషణ లేదా నర్సింగ్ కేర్ ప్రణాళిక వంటి నిజమైన పని ఉత్పత్తులపై ఆధారపడి ఉంటుంది.
GDPval దాని వాస్తవికత మరియు మూల్యాంకనం చేయబడిన పనుల వైవిధ్యం రెండింటిలోనూ విలక్షణమైనది. నిర్దిష్ట డొమైన్లపై (ఉదా. SWE-Lancer) దృష్టి సారించే ఆర్థిక విలువతో ముడిపడి ఉన్న ఇతర మూల్యాంకనాల మాదిరిగా కాకుండా, GDPval అనేక పనులు మరియు వృత్తులను కవర్ చేస్తుంది. మరియు విద్యా పరీక్ష లేదా పరీక్ష (ఉదా., హ్యుమానిటీస్ లాస్ట్ ఎగ్జామ్ లేదా MMLU) శైలిలో కృత్రిమంగా పనులను సృష్టించే బెంచ్మార్క్ల మాదిరిగా కాకుండా, GDPval నేటి వాస్తవ పని లేదా ఉత్పత్తి లేదా అదేవిధంగా నిర్మించిన పని ఉత్పత్తి అయిన డెలివరీల ఆధారంగా పనులపై దృష్టి పెడుతుంది.
సాంప్రదాయ బెంచ్మార్క్ల మాదిరిగా కాకుండా, GDPval పనులు సాధారణ టెక్స్ట్ ప్రాంప్ట్లు కావు. అవి రిఫరెన్స్ ఫైల్స్ మరియు సందర్భంతో వస్తాయి మరియు ఆశించిన డెలివరీలు పత్రాలు, స్లయిడ్లు, రేఖాచిత్రాలు, స్ప్రెడ్షీట్లు మరియు మల్టీమీడియాను కలిగి ఉంటాయి. ఈ వాస్తవికత GDPval ను నమూనాస్ నిపుణులకు ఎలా మద్దతు ఇస్తాయో మరింత వాస్తవిక పరీక్షగా చేస్తుంది.
GDPval అనేది అనేక ఆర్థిక పనుల పూర్తి సూక్ష్మ నైపుణ్యాన్ని ప్రతిబింబించని ప్రారంభ దశ. ఇది 44 వృత్తులు మరియు వందలాది నాలెడ్జ్ వర్క్ పనులను విస్తరించి ఉన్నప్పటికీ, ఇది ఒక-షాట్ మూల్యాంకనాలకే పరిమితం చేయబడింది, కాబట్టి ఇది ఒక నమూనా సందర్భాన్ని నిర్మించాల్సిన లేదా బహుళ డ్రాఫ్ట్ల ద్వారా మెరుగుపరచాల్సిన సందర్భాలను సంగ్రహించదు. భవిష్యత్ వెర్షన్లు వాస్తవ ప్రపంచ జ్ఞాన పని యొక్క సంక్లిష్టతను బాగా ప్రతిబింబించడానికి మరింత ఇంటరాక్టివ్ వర్క్ఫ్లోలు మరియు సందర్భోచిత పనులకు విస్తరిస్తాయి (క్రింద ఉన్న మా పరిమితుల విభాగంలో మరిన్ని చూడండి).
GDPval 9 పరిశ్రమలు మరియు 44 వృత్తులలోని పనులను కవర్ చేస్తుంది మరియు భవిష్యత్తు వెర్షన్లు కవరేజీని విస్తరిస్తూనే ఉంటాయి. సెయింట్ లూయిస్లోని ఫెడరల్ రిజర్వ్ బ్యాంక్ డేటా ప్రకారం, US GDPకి 5% కంటే ఎక్కువ దోహదపడే పరిశ్రమల ఆధారంగా ప్రారంభ 9 పరిశ్రమలను ఎంపిక చేశారు. తరువాత, మే 2024 US బ్యూరో ఆఫ్ లేబర్ స్టాటిస్టిక్స్ (BLS) వృత్తిపరమైన ఉపాధి నివేదిక(కొత్త విండోలో తెరుచుకుంటుంది) నుండి వేతనం మరియు ఉపాధి డేటాను ఉపయోగించి, ప్రతి పరిశ్రమలోని మొత్తం వేతనాలు మరియు పరిహారానికి అత్యధికంగా దోహదపడే మరియు ప్రధానంగా జ్ఞాన పని వృత్తులలో 5 వృత్తులను మేము ఎంచుకున్నాము. వృత్తులు ప్రధానంగా జ్ఞాన పనినా కాదా అని నిర్ణయించడానికి, మేము US కార్మిక శాఖ స్పాన్సర్ చేసిన US వృత్తి సమాచారం యొక్క డేటాబేస్ అయిన O*NET(కొత్త విండోలో తెరుచుకుంటుంది) నుండి టాస్క్ డేటాను ఉపయోగించాము. మేము O*NETలో ప్రతి వృత్తికి సంబంధించిన ప్రతి పని జ్ఞాన పనినా లేక శారీరక పని/చేతి శ్రమనా (భౌతిక ప్రపంచంలో తీసుకోవలసిన చర్యలు అవసరం) అని వర్గీకరించాము. కనీసం 60% పనులు శారీరక శ్రమ లేదా శారీరక శ్రమతో సంబంధం లేనివిగా వర్గీకరించబడితే, ఆ వృత్తిని "ప్రధానంగా జ్ఞాన పని"గా పరిగణిస్తారు. GDPval యొక్క మొదటి వెర్షన్ కోసం మేము ఈ 60% థ్రెషోల్డ్ను ప్రారంభ బిందువుగా ఎంచుకున్నాము, వాస్తవ ప్రపంచ ఉత్పాదకతపై AI అత్యధిక ప్రభావాన్ని చూపే వృత్తులపై దృష్టి సారించాము.
ఈ ప్రక్రియలో 44 వృత్తులు చేర్చబడ్డాయి.
రియల్ ఎస్టేట్ మరియు అద్దె మరియు లీజింగ్
కాన్సియర్జెస్
ఆస్తి, రియల్ ఎస్టేట్ మరియు కమ్యూనిటీ అసోసియేషన్ నిర్వాహకులు
రియల్ ఎస్టేట్ అమ్మకాల ఏజెంట్లు
రియల్ ఎస్టేట్ బ్రోకర్లు
కౌంటర్ మరియు అద్దె గుమాస్తాలు
ప్రభుత్వం
వినోద కార్మికులు
కంప్లైయన్స్ అధికారులు
పోలీసు మరియు డిటెక్టివ్ల మొదటి-లైన్ పర్యవేక్షకులు
అడ్మినిస్ట్రేటివ్ సర్వీసెస్ మేనేజర్లు
బాల, కుటుంబం మరియు పాఠశాల సామాజిక కార్యకర్తలు
తయారీ
మెకానికల్ ఇంజనీర్లు
పారిశ్రామిక ఇంజనీర్లు
కొనుగోలుదారులు మరియు కొనుగోలు ఏజెంట్లు
షిప్పింగ్, రిసీవింగ్ మరియు ఇన్వెంటరీ క్లర్కులు
ఉత్పత్తి మరియు నిర్వహణ కార్మికుల మొదటి-శ్రేణి పర్యవేక్షకులు
వృత్తిపరమైన, శాస్త్రీయ మరియు సాంకేతిక సేవలు
సాఫ్ట్వేర్ డెవలపర్లు
న్యాయవాదులు
అకౌంటెంట్లు మరియు ఆడిటర్లు
కంప్యూటర్ మరియు ఇన్ఫర్మేషన్ సిస్టమ్స్ మేనేజర్లు
ప్రాజెక్ట్ నిర్వహణ నిపుణులు
ఆరోగ్య సంరక్షణ మరియు సామాజిక సహాయం
రిజిస్టర్డ్ నర్సులు
నర్స్ ప్రాక్టీషనర్లు
వైద్య మరియు ఆరోగ్య సేవల నిర్వాహకులు
ఆఫీస్ మరియు అడ్మినిస్ట్రేటివ్ మద్దతు వర్కర్ల ఫస్ట్-లైన్ సూపర్వైజర్లు
వైద్య కార్యదర్శులు మరియు పరిపాలనా సహాయకులు
ఆర్థిక మరియు బీమా
కస్టమర్ సర్వీస్ ప్రతినిధులు
ఆర్థిక మరియు పెట్టుబడి విశ్లేషకులు
ఆర్థిక నిర్వాహకులు
వ్యక్తిగత ఆర్థిక సలహాదారులు
సెక్యూరిటీలు, వస్తువులు మరియు ఆర్థిక సేవల అమ్మకాల ఏజెంట్లు
రిటైల్ వ్యాపారం
ఫార్మసిస్ట్లు
రిటైల్ అమ్మకాల కార్మికుల మొదటి-లైన్ పర్యవేక్షకులు
జనరల్ మరియు ఆపరేషన్స్ మేనేజర్లు
ప్రైవేట్ డిటెక్టివ్లు మరియు పరిశోధకులు
టోకు వ్యాపారం
అమ్మకాల నిర్వాహకులు
ఆర్డర్ క్లర్కులు
నాన్-రీటైల్ సేల్స్ కార్మికుల మొదటి-లైన్ సూపర్వైజర్లు
అమ్మకాల ప్రతినిధులు, టోకు మరియు తయారీ, సాంకేతిక మరియు శాస్త్రీయ ఉత్పత్తులు తప్ప
అమ్మకాల ప్రతినిధులు, టోకు మరియు తయారీ, సాంకేతిక మరియు శాస్త్రీయ ఉత్పత్తులు
సమాచారం
ఆడియో మరియు వీడియో టెక్నీషియన్లు
నిర్మాతలు మరియు దర్శకులు
వార్తా విశ్లేషకులు, విలేకరులు మరియు పాత్రికేయులు
సినిమా మరియు వీడియో ఎడిటర్లు
ఎడిటర్లు
ప్రతి వృత్తికి, వారి రోజువారీ పనిని ప్రతిబింబించే ప్రాతినిధ్య పనులను సృష్టించడానికి మేము అనుభవజ్ఞులైన నిపుణులతో కలిసి పనిచేశాము. ఈ నిపుణులు సగటున 14 సంవత్సరాల అనుభవం కలిగి ఉన్నారు, బలమైన పురోగతి రికార్డులతో ఉన్నారు. ప్రాతినిధ్యాన్ని పెంచడానికి మేము ఉద్దేశపూర్వకంగా—వివిధ ప్రాక్టీస్ ప్రాంతాల నుండి న్యాయవాదులు మరియు వివిధ పరిమాణాల సంస్థల వంటి—నిపుణులను నియమించాము.
ప్రతి పని నిజమైన పనికి ప్రాతినిధ్యం వహిస్తుందని, మరొక ప్రొఫెషనల్ పూర్తి చేయడానికి సాధ్యమవుతుందని మరియు మూల్యాంకనానికి స్పష్టంగా ఉందని నిర్ధారించుకోవడానికి బహుళ-దశల సమీక్ష ప్రక్రియ ద్వారా వెళ్ళింది. సగటున, ప్రతి పనికి 5 రౌండ్ల నిపుణుల సమీక్ష లభించింది, ఇందులో ఇతర టాస్క్ రైటర్లు, అదనపు వృత్తి సమీక్షకుల నుండి తనిఖీలు మరియు నమూనా-ఆధారిత ధ్రువీకరణ ఉన్నాయి.
ఫలిత డేటాసెట్లో మా ఓపెన్-సోర్స్డ్ గోల్డ్ సెట్లో ఒక్కో వృత్తికి 5 టాస్క్లతో (పూర్తి-సెట్) 30 పూర్తిగా సమీక్షించబడిన పనులు ఉంటాయి, ఇది వాస్తవ-ప్రపంచ జ్ఞాన పనిపై నమూనా పనితీరును అంచనా వేయడానికి బలమైన పునాదిని అందిస్తుంది.
GDPval పనుల ఉదాహరణలు
ప్రాంప్ట్ + టాస్క్ సందర్భం
అనుభవజ్ఞుడైన మానవ డెలివరబుల్

GDPval పనులపై నమూనా పనితీరును అంచనా వేయడానికి, మేము నిపుణులైన “గ్రేడర్లు” పై ఆధారపడతాము—డేటాసెట్లో ప్రాతినిధ్యం వహించిన అదే వృత్తుల నుండి అనుభవజ్ఞులైన నిపుణుల సమూహం. ఈ గ్రేడర్లు నమూనా-ఉత్పత్తి చేసిన డెలివరీలను టాస్క్ రైటర్లు రూపొందించిన వాటితో గుడ్డిగా పోల్చి చూస్తారు (ఏది AI వర్సెస్ మానవ ఉత్పత్తి అని తెలియదు), మరియు విమర్శలు మరియు ర్యాంకింగ్లను అందిస్తారు. అప్పుడు గ్రేడర్లు మానవ మరియు AI డెలివరీలను ర్యాంక్ చేస్తారు మరియు ప్రతి AI డెలివరీని ఒకదానికొకటి "మెరుగైనది", "అంత మంచిది" లేదా "అధ్వాన్నంగా" వర్గీకరిస్తారు.
పని రైటర్లు వారి వృత్తుల కోసం వివరణాత్మక స్కోరింగ్ రూబ్రిక్లను కూడా సృష్టించారు, ఇవి గ్రేడింగ్ ప్రక్రియకు స్థిరత్వం మరియు పారదర్శకతను జోడిస్తాయి. మానవ నిపుణులు ఇచ్చిన డెలివరీని ఎలా నిర్ణయిస్తారో అంచనా వేయడానికి శిక్షణ పొందిన AI వ్యవస్థ అయిన “ఆటోమేటెడ్ గ్రేడర్” ను కూడా మేము నిర్మించాము. మరో మాటలో చెప్పాలంటే, ప్రతిసారీ పూర్తి నిపుణుల సమీక్షను అమలు చేయడానికి బదులుగా, ఆటోమేటెడ్ గ్రేడర్ ప్రజలు ఏ అవుట్పుట్ను ఇష్టపడతారో త్వరగా అంచనా వేయగలదు. మేము ఈ సాధనాన్ని evals.openai.com ద్వారా ప్రయోగాత్మక పరిశోధన సేవగా విడుదల చేస్తున్నాము, కానీ ఇది నిపుణులైన గ్రేడర్ల వలె ఇంకా నమ్మదగినది కాదు, కాబట్టి మేము వాటిని భర్తీ చేయడానికి దీనిని ఉపయోగించము.
నేటి ఉత్తమ సరిహద్దు నమూనాలు ఇప్పటికే పరిశ్రమ నిపుణులు ఉత్పత్తి చేసే పని నాణ్యతకు చేరువలో ఉన్నాయని మేము కనుగొన్నాము. దీనిని పరీక్షించడానికి, మేము పరిశ్రమ నిపుణులు అనేక ప్రముఖ నమూనాల నుండి డెలివరీలను—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, మరియు Grok 4—మానవ-ఉత్పత్తి పనితో పోల్చిన బ్లైండ్ మూల్యాంకనాలను నిర్వహించాము. GDPval గోల్డ్ సెట్లోని 220 పనులలో, నమూనా అవుట్పుట్లు ("విజయాలు") కంటే మెరుగ్గా లేదా పరిశ్రమ నిపుణుల నుండి డెలివరీలతో సమానంగా ("సంబంధాలు") రేట్ చేయబడినప్పుడు, దిగువ బార్ చార్ట్లో చూపిన విధంగా మేము రికార్డ్ చేసాము. Claude Opus 4.1 ఈ సెట్లో అత్యుత్తమ పనితీరు కనబరిచిన నమూనా, ముఖ్యంగా సౌందర్యశాస్త్రంలో (ఉదా., పత్రం ఫార్మాటింగ్, స్లయిడ్ లేఅవుట్) రాణించింది మరియు GPT‑5 ముఖ్యంగా ఖచ్చితత్వంలో (ఉదా., డొమైన్-నిర్దిష్ట జ్ఞానాన్ని కనుగొనడం) రాణించింది. ఈ పనులలో కాలక్రమేణా స్పష్టమైన పురోగతిని కూడా మనం చూస్తున్నాము. స్పష్టమైన లీనియర్ ట్రెండ్ను అనుసరించి, పనితీరు GPT‑4o (2024 వసంతకాలంలో విడుదలైంది) నుండి GPT‑5 (2025 వేసవిలో విడుదలైంది)కి రెట్టింపు కంటే ఎక్కువైంది.
అదనంగా, సరిహద్దు నమూనాలు పరిశ్రమ నిపుణుల కంటే దాదాపు 100 రెట్లు వేగంగా మరియు 100 రెట్లు చౌకగా GDPval పనులను పూర్తి చేయగలవని మేము కనుగొన్నాము. అయితే, ఈ గణాంకాలు స్వచ్ఛమైన నమూనా అనుమితి సమయం మరియు API బిల్లింగ్ రేట్లను ప్రతిబింబిస్తాయి మరియు అందువల్ల మా నమూనాలను ఉపయోగించడానికి నిజమైన కార్యాలయ సెట్టింగ్లలో అవసరమైన మానవ పర్యవేక్షణ, పునరావృతం మరియు ఏకీకరణ దశలను సంగ్రహించవు. అయినప్పటికీ, ముఖ్యంగా నమూనాలు చాలా బలంగా ఉన్న పనుల ఉపసమితిలో, మానవుడితో ప్రయత్నించే ముందు నమూనాకు ఒక పనిని ఇవ్వడం వల్ల సమయం మరియు డబ్బు సేవ్ అవుతుందని మేము ఆశిస్తున్నాము.
నిపుణుల గ్రేడర్లు ప్రముఖ నమూనాల నుండి డెలివరీలను మానవ నిపుణులతో పోల్చారు. నేటి సరిహద్దు నమూనాలు ఇప్పటికే పరిశ్రమ నిపుణులు ఉత్పత్తి చేసే పని నాణ్యతకు చేరువవుతున్నాయి. Claude Opus 4.1 సగం కంటే తక్కువ పనులలో మానవులతో సమానమైన లేదా మెరుగైన రేటింగ్ పొందిన అవుట్పుట్లను ఉత్పత్తి చేసింది.
GPT‑4o నుండి GPT‑5 వరకు, GDPval పనులపై పనితీరు ఒక సంవత్సరంలో మూడు రెట్లు ఎక్కువ.
చివరగా, GDPval పై పనితీరును మెరుగుపరచగలమా లేదా అని అంచనా వేయడానికి మేము GPT‑5 యొక్క అంతర్గత, ప్రయోగాత్మక వెర్షన్కు క్రమంగా శిక్షణ ఇచ్చాము. ఈ ప్రక్రియ పనితీరును మెరుగుపరిచిందని, మరింత సంభావ్య మెరుగుదలకు మార్గాన్ని సృష్టిస్తుందని మేము కనుగొన్నాము. ఇతర నియంత్రిత ప్రయోగాలు దీనికి మద్దతు ఇస్తున్నాయి: నమూనా పరిమాణాన్ని పెంచడం, మరిన్ని తర్కము దశలను ప్రోత్సహించడం మరియు గొప్ప పని సందర్భాన్ని ఇవ్వడం వంటివి కొలవగల లాభాలకు దారితీశాయి.
మీరు మా పేపర్లో పూర్తి ఫలితాలను చదవవచ్చు. ఇతర పరిశోధకులు ఈ పనిపై నిర్మించగలిగేలా మేము GDPval పనుల యొక్క గోల్డ్ సబ్సెట్ మరియు పబ్లిక్ గ్రేడింగ్ సేవను కూడా విడుదల చేస్తున్నాము.
AI మరింత సామర్థ్యం పొందుతున్న కొద్దీ, అది ఉద్యోగ మార్కెట్లో మార్పులకు కారణం కావచ్చు. ప్రారంభ GDPval ఫలితాలు నమూనాలు ఇప్పటికే కొన్ని పునరావృతమయ్యే, బాగా పేర్కొన్న పనులను నిపుణుల కంటే వేగంగా మరియు తక్కువ ఖర్చుతో చేపట్టగలవని చూపిస్తున్నాయి. అయితే, చాలా ఉద్యోగాలు కేవలం వ్రాయగలిగే పనుల సమాహారం కంటే ఎక్కువ. GDPval హైలైట్ చేస్తుంది, ఇక్కడ AI నిత్యకృత్యాలను నిర్వహించగలదు, తద్వారా ప్రజలు సృజనాత్మకమైన, తీర్పు-బరువైన పని భాగాలపై ఎక్కువ సమయం గడపవచ్చు. AI ఈ విధంగా కార్మికులను పూర్తి చేసినప్పుడు అది గణనీయమైన ఆర్థిక వృద్ధికి దారితీస్తుంది. ఈ సాధనాలకు ప్రాప్యతను ప్రజాస్వామ్యీకరించడం, మార్పు ద్వారా కార్మికులకు మద్దతు ఇవ్వడం మరియు విస్తృత సహకారాన్ని అందించే వ్యవస్థలను నిర్మించడం ద్వారా ప్రతి ఒక్కరినీ AI యొక్క "అప్ లిఫ్ట్"లో ఉంచడమే మా లక్ష్యం.
GDPval అనేది ఒక ప్రారంభ దశ. ఇది 44 వృత్తులు మరియు వందలాది పనులను కవర్ చేస్తున్నప్పటికీ, మా పరీక్ష పరిధిని విస్తరించడానికి మరియు ఫలితాలను మరింత అర్థవంతంగా చేయడానికి మేము మా విధానాన్ని మెరుగుపరుస్తూనే ఉన్నాము. ప్రస్తుత మూల్యాంకన వెర్షన్ కూడా ఒకేసారి రూపొందించబడింది, కాబట్టి ఇది ఒక నమూనా సందర్భాన్ని నిర్మించాల్సిన లేదా బహుళ డ్రాఫ్ట్ల ద్వారా మెరుగుపరచాల్సిన సందర్భాలను సంగ్రహించదు—ఉదాహరణకు, క్లయింట్ ఫీడ్ బ్యాక్ తర్వాత చట్టపరమైన సంక్షిప్త నివేదికను సవరించడం లేదా క్రమరాహిత్యాన్ని గుర్తించిన తర్వాత డేటా విశ్లేషణను పునరావృతం చేయడం. అదనంగా, నిజ ప్రపంచంలో, పనులు ఎల్లప్పుడూ ప్రాంప్ట్ మరియు రిఫరెన్స్ ఫైల్లతో స్పష్టంగా నిర్వచించబడవు; ఉదాహరణకు, ఒక న్యాయవాది అస్పష్టతను నావిగేట్ చేసి, వారి క్లయింట్తో మాట్లాడి, వారికి సహాయం చేయడానికి చట్టపరమైన బ్రీఫ్ను సృష్టించడం సరైన విధానం అని నిర్ణయించుకోవలసి ఉంటుంది. విభిన్న జ్ఞాన పనిపై పురోగతిని బాగా కొలవాలనే దీర్ఘకాలిక లక్ష్యంతో, పెరిగిన ఇంటరాక్టివిటీతో మరియు అస్పష్టతను నావిగేట్ చేసే మరిన్ని పనులతో మరిన్ని వృత్తులు, పరిశ్రమలు మరియు పని రకాలను చేర్చడానికి మేము GDPval ని విస్తరించాలని ప్రణాళిక చేస్తున్నాము.
- మీరు GDPval కు తోడ్పడటానికి ఆసక్తి ఉన్న పరిశ్రమ నిపుణులైతే, దయచేసి మీ ఆసక్తిని ఇక్కడ చూపండి.
- మీరు OpenAIతో పనిచేసే కస్టమర్ అయితే మరియు GDPval యొక్క భవిష్యత్తు రౌండ్కు సహకరించాలనుకుంటే, దయచేసి ఇక్కడ ఆసక్తిని వ్యక్తం చేయండి.
కమ్యూనిటీ భాగస్వామ్యం చాలా అవసరం—AGIని పనిలో ఉన్న వ్యక్తులకు మరింత ఉపయోగకరంగా మార్చాలనే మా లక్ష్యాన్ని పంచుకునే పరిశోధకులు, అభ్యాసకులు మరియు సంస్థలతో కలిసి GDPval ని నిర్మించడానికి మేము సంతోషిస్తున్నాము.


