ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

Parameter Golf మాకు నేర్పింది ఏమిటి

1,000+ పాల్గొనేవారు, 2,000+ సమర్పణలు, మరియు కోడింగ్ ఏజెంట్లు మలిచిన ఓపెన్ మెషిన్ లెర్నింగ్ సవాల్ నుంచి నేర్చుకున్న పాఠాలు.

లోడ్ అవుతోంది…

కొత్తగా, కఠిన పరిమితులతో కూడిన మెషిన్ లెర్నింగ్ సమస్యను అన్వేషించడంలో మెషిన్ లెర్నింగ్ పరిశోధనా సమాజాన్ని భాగస్వామ్యం చేయడానికి మరియు మద్దతు ఇవ్వడానికి మేము Parameter Golf ను ప్రారంభించాము. ఈ సవాల్ నిజమైన సాంకేతిక సృజనాత్మకతకు ప్రతిఫలం ఇచ్చేంత ఆసక్తికరంగా ఉండాలి, అదే సమయంలో భావపరంగా సరళంగా, ధృవీకరించడానికి సులభంగా ఉండాలని మేము కోరుకున్నాము.

పాల్గొనేవారు స్థిరమైన FineWeb డేటాసెట్‌పై హెల్డ్-అవుట్ లాస్‌ను కనిష్ఠం చేయాలి, అదే సమయంలో మోడల్ వెయిట్లు మరియు శిక్షణ కోడ్ రెండూ కలిపి 16 MB ఆర్టిఫాక్ట్ పరిమితిలో, అలాగే 8×H100s పై 10 నిమిషాల శిక్షణ బడ్జెట్‌లో ఉండాలి. పాల్గొనేవారు రెపోను ఫోర్క్ చేసి, మోడల్‌ను మెరుగుపరచి, GitHub ద్వారా తమ ఫలితాలను సమర్పించేందుకు మేము ఒక బేస్‌లైన్, డేటాసెట్, మరియు ఈవాల్యుయేషన్ స్క్రిప్ట్స్ అందించాము.

ఎనిమిది వారాల వ్యవధిలో, 1,000 మందికి పైగా పాల్గొనేవారి నుంచి 2,000 కంటే ఎక్కువ సమర్పణలు మాకు వచ్చాయి. జాగ్రత్తగా చేసిన ఆప్టిమైజర్ ట్యూనింగ్ మరియు క్వాంటైజేషన్ పని నుంచి కొత్త మోడలింగ్ ఆలోచనలు, టెస్ట్-టైమ్ ట్రైనింగ్ వరకు, సమర్పణలలో కనిపించిన సాంకేతిక విస్తృతి, సృజనాత్మకత, మరియు నియమాల పరిమితులను ముందుకు నెట్టే ప్రయత్నాలు మమ్మల్ని ఆకట్టుకున్నాయి.

ఈ సవాల్‌లో అత్యంత ఉత్సాహకరమైన అంశాల్లో ఒకటి, పాల్గొనేవారు AI కోడింగ్ ఏజెంట్లను ఎంత విస్తృతంగా ఉపయోగించారో చూడటం. ఏజెంట్లు ప్రయోగాల ఖర్చును తగ్గించడంలో సహాయపడ్డాయి, మరింత మందికి పాల్గొనడం సులభం చేశాయి, మరియు పోటీ వేగాన్ని మార్చాయి. అవి సమర్పణ సమీక్ష, ఆపాదింపు, మరియు స్కోరింగ్‌కు కొత్త సవాళ్లను కూడా సృష్టించాయి.

ఈ సవాల్ మాకు అర్థవంతమైన ప్రతిభా గుర్తింపు వేదికగా కూడా మారింది. అది Parameter Golf కోసం మా లక్ష్యాల్లో ఒకటి, మరియు ఓపెన్-ఎండెడ్ సాంకేతిక సవాళ్లు అసాధారణమైన మెషిన్ లెర్నింగ్ అభిరుచి మరియు పట్టుదలను బయటపెట్టగలవని ఇది ఉపయోగకరమైన సంకేతంగా నిలిచింది.

ఈ పోస్టులో, మాకు ఆశ్చర్యకరంగా మరియు ఆసక్తికరంగా అనిపించిన కొన్ని సమర్పణలను హైలైట్ చేస్తాము, అలాగే శక్తివంతమైన AI ఏజెంట్ల యుగంలో కోడింగ్ పోటీని నిర్వహించడం ద్వారా మేము నేర్చుకున్న విషయాలను పంచుకుంటాము.

సాంకేతిక అభిప్రాయాలు

రికార్డ్ ట్రాక్

రికార్డ్-ట్రాక్ లీడర్‌బోర్డ్‌లోని ప్రతి సమర్పణను మేము పరిశీలించి, స్వతంత్రంగా పునరుత్పత్తి చేసి, అది సమర్పించిన సమయంలో ప్రతి సమర్పణ రికార్డ్-బ్రేకింగ్ అని ధృవీకరించాము. కొన్ని ప్రధాన ధోరణులు స్పష్టంగా కనిపించాయి.

శిక్షణ ఆప్టిమైజేషన్

కొన్ని అత్యుత్తమ ఫలితాలు ఇప్పటికే ఉన్న భాగాలను జాగ్రత్తగా ట్యూన్ చేయడం ద్వారా వచ్చాయి.

సమర్పణసహకర్తపద్ధతిఇది ఎందుకు ముఖ్యమైనది
#60@notapplicaకలిపిన #50 నుండి గత విజయాలు, #42, మరియు బహుశా #39 కూడా, ఆ తర్వాత Muon weight decay, spectral embedding initialization, residual-mix scheduling, మరియు compiled evaluation ఉపయోగించి మరింత లోతైన మోడల్ పని చేసేలా చేసింది.A క్రమశిక్షణతో కూడిన లీడర్‌బోర్డ్ పనికి బలమైన ఉదాహరణ: ఇప్పటికే ఉన్న మెరుగుదలల్లో ఏవి ముఖ్యమో గుర్తించి, వాటిని సజావుగా సమన్వయం చేయడం.

క్వాంటైజేషన్

అనేక సమర్పణలు కాంప్రెషన్ మరియు ఎగుమతిపై బలంగా దృష్టి పెట్టాయి.

సమర్పణసహకర్తపద్ధతిఇది ఎందుకు ముఖ్యమైనది
#414@signalrushఉపయోగించబడింది శిక్షణ తర్వాత వెయిట్‌లను క్వాంటైజ్ చేయడానికి GPTQ-lite.ఆ GPTQ-lite ను విజయవంతంగా ఉపయోగించిన మొదటి లీడర్‌బోర్డ్ సమర్పణ, మెరుగైన మూల్యాంకనానికి దారితీసింది.
#1060@dexhunterపూర్తి Hessian GPTQ ను విజయవంతంగా ఉపయోగించేందుకు @raahilshah చేసిన #634 పై నిర్మించారు.మునుపటి క్వాంటైజేషన్ పనిని మరింత బలమైన కాంప్రెషన్ మార్గంగా విస్తరించింది.

టెస్ట్-టైమ్ మరియు మూల్యాంకన వ్యూహాలు

కొన్ని సమర్పణలు మోడల్ మెరుగుదల మరియు మూల్యాంకన వ్యూహం మధ్య సరిహద్దును నెట్టాయి. ఈ విధానాలు నియమాల ప్రకారం చెల్లుబాటు అయ్యాయి, కానీ నిర్వాహకులుగా మేము వాటిని జాగ్రత్తగా సమీక్షించాల్సి వచ్చింది.

సమర్పణ సహకర్త పద్ధతి ఇది ఎందుకు ముఖ్యమైనది
#77@samacquaఉపయోగించారు స్కోర్-ఫస్ట్, ప్రతి-డాక్యుమెంట్ LoRA టెస్ట్-టైమ్ ట్రైనింగ్: ముందుగా స్కోర్ చేయండి, ఇప్పటికే స్కోర్ చేసిన భాగాలపై మాత్రమే అనుకూలీకరించండి, మరియు డాక్యుమెంట్ సరిహద్దుల వద్ద రీసెట్ చేయండి. మోడల్ మెరుగుదల మరియు మూల్యాంకన వ్యూహం మధ్య హద్దులను విస్తరించడంతో పాటు, నియమాల ప్రకారం సమీక్షించదగినదిగా ఉంది.
a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]"@abaybektursunఉపయోగించబడింది స్వీయంగా రూపొందించిన GPTQ కాలిబ్రేషన్: శిక్షణ పొందిన మోడల్ నుండి కాలిబ్రేషన్ టెక్స్ట్‌ను రూపొందించి, ఆ యాక్టివేషన్స్ నుండి GPTQ హెసియన్లను నిర్మించండి.A నిర్వాహకులు జాగ్రత్తగా సమీక్షించాల్సిన సృజనాత్మక కాలిబ్రేషన్ వ్యూహం.

కొత్త మోడలింగ్ మరియు డేటా ఆలోచనలు

కొన్ని సమర్పణలు ప్రత్యేకంగా సృజనాత్మకమైన మోడలింగ్ లేదా డేటా ఆలోచనలను పరిచయం చేశాయి.

సమర్పణసహకర్తపద్ధతిఇది ఎందుకు ముఖ్యమైనది
#1729@romeerpCaseOps టోకనైజర్‌ను పరిచయం చేశారు: అసలు-బైట్ BPB సైడ్‌కార్ అకౌంటింగ్‌తో లాస్‌లెస్ క్యాపిటలైజేషన్ operator టోకెన్‌లు.ఒక సృజనాత్మక టోకెనైజర్ మరియు డేటా-ప్రాతినిధ్య ఆలోచన.
#265@unnirప్రవేశపెట్టారు XSA, GQA-aware grouped views‌తో కూడిన సమర్థవంతమైన పాక్షిక Exclusive Self Attention విధానం.తీసుకువచ్చింది ఒక సమర్థవంతమైన అటెన్షన్ వేరియంట్‌ను ఛాలెంజ్‌లోకి.
#65@aquariouseworkmanప్రవేశపెట్టారు SmearGate మరియు BigramHash: నేర్చుకున్న మునుపటి-టోకెన్ ఎంబెడ్డింగ్ మిశ్రమం, అలాగే పక్కపక్కన ఉన్న-టోకెన్-జంట హ్యాష్ ఫీచర్లు.జోడించబడింది కొత్త ఫీచర్ మెకానిజమ్‌లను మొదటి నుండి.
#1204@msisovicప్రవేశపెట్టారు మినీ డెప్త్ రికరెన్స్: 4 మరియు 5 లేయర్‌లను పునరావృతం చేసింది, శిక్షణ మధ్య దశ వరకు రికరెన్స్‌ను ఆలస్యం చేసింది, మరియు పునరావృత MLPలను పాక్షికంగా అన్‌టై చేసింది.రికరెంట్ లేయర్‌లు ప్రభావవంతంగా పని చేసేలా చేసిన మొదటి ఆమోదించబడిన లీడర్‌బోర్డ్ వరుస.

ఈ తొమ్మిది సమర్పణలను మేము హైలైట్ చేయడానికి కారణం, ఈ సవాల్ వెలికి తేవాలని మేము ఆశించిన ఫలితాల పరిధిని అవి ప్రతినిధ్యం వహించడమే. కొందరు పాల్గొనేవారు జాగ్రత్తగా చేసిన ట్యూనింగ్ ద్వారా విజయాలు సాధించారు. మరికొందరు క్వాంటైజేషన్ మరియు లో-రాంక్ పద్ధతులను ముందుకు నెట్టారు. కొందరు మూల్యాంకన నియమాల అంచులను అన్వేషించారు. ఇంకా పలువురు సాహిత్యం నుంచి లేదా పూర్తిగా కొత్తగా మోడలింగ్ లేదా డేటా ఆలోచనలను ప్రవేశపెట్టి, ఊహించని లాభాలను సాధించారు.

నాన్‌రికార్డ్ ట్రాక్

నాన్‌రికార్డ్ ట్రాక్ అనేక సృజనాత్మక సమర్పణలకు నిలయంగా నిలిచింది. నాన్-ఆటోరిగ్రెసివ్ టెక్స్ట్ మోడలింగ్ నుంచి డైనమిక్ టోకెనైజేషన్ వరకు విస్తరించిన విధానాలతో సహా 15 ఇష్టమైన సమర్పణలను మేము హైలైట్ చేశాము.

ఈ ట్రాక్ మరింత ప్రయోగాత్మకమైనది కావడంతో, మేము ముడి పనితీరుపై తక్కువగా, ఆ విధానం సాంకేతికంగా ఆసక్తికరమా అనే దానిపై ఎక్కువగా దృష్టి పెట్టాము. ముఖ్యంగా మూడు సమర్పణలు ప్రత్యేకంగా నిలిచాయి:

పనితీరు పరంగా అవి తప్పనిసరిగా అగ్ర మూడు కాకపోయినా, ఇవే మా ఇష్టమైన మూడు నాన్‌రికార్డ్ సమర్పణలు.

అయినా, నాన్‌రికార్డ్ ట్రాక్ పోటీతో నిండినదే. నాన్‌రికార్డ్ లీడర్‌బోర్డ్ ఎంట్రీలలో సగం 1.22 BPB అనే నైవ్ బేస్‌లైన్‌ను మించాయి, మరియు అగ్రస్థానంలో ఉన్న ఎంట్రీ 1.12 BPB ను చేరుకుంది.

ఇది మాకు ప్రోత్సాహకరంగా అనిపించింది. బలమైన ట్రాన్స్‌ఫార్మర్ బేస్‌లైన్స్ ఉన్నప్పటికీ, ప్రత్యామ్నాయ విధానాలు కొన్నిసార్లు ఆధిపత్య ఆర్కిటెక్చర్‌కు సరితూగగలిగాయి.

ఈ ట్రాక్‌కు బలమైన కోడింగ్ ఏజెంట్ల లభ్యత ప్రత్యేకంగా ప్రయోజనం చేకూరుస్తుందని కూడా మేము భావిస్తున్నాము. ఏజెంట్లు ఊహాత్మక ఆలోచనలను ప్రోటోటైప్ చేయడం చాలా చవకగా చేశాయి, ఇందులో చిన్న పోటీలో ప్రయత్నించడానికి ముందు చాలా సమయం పట్టేలా లేదా అనిశ్చితంగా అనిపించిన విధానాలు కూడా ఉన్నాయి.

ముఖ్యాంశాలు

Parameter Golf మరియు దానికి ముందు ఉన్న ఇలాంటి పోటీల మధ్య ఒక ప్రధాన తేడా కోడింగ్ ఏజెంట్ల విస్తృత వినియోగం. సమర్పించిన వారిలో విపరీతమైన మెజారిటీ తమ పనిలో భాగంగా ఏజెంట్లను ఉపయోగించినట్లు పేర్కొన్నారు.

దాంతో ప్రవేశానికి ఉన్న అవరోధం తగ్గింది. పాల్గొనేవారు ప్రయోగాలను మరింత వేగంగా సెటప్ చేయగలిగారు, పరిచయం లేని కోడ్‌ను పరిశీలించగలిగారు, అలాగే తక్కువ అవరోధాలతో ఆలోచనలను పరీక్షించగలిగారు. $1,000,000 విలువైన కంప్యూట్‌ను Runpod స్పాన్సర్ చేయడం కూడా ఈ ఛాలెంజ్‌ను మరింత మందికి అందుబాటులోకి తీసుకురావడంలో ప్రధాన పాత్ర పోషించింది.

అదే సమయంలో, ఏజెంట్ వినియోగం సమర్పణ మరియు స్కోరింగ్‌కు కొత్త సమస్యలను సృష్టించింది. అనేక సమర్పణలు పూర్తిగా కొత్త విధానాల కంటే, ఇప్పటికే ఉన్న అగ్ర స్కోరర్లలో చిన్న మార్పులే అయ్యాయి. ఇది చాలాసార్లు ఉపయోగకరమే: బలమైన ఆలోచనలు వేగంగా వ్యాపించాయి మరియు ఇతరులచే మెరుగుపరచబడ్డాయి. కానీ ఇది శబ్దాన్ని కూడా సృష్టించింది. పోటీ మార్గదర్శకాల వెలుపల ఉన్న సమర్పణలు అసాధారణంగా బలమైన స్కోర్లు సాధించినప్పుడు, ఇతర ఏజెంట్లు కొన్నిసార్లు ఆ ఆలోచనలను కాపీ చేసి అదే చెల్లని మార్గంలో కొనసాగాయి.

సమర్పణల పరిమాణం కూడా మేము పోటీని నడపాల్సిన విధానాన్ని మార్చింది. ప్రతి సమర్పణను మానవీయంగా పరిశీలిస్తూ లీడర్‌బోర్డ్‌ను కదిలించడం మాకు సాధ్యం కాలేదు. సవాల్ సమయంలో, కొత్త సమర్పణలను పర్యవేక్షించి మానవ సమీక్ష కోసం ఫ్లాగ్ చేయడానికి మేము Codex ఆధారిత అంతర్గత ట్రియాజ్ బాట్‌ను అభివృద్ధి చేశాము. రోజుకు వందల సంఖ్యలో సమర్పణలు వచ్చిన కాలాల్లో ఇది ప్రత్యేకంగా ముఖ్యమైంది.

AI ఏజెంట్లు సవాల్ చుట్టూ ఏర్పడిన సమాజంలో కూడా భాగమయ్యాయి. పోటీ ఎక్కువ భాగంలో, @notapplica మరియు వారి కోడింగ్ ఏజెంట్ ప్రధాన సంఘటనలను ట్రాక్ చేస్తూ, లీడర్‌బోర్డ్ విధానాలను వివరిస్తూ, ఇతర పాల్గొనేవారికి పోటీని అనుసరించడంలో సహాయపడుతూ “Live Updates” బులెటిన్ నడిపారు. తక్కువ అనుభవం ఉన్న పాల్గొనేవారు తమ సమర్పణలు నియమాల పరిధిలో ఉన్నాయా, సాధారణంగా జరిగే చెల్లని విధానాలను ఎలా నివారించాలా అని తనిఖీ చేసుకోవడానికి కమ్యూనిటీ సమీక్ష సాధనాలు కూడా కనిపించాయి.

తర్వాత ఏమిటి?

మా ప్రధాన లక్ష్యం, అర్హత కలిగిన పాల్గొనేవారు(కొత్త విండోలో తెరుచుకుంటుంది) పాల్గొని మెషీన్ లెర్నింగ్ పరిశోధనను అనుభవించగలిగే ఒక ఛాలెంజ్‌ను ప్రారంభించడం. Parameter Golf సాంకేతికంగా బలమైన మరియు సృజనాత్మక సమర్పణల విస్తృత శ్రేణిని తీసుకువచ్చింది, అలాగే AI ఏజెంట్లు మరింత సామర్థ్యవంతంగా మరియు విస్తృతంగా ఉపయోగించబడుతున్న కొద్దీ ఓపెన్ పరిశోధనా పోటీలు ఎలా మారవచ్చో మాకు మరింత స్పష్టమైన దృశ్యాన్ని ఇచ్చింది.

భవిష్యత్తులో ఇలాంటి మరిన్ని సవాళ్లను ప్రారంభించే ఆలోచనలో మేమున్నాము. మీకు ఆసక్తి ఉంటే, దయచేసి ఛాలెంజ్‌లో పాల్గొనేవారి ఫారమ్(కొత్త విండోలో తెరుచుకుంటుంది) నింపండి.

రచయిత

OpenAI