Në OpenAI, ne besojmë se AI duhet të jetë e drejtë, e sigurt dhe lirisht e disponueshme, në mënyrë që më shumë njerëz ta përdorin atë për të zgjidhur probleme të vështira, për të krijuar mundësi dhe për të përfituar në fusha si shëndeti, shkenca, arsimi, puna dhe jeta e përditshme. Ne besojmë se qasja e demokratizuar në AI është rruga më e mirë përpara: jo AI, përfitimet ose kontrolli i së cilës janë të përqendruara në duart e pak njerëzve, por AI që më shumë njerëz mund ta përdorin, ta kuptojnë dhe të ndihmojnë në formësimin e saj.
Kjo është një arsye thelbësore pse ekziston OpenAI Model Spec. Model Spec(hapet në një dritare të re) është korniza jonë formale për sjelljen e modelit. Ai përcakton se si duam që modelet të ndjekin udhëzimet, të zgjidhin konfliktet, të respektojnë lirinë e përdoruesit dhe të sillen në mënyrë të sigurt në gamën jashtëzakonisht të gjerë të pyetjeve që përdoruesit u bëjnë çdo ditë. Në mënyrë më të gjerë, kjo është përpjekja jonë për ta bërë të qartë sjelljen e synuar të modeleve: jo vetëm brenda procesit tonë të trajnimit, por edhe në një formë që përdoruesit, zhvilluesit, studiuesit, politikëbërësit dhe publiku më i gjerë mund ta lexojnë, ta shqyrtojnë dhe ta debatojnë realisht.
Model Spec nuk është një pretendim se modelet tona tashmë sillen në këtë mënyrë në mënyrë të përsosur sot. Në shumë mënyra, ai është përshkrues, por është gjithashtu një synim për drejtimin ku duam të shkojë sjellja e modelit. Ne e përdorim për ta bërë më të qartë sjelljen e synuar, që ta trajnojmë drejt saj, ta vlerësojmë kundrejt saj dhe ta përmirësojmë me kalimin e kohës.
Ky postim ndan kontekstin shpjegues që nuk gjendet në vetë Model Spec, duke përfshirë filozofinë dhe mekanikën pas tij: si është strukturuar, pse i kemi bërë ato zgjedhje strukturore dhe si e shkruajmë, e zbatojmë dhe e zhvillojmë me kalimin e kohës.
Model Spec është një pjesë e qasjes më të gjerë të OpenAI ndaj AI të sigurt dhe të përgjegjshëm. Ndërsa Preparedness Framework përqendrohet te rreziqet nga aftësitë avangardë dhe masat mbrojtëse që kërkohen ndërsa këto rreziqe rriten, Model Spec trajton një pyetje tjetër, por plotësuese: si duhet të sillen modelet tona në një gamë të gjerë situatash. Duke e parë në një këndvështrim edhe më të gjerë, qëndrueshmëria e AI synon të trajtojë sfidën më të gjerë shoqërore për ta ndihmuar shoqërinë të përfitojë nga avantazhet e AI së avancuar, duke reduktuar ndërprerjet dhe rreziqet në zhvillim ndërsa sisteme gjithnjë e më të afta vihen në përdorim. Në tërësi, këto nisma synojnë të ndihmojnë që kalimi drejt AGI të jetë gradual, përsëritës dhe demokratikisht i kuptueshëm: duke u dhënë njerëzve dhe institucioneve kohë për t’u përshtatur, ndërsa ndërtohen masat mbrojtëse, mekanizmat e llogaridhënies dhe kuptimi publik i nevojshëm për ta mbajtur AI e fuqishme në përputhje me interesat njerëzore.
Qartësia publike rreth sjelljes së modelit ka rëndësi si për drejtësinë ashtu edhe për sigurinë. Kjo ka rëndësi për drejtësinë, sepse njerëzit duhet të kuptojnë si dhe pse AI po i trajton në atë mënyrë - dhe të jenë në gjendje të identifikojnë, vënë në pikëpyetje dhe adresojnë shqetësimet lidhur me drejtësinë kur ato lindin. Dhe kjo ka rëndësi për sigurinë, sepse ndërsa sistemet e AI bëhen më të afta, njerëzit dhe institucionet kanë nevojë për pritshmëri më të qarta për mënyrën se si synohet të sillen, çfarë kompromisesh përfshijnë dhe si mund të përmirësohen këto zgjedhje me kalimin e kohës. Edhe ajo lloj lexueshmërie mbështet qëndrueshmërinë duke u dhënë më shumë njerëzve diçka konkrete për ta shqyrtuar, vënë në dyshim dhe përmirësuar.
Që nga versioni i parë në vitin 2024, Model Spec ka evoluar ndjeshëm ndërsa mësojmë më shumë për preferencat dhe nevojat e përdoruesve, zgjerohemi për të mbuluar dhe për t’iu përshtatur aftësive më të mëdha dhe mësojmë nga reagimet publike mbi sjelljet e modelit dhe Model Spec. Në frymën e vendosjes iterative, Model Spec është një dokument në zhvillim që mbulon si vlerat themelore ashtu edhe rregulla të qarta dhe të kuptueshme - i shoqëruar me një proces për ndryshimin e elementeve individuale ndërsa mësojmë nga vendosja dhe reagimet në botën reale. Ne po investojmë gjithashtu në mekanizma publikë të reagimeve si përafrimi kolektiv për të ndihmuar që njerëzimi të mbetet në kontroll të mënyrës se si përdoret AI dhe si formësohet sjellja e AI.
Së brendshmi, kjo na jep një pikë referimi për sjelljen e synuar dhe një kuadër të përbashkët për trajnimin, vlerësimin dhe qeverisjen. Së jashtmi krijohet një pikë referimi publike që njerëzit mund ta përdorin për të kuptuar qasjen tonë, për ta kritikuar dhe për të ndihmuar në përmirësimin e saj me kalimin e kohës.
Model Spec përbëhet nga disa lloje të ndryshme të udhëzimeve për modelin. Kjo është e qëllimshme. Pjesë të ndryshme të sjelljes së modelit duhet të trajtohen në mënyra të ndryshme, ndërsa një dokument publik i dobishëm duhet të bëjë më shumë sesa thjesht të rendisë rregulla.
Model Spec fillon me synim të nivelit të lartë: një përshkrim të qartë të asaj që po përpiqemi të optimizojmë në nivel sistemi dhe arsyes pse.
Kjo parathënie sqaron tre qëllime për mënyrën se si planifikojmë të ndjekim misionin tonë:
- Vendosja iterative e modeleve që fuqizojnë zhvilluesit dhe përdoruesit
- Parandalimi që modelet të shkaktojnë dëme serioze për përdoruesit ose të tjerët
- Ruajtja e licencës së OpenAI për të operuar
Më pas shpjegon se si mendojmë për balancimin e këtyre qëllimeve në praktikë, duke i bërë këto kompromise mjaftueshëm konkrete për të mbështetur parimet më të hollësishme që pasojnë.
Është e rëndësishme që kjo parathënie të mos jetë një udhëzim i drejtpërdrejtë për modelin. Përfitimi i njerëzimit është qëllimi i OpenAI, jo një qëllim që duam që model tona ta ndjekin në mënyrë autonome. Në vend të kësaj, ne duam që modelet të ndjekin një zinxhir komandimi që përfshin Model Spec dhe udhëzimet e zbatueshme nga OpenAI, zhvilluesit dhe përdoruesit - edhe kur disa njerëz mund të mos pajtohen me rezultatin në një rast të caktuar.Ne mendojmë se kjo është balanca e duhur sepse i vlerësojmë autonominë njerëzore dhe lirinë intelektuale. Nëse do t’i trajnonim model të vendosin se cilave udhëzime t’u binden bazuar në pikëpamjen tonë për atë që është e mirë për shoqërinë, OpenAI do të ishte në pozicionin të gjykonte moralin në një nivel shumë të gjerë. Duke pasur këtë parasysh, parathënia ka ende rëndësi. Kur ka paqartësi se si të zbatohet Model Spec, parathënia duhet të ndihmojë në zgjidhjen e saj.
Model Spec përmban gjithashtu angazhime publike që shkojnë përtej sjelljes së modelit që mund të matet drejtpërdrejt, duke përfshirë synimin e trajnimit dhe kufizimet e vendosjes në përdorim. Për shembull, parimet tona të panegociueshme(hapet në një dritare të re) përfshijnë një angazhim që, në implementime të palës së parë si ChatGPT, ne nuk do t’i përdorim kurrë mesazhet e sistemit për të kompromentuar qëllimisht objektivitetin(hapet në një dritare të re) ose parime të lidhura me të; dhe Asnjë objektiv tjetër(hapet në një dritare të re) nuk përfshin angazhime lidhur me synimet tona për të optimizuar përgjigjet e model për përfitimin e përdoruesit dhe jo për të ardhura ose për kohën e kaluar në faqe interneti pa përfitim për përdoruesin.
Në thelb të Model Spec është zinxhiri i komandës: një kornizë për të vendosur se cilat udhëzime duhet të zbatohen në një situatë të caktuar. Ai mbulon gjithashtu mënyrën se si modeli duhet të trajtojë udhëzimet e papërcaktuara, veçanërisht në mjedise agjentike ku pritet që të plotësojë hollësitë në mënyrë autonome, duke kontrolluar me kujdes efektet anësore në botën reale.
Ideja bazë pas vendosjes së cilat udhëzime duhet të zbatohen është e thjeshtë. Udhëzimet mund të vijnë nga burime të ndryshme, duke përfshirë OpenAI, zhvilluesit dhe përdoruesit. Këto udhëzime mund të bien në kundërshtim. Zinxhiri i komandës shpjegon se si modeli duhet t’i zgjidhë ato konflikte.
Çdo politikë e Model Spec dhe çdo udhëzim i jepet një nivel autoriteti(hapet në një dritare të re). Modeli është udhëzuar t’u japë përparësi formulimit dhe frymës së udhëzimeve me autoritet më të lartë kur lindin konflikte. Nëse një përdorues kërkon ndihmë për të krijuar një bombë, modeli duhet t’u japë përparësi kufijve të rreptë të sigurisë(hapet në një dritare të re). Nëse një përdorues kërkon që të tallet me të, modeli në përgjithësi duhet t’i japë përparësi asaj kërkese ndaj politikës kundër abuzimit(hapet në një dritare të re) me autoritet më të ulët.
Kjo strukturë na mundëson të përcaktojmë një grup të vogël rregullash të pandryshueshme, së bashku me një grup më të madh vlerash të paracaktuara. Kështu ne përpiqemi të maksimizojmë lirinë e përdoruesit dhe kontrollin e zhvilluesit brenda kufizimeve të sigurisë.
- Rregullat e forta janë kufij të qartë që nuk mund të anashkalohen nga përdoruesit apo zhvilluesit (në terminologjinë e Model Spec, këto janë udhëzime të nivelit "root" apo "system"). Ato janë kryesisht ndaluese, duke kërkuar nga modelet të shmangin sjellje që mund të kontribuojnë në rreziqe katastrofike apo dëm fizik të drejtpërdrejtë, të shkelin ligjet ose të minojnë zinxhirin e komandës. Ne presim që AI të bëhet një teknologji themelore për shoqërinë, e ngjashme me infrastrukturën bazë të internetit, kështu që vendosim rregulla që kufizojnë lirinë intelektuale vetëm kur besojmë se janë të nevojshme për spektrin e gjerë të zhvilluesve dhe përdoruesve që do të ndërveprojnë me të. Në Model Spec, Qëndro brenda kufijve(hapet në një dritare të re) përmban rregulla të rrepta që trajtojnë rreziqe konkrete të sigurisë në botën reale dhe Parimet për moshat nën 18 vjeç(hapet në një dritare të re) shtojnë masa mbrojtëse shtesë për përdoruesit nën 18 vjeç.
- Vlerat e parazgjedhura janë pika fillestare që mund të ndryshohen: sjellja e "parashikimit më të mirë" të asistentit kur përdoruesi ose zhvilluesi nuk ka përcaktuar një preferencë. Ne përdorim vlerat e parazgjedhura për ta bërë sjelljen të parashikueshme dhe të kontrollueshme në shkallë të gjerë, që njerëzit të mund të parashikojnë se çfarë ndodh pa shkruar çdo herë një grup udhëzimesh të personalizuara. Vlerat e paracaktuara ruajnë drejtueshmërinë: përdoruesit dhe zhvilluesit mund të drejtojnë qartë tonin, thellësinë, formatin dhe këndvështrimin, brenda kufijve të sigurisë. Vlerat e parazgjedhura të nivelit të udhëzimeve (si to ose stili) janë krijuar që të jenë të drejtueshme në mënyrë implicite, ndërsa vlerat e parazgjedhura të nivelit të përdoruesit (si vërtetësia dhe objektiviteti) janë shtylla për besimin dhe parashikueshmërinë dhe mund të ndryshohen vetëm me udhëzime të qarta. Ato nuk duhet të devijojnë në heshtje mbi bazën e përshtypjeve intuitive; nëse përdoruesi dëshiron një qëndrim faktik tjetër, udhëzimi i qartë e bën këtë ndryshim transparent dhe të kuptueshëm. Këto parazgjedhje pasqyrohen në Kërko së bashku të vërtetën(hapet në një dritare të re), Bëj punën më të mirë(hapet në një dritare të re) dhe Përdor stilin e duhur(hapet në një dritare të re), duke përfshirë normat për ndershmëri dhe objektivitet, shmangien e servilizmit dhe normat e ndërveprimit si drejtpërdrejtësia, ngrohtësia dhe profesionalizmi i përshtatshëm për kontekstin.
Përtej vetë hierarkisë, Model Spec përdor masa interpretuese për t’i ndihmuar modelet (dhe njerëzit) ta zbatojnë atë në mënyrë të qëndrueshme në zonat gri. Këto masa përfshijnë:
- Rubrika vendimmarrjeje që e ndihmojnë modelin të marrë vendime të qëndrueshme në rastet e paqarta, pa pretenduar se ekziston një rregull i vetëm mekanik. Për shembull, udhëzimet e Model Spec për kontrollin e efekteve anësore(hapet në një dritare të re) rendisin konsiderata si minimizimi i veprimeve të pakthyeshme, mbajtja e veprimeve në përpjesëtim me objektivin, zvogëlimi i situatave të papritura të pakëndshme dhe favorizimi i qasjeve të kthyeshme, të cilat duhet të balancohen kundrejt objektivave të tjera si përfundimi i detyrës në mënyrë të shpejtë dhe efikase.
- Shembuj konkretë që tregojnë se si duhet të zbatohet një parim në praktikë. Këta janë shembuj të shkurtër kërkesë-përgjigje që zakonisht përfshijnë një përgjigje në përputhje dhe një përgjigje jo në përputhje, shpesh për një kërkesë të vështirë pranë një kufiri të rëndësishëm vendimmarrjeje. Qëllimi nuk është të simulohet një bisedë e plotë realiste. Kjo shërben për ta bërë të qartë dallimin kyç dhe për ta bërë këtë në një mënyrë që gjithashtu demonstron stilin e dëshiruar të përgjigjes.
E mbajmë numrin e shembujve relativisht të vogël dhe përqendrohemi tek ata më informues. Paketat më të gjera të vlerësimit ndihmojnë të mbulojnë më shumë nga aspektet më pak të zakonshme.
Një shembull që ilustron parimet e lirisë intelektuale dhe të qasjes pa paragjykime nga seksioni i specifikimit "Spec" Supozo qëllimet më të mira(hapet në një dritare të re).
"Specifikimi" është një ndërfaqe, jo një zbatim. Ai përshkruan sjelljen që duam, jo çdo detaj të mënyrës se si e prodhojmë atë sjellje. Ne përpiqemi të shmangim ta lidhim atë me detaje të zbatimit, si formatet e brendshme të token ose receta e saktë e trajnimit për një sjellje të caktuar, sepse këto detaje mund të ndryshojnë edhe kur sjellja e dëshiruar nuk ndryshon. Audienca kryesore e Model Spec nuk është modeli, por njerëzit: ai synon të ndihmojë punonjësit e OpenAI, përdoruesit, zhvilluesit, studiuesit dhe politikëbërësit të kuptojnë, debatojnë dhe vendosin për sjelljen e synuar.
"Specifikimi" përshkruan gjithashtu modelin, jo të gjithë produktin. Ai plotësohet nga politikat tona të përdorimit, të cilat përshkruajnë pritshmëritë tona për mënyrën se si njerëzit duhet të përdorin API dhe ChatGPT. Sistemi me të cilin ndërveprojnë përdoruesit përfshin më shumë sesa vetë modeli: veçoritë e produktit si udhëzimet e personalizuara dhe memoria, monitorimi, zbatimi i politikave dhe shtresat e tjera kanë gjithashtu rëndësi. Siguria është shumë më tepër sesa sjellja e modelit dhe ne besojmë në mbrojtjen në thellësi.
Dhe "Specifikimi" nuk është një përshkrim i plotë i të gjithë grupit tonë të trajnimit apo i çdo dallimi të brendshëm të politikave. Qëllimi nuk është që të përfshihen të gjitha detajet. Qëllimi është t’i bëjë të kuptueshme vendimet më të rëndësishme të sjelljes, në një mënyrë që të jetë plotësisht në përputhje me sjelljen e synuar të modelit.
Ka disa arsye për të përfshirë kaq shumë në Specifikim, në vend që të supozohet se lexuesi - ose modeli - mund të nxjerrë gjithçka nga disa objektiva të përgjithshëm të nivelit të lartë.
Së pari, Model Spec është një mjet për transparencë dhe llogaridhënie . Është krijuar për të nxitur reagime kuptimplota nga publiku. Një objektiv publik i qartë ndihmon njerëzit të përcaktojnë nëse një sjellje është një defekt apo një veçori. Kjo u ofron atyre një pikë të qëndrueshme referimi për kritikë dhe reagime konkrete. Kjo është arsyeja pse ne e bëmë me burim të hapur(hapet në një dritare të re) Model Spec dhe zgjedhim të përmirësojmë publikisht. Që nga publikimi i parë, janë bërë shumë ndryshime bazuar në reagimet e publikut, të mbledhura përmes një sërë mekanizmash, duke përfshirë formularët e reagimeve, kritikat publike dhe përpjekjet e qëllimshme për të mbledhur kontribute demokratike.
Së dyti, Model Spec është një mjet brenda OpenAI. Ai u jep njerëzve në kërkim, produkt, siguri, politika, juridik, komunikim dhe funksione të tjera një fjalor të përbashkët për të diskutuar sjelljen e modelit dhe një mekanizëm për të propozuar dhe shqyrtuar ndryshime.
Së treti, politikat e qarta mund të kompensojnë kufizimet praktike në inteligjencën e model dhe kontekstin e ekzekutimit, duke e bërë sjelljen më të parashikueshme. Megjithëse kjo po bëhet më pak e vërtetë me kalimin e kohës, disa politika synojnë të kompensojnë inteligjencën e pamjaftueshme, kur model mund të mos arrijë në mënyrë të besueshme të nxjerrë sjelljen e duhur nga parime të nivelit më të lartë. Për shembull, Ji i qartë dhe i drejtpërdrejtë(hapet në një dritare të re) këshillonte modelet e mëparshme të tregonin hapat e zgjidhjes përpara se të jepnin një përgjigje për probleme sfiduese që kërkojnë llogaritje, por sot modelet tona e mësojnë natyrshëm këtë sjellje përmes trajnim përforcues.
Politika të tjera trajtojnë kontekstin e kufizuar gjatë ekzekutimit: asistenti mbështetet vetëm në atë që është e dukshme në ndërveprimin aktual dhe rrallëherë ka njohuri të plota për situatën, qëllimin, përdorimin e mëvonshëm ose masat mbrojtëse jashtë modelit. Në këto raste, edhe nëse modelet mund të përcaktojnë sjelljen e duhur me kërkime dhe analizë të mjaftueshme, specifikimi përmirëson efikasitetin dhe parashikueshmërinë - duke përmbledhur shumë vendime në udhëzime që reduktojnë ndryshimet në kërkesa të ngjashme dhe e bëjnë sjelljen më të kuptueshme për përdoruesit dhe studiuesit.
Së fundi, specifikim modeli synon të jetë një listë e plotë e politikave të nivelit të lartë që janë të rëndësishme për vlerësimin dhe matjen. Nëse dëshiron të vlerësosh nëse një model po sillet siç është parashikuar, është e dobishme të kesh një listë publike të kategorive kryesore të sjelljes që të interesojnë.
Është joshëse të mendosh se një model mjaftueshëm i aftë duhet të jetë në gjendje të nxjerrë sjelljen e duhur nga një listë e shkurtër qëllimesh si "të jetë i dobishëm dhe i sigurt." Ka diçka të vërtetë në këtë. Në fusha me kritere objektive suksesi, si matematika, inteligjenca shpesh mund të zëvendësojë rregullat e detajuara.
Por në përgjithësi, sjellja e modelit nuk është si zgjidhja e një problemi të thjeshtë matematikor; modelet shpesh veprojnë në hapësira më të ndërlikuara ku nuk ka një përgjigje të vetme moralisht të saktë për të cilën të gjithë mund të bien dakord. Për shembull, ajo që do të thotë që një model të jetë "i dobishëm dhe i sigurt" varet jashtëzakonisht shumë nga konteksti dhe është produkt i vendimmarrjes së ngarkuar në mënyrë të qenësishme me vlera. Vetëm inteligjenca nuk të tregon se çfarë kompromisesh duhet të bësh kur bëhet fjalë për etikën dhe vlerat. Prandaj, edhe ndërsa modeli përmirësohet në inteligjencë, ne ende kemi nevojë për punë për të kuptuar dhe orientuar gjykimet e vlerave/çfarë do të thotë të veprosh "me etikë" në një rast të caktuar. Dhe shumica e arsyeve për të pasur një Model Spec mbeten të rëndësishme edhe kur modelet bëhen shumë më të afta: ne ende kemi nevojë për një objektiv publik rreth të cilit njerëzit mund të koordinohen, një mënyrë për të vlerësuar nëse sjellja përputhet me synimet tona dhe një mekanizëm për rishikimin e rregullave ndërsa mësojmë. Nëse i vetmi rregull është "ji i dobishëm dhe i sigurt", atëherë nuk ka asnjë mekanizëm me anë të të cilit njerëzit mund të debatojnë, për shembull, kufijtë e llojit të përmbajtjes që modeli duhet të refuzojë të ofrojë, duke ia lënë modelit të gjitha këto vendime.
Madje, ndërsa model bëhen më të afta, më agjentike dhe përdoren më gjerësisht, kostoja e paqartësisë rritet. Kjo e bën një kuadër të qartë të sjelljes më të rëndësishëm, jo më pak.
Një analogji e dobishme është dallimi midis një kushtetute të shkruar dhe të drejtës zakonore. Ndërsa një kushtetutë e shkruar mund të ofrojë si parime të përgjithshme ashtu edhe rregulla konkrete, ajo nuk mund të parashikojë të gjitha rastet e mundshme që mund të lindin dhe të kërkojnë udhëzimin e saj. Sistemet reale të qeverisjes kanë nevojë gjithashtu për mekanizma interpretues, sqarime dhe vendime të qarta për të zgjidhur rastet e ndërlikuara ose çështjet e paparashikuara. Rregullat e publikuara ndihmojnë palët e ndryshme të interesuara të bashkërendojnë edhe kur nuk bien dakord dhe kufizojnë ndryshimet duke kërkuar që çdo ndryshim të jetë i qartë. Model Spec synon të luajë të gjitha këto role: një deklaratë parimesh, një kuadër publik të sjelljes dhe një proces për ndryshimin e specifikimit me kalimin e kohës.
Megjithatë, ne nuk mendojmë se gjithçka që ka rëndësi për model sjelljen mund të reduktohet gjithmonë në rregulla të qarta. Ndërsa sistemet bëhen më autonome, besueshmëria dhe besimi do të varen gjithnjë e më shumë nga aftësi dhe prirje më të gjera: komunikimi i pasigurisë në mënyrë të qartë, respektimi i kufijve të autonomisë, shmangia e surprizave të pakëndshme, ndjekja e qëllimit me kalimin e kohës dhe arsyetim i mirë për vlerat njerëzore në kontekst.
Kur shkruhet Model Spec, ekziston një spektër midis përshkrimit të sjelljes aktuale të modelit të sotëm, me të gjitha të metat e saj dhe përshkrimit të një objektivi ideal për një të ardhme të largët. Ne përpiqemi të gjejmë një ekuilibër, zakonisht duke synuar rreth 0–3 muaj përpara së tashmes. Kështu, Model Spec shpesh mbetet përpara modelit në të paktën disa fusha të zhvillimit aktiv.
Kjo pasqyron rolin e Model Spec si një përshkrim të sjelljes së synuar. Ai duhet të na orientojë në një drejtim koherent, duke mbetur i bazuar tek ajo që ose tashmë bëjmë ose kemi plane konkrete afatshkurtra për ta zbatuar.
Model Spec zhvillohet përmes një procesi të brendshëm të hapur. Çdokush në OpenAI mund të komentojë mbi të ose të propozojë ndryshime, ndërsa përditësimet përfundimtare miratohen nga një grup i gjerë palësh të interesuara ndërfunksionale. Në praktikë, dhjetëra persona kanë kontribuar drejtpërdrejt me tekst, ndërsa shumë të tjerë në kërkim, inxhinieri, produkt, siguri, politikë, ligjore, komunikime, çështje globale dhe funksione të tjera japin mendimin e tyre. Ne gjithashtu mësojmë nga publikimet publike dhe reagimet, të cilat ndihmojnë për të testuar këto zgjedhje në vendosje reale.
Kjo ka rëndësi sepse sjellja e modelit - dhe implikimet e saj në botë - janë jashtëzakonisht të ndërlikuara. Askush nuk mund ta përfshijë në mendjen e vet tërësinë e plotë të sjelljeve, procesin e trajnimit dhe pasojat e mëvonshme, por me shumë kontribues dhe rishikues ndërfunksionalë mund të përmirësojmë cilësinë dhe të rrisim besimin.
Një surprizë e këndshme ka qenë se konsensusi i vërtetë shpesh është i mundur - veçanërisht kur e detyrojmë veten të përkufizojmë kompromiset me saktësi të mjaftueshme, që mospajtimet të bëhen konkrete.
Model Spec gjithashtu nuk është shkruar në boshllëk. Pjesa më e madhe e asaj që përfshihet në të është një përmbledhje e punës më të gjerë mbi sjelljen, sigurinë dhe politikat. Një pjesë e madhe e shkrimit të Model Spec është në të vërtetë përkthim: marrja e punës ekzistuese dhe bërja e saj më të thjeshtë, më të qëndrueshme, më të organizuar dhe më të arritshme pa humbur qëllimin themelor.
Modelet tona të prodhimit ende nuk pasqyrojnë plotësisht Model Spec për disa arsye.
- Trajnimi i modelit mund të mbetet pas përditësimeve të specifikimeve modeli. Ajo përshkruan sjelljen drejt së cilës po punojmë, prandaj mund të jetë përpara asaj që modeli ynë më i fundit është trajnuar të bëjë.
- Trajnimi mund të mësojë pa dashje sjellje që nuk përputhen me Model Spec. Ne përpiqemi shumë ta shmangim këtë dhe kur ndodh, e trajtojmë si një gabim serioz - duke punuar ose për të përshtatur sjelljen ose Model Spec, për t’i sjellë ato në përputhje me njëra-tjetrën.
- Trajnimi nuk mund ta mbulojë kurrë plotësisht hapësirën e të gjitha sjelljeve të mundshme. Përdorimi real përfshin një gamë të gjerë kontekstesh dhe rastesh kufitare që shfaqen vetëm në shkallë të gjerë dhe asnjë proces trajnimi nuk mund t’i mbulojë të gjitha.
- Përgjithësimi mund të ndryshojë nga ajo që kemi synuar. Një model mund të prodhojë rezultatet "e duhura" gjatë trajnimit për arsye të paqëllimshme, gjë që mund të çojë në sjellje të paqëllimshme në situata të reja që ndryshojnë nga ato të hasura gjatë trajnimit. Teknika si harmonizim me konsensus ndihmojnë, por nuk janë një zgjidhje e plotë.
Në mënyrë më të gjerë, fakti që Model Spec përshkruan një gamë të gjerë sjelljesh të dëshiruara nuk do të thotë se ekziston një metodë e vetme për t’i mësuar të gjitha ato. Aspekte të ndryshme të sjelljes - ndjekja e udhëzimeve, kufijtë e sigurisë, personaliteti, shprehja e kalibruar e pasigurisë dhe të tjera - shpesh kërkojnë teknika të ndryshme dhe kanë mënyra të ndryshme dështimi. Model Spec ndihmon që sjellja e synuar të bëhet më e lehtë për t'u kuptuar dhe kritikuar, por zbatimi i tij në mënyrë të mirë mbetet një art dhe një fushë aktive kërkimi.
Krahas këtij postimi, po publikojmë Vlerësimet e Model Spec(hapet në një dritare të re): një paketë vlerësimi e bazuar në skenarë që synon të mbulojë sa më shumë pohime të Model Spec me një numër të vogël shembujsh përfaqësues. Kjo na ndihmon të gjurmojmë se ku sjellja e modelit dhe Model Spec mund të mos përputhen, si edhe na ndihmon të kontrollojmë nëse modelet po e interpretojnë specifikimin modeli në mënyrën që kemi synuar. Këto vlerësime janë vetëm një pjesë e një strategjie më të gjerë vlerësimi, e cila përfshin gjithashtu vlerësime më të synuara në shumë dimensione të sjelljes, duke përfshirë fusha specifike të sigurisë, vërtetësinë dhe servilizmin, personalitetin dhe stilin, si dhe aftësitë.
Grafiku i pajtueshmërisë së Model Spec sipas seksioneve për modelet e OpenAI me kalimin e kohës. Shikoni postimin shoqërues në blog(hapet në një dritare të re) për detaje mbi vlerësimet dhe mënyrën si i interpretojmë ato. Shkurtimisht, ne besojmë se këto rezultate pasqyrojnë përmirësime të vërteta dhe të gjera në përputhjen e modelit me kalimin e kohës, megjithëse ato pasqyrojnë gjithashtu një efekt të vogël për shkak të matjes së modeleve më të vjetra kundrejt politikave më të fundit.
Në praktikë, shumica e përditësimeve të Spec nxiten nga një grup i përsëritur hyrjesh:
- Çështje publike dhe reagime. Paqartësi, raste kufitare ose mënyra dështimi - ose në gjuhën e Model Spec, ose në sjelljen e modeleve tona.
- Çështje të brendshme. Modelet që vërejmë gjatë zhvillimit dhe testimit, duke përfshirë paqartësitë ku interpretime të ndryshme të arsyeshme çojnë në sjellje të ndryshme.
- Përditësime të politikës së sjelljes dhe sigurisë. Kur kufizimet ose angazhimet e nivelit më të lartë ndryshojnë, "Specifikimi" duhet ta pasqyrojë qartë atë strukturë të re.
- Aftësi dhe produkte të reja. Ndërsa modelet bëhen më të afta për sjellje të reja dhe ne nxjerrim produkte të reja, duam që Model Spec të ecë në hap me përmbajtjen dhe mbulimin - për shembull, duke shtuar rregulla për ndërveprimet multimodale(hapet në një dritare të re), agjentët autonomë(hapet në një dritare të re) dhe përdoruesit nën 18 vjeç(hapet në një dritare të re).
Disa parime të dizajnit udhëheqin mënyrën se si e shkruajmë dhe e rishikojmë Model Spec.
- Qartësi dhe saktësi. "Ji i sinqertë" është një vlerë e mirë, por jo një procedurë e plotë vendimmarrjeje. Model Spec duhet t’i bëjë më të qarta mospajtimet, jo t’i fshehë ato pas gjuhës së pajtueshme. Kur është e praktikueshme, duhet të theksojmë shprehimisht konfliktet e mundshme midis rregullave dhe të ofrojmë udhëzime ose shembuj si të zgjidhen ato. Për shembull, Mos gënjë(hapet në një dritare të re) vë në dukje një konflikt të mundshëm me Ji i ngrohtë(hapet në një dritare të re), duke shpjeguar se asistenti duhet të ndjekë normat e mirësjelljes, pa arritur deri te gënjeshtrat e bardha që mund të përbëjnë servilizëm(hapet në një dritare të re) dhe të jenë kundër interesit më të mirë të përdoruesit.
- Rregulla thelbësore. Një lexues duhet të jetë në gjendje të marrë një kërkesë realiste dhe të japë një përgjigje që një lexues tjetër e dallon qartë si brenda ose jashtë kufijve (edhe nëse ka raste që kërkojnë gjykim në kufijtë e tyre).
- Shembuj që maksimizojnë raportin sinjal-zhurmë. Shembujt e mirë shpesh janë thelbësorë për zhvillimin e një përditësimi të specifikimeve me cilësi të lartë. Shembujt duhet të ndihmojnë për të shkuar në thelb të vështirësive në përcaktimin e sjelljes së modelit, duke i nxjerrë në pah konfliktet e vështira dhe duke marrë një qëndrim të qartë për mënyrën se si duhen zgjidhur ato. Së dyti, ata duhet të përpiqen të jenë shembuj të tonit dhe stilit të dëshiruar, gjë që mund të jetë e vështirë të përcillet në prozë.
- Qëndrueshmëri. Ne përpiqemi të shmangim shembujt me paqartësi ose kompleksitet të panevojshëm, që konflikti thelbësor dhe zgjidhja e synuar të jenë të qarta.
- Qëndrueshmëri dhe organizim i qartë. Përpiqemi që rregullat e specifikimit modeli të jenë plotësisht në përputhje me njëra-tjetrën dhe me sjelljen e synuar të modelit tonë si edhe ta bëjmë organizimin e përgjithshëm të dokumentit të qartë dhe të kuptueshëm.
Model Spec nuk është një pretendim se mund të përshkruajmë gjithçka që ka rëndësi ose se modelet do të arrijnë gjithmonë objektivin. Është një pretendim se sjellja e synuar është mjaft e rëndësishme për të qenë e qartë, e zbatueshme dhe e rishikueshme.
Tre kritere suksesi drejtojnë mënyrën se si e përmirësojmë.
- Lexueshmëria. Njerëzit brenda dhe jashtë OpenAI mund të krijojnë pritshmëri të sakta për sjelljen dhe mund t’i referohen tekstit kur sjellja i befason.
- Zbatueshmëria. Model Spec mund të përdoret për të hartuar vlerësime, për të diagnostikuar incidente dhe për të marrë vendime të qëndrueshme për produktin - jo vetëm për të shprehur vlera.
- Rishikueshmëria. Model Spec mund të evoluojë ndërsa mësojmë, pa u shndërruar në një objektiv të paqëndrueshëm në lëvizje.
Ndërsa modelet dhe produktet evoluojnë, presim që Model Spec të zgjerohet dhe të qartësohet në përputhje me aftësitë e reja dhe kontekstet e përdorimit. Qëllimi është të ruhet koherenca, testueshmëria dhe përputhshmëria e specifikimit të sjelljes me misionin tonë për të siguruar që AGI t’i sjellë dobi gjithë njerëzimit.


