Preskočiť na hlavný obsah
OpenAI

Bližšie informácie o našom prístupe k špecifikácii modelu

Systémy umelej inteligencie sú čoraz schopnejšie a široko využívané, preto potrebujeme jasný verejný rámec pre to, ako by sa mali správať.

Načítava sa…

V spoločnosti OpenAI veríme, že umelá inteligencia by mala byť spravodlivá, bezpečná a voľne dostupná, aby ju mohlo využívať viac ľudí na riešenie náročných problémov, vytváranie príležitostí a aby z nej mali úžitok v oblastiach ako zdravie, veda, vzdelávanie, práca a každodenný život. Veríme, že demokratizovaný prístup k umelej inteligencii je najlepšou cestou vpred: nie umelá inteligencia, ktorej prínosy alebo kontrola sú sústredené v rukách niekoľkých jednotlivcov, ale umelá inteligencia, ku ktorej má prístup viac ľudí, rozumie jej a pomáha ju formovať.

To je hlavný dôvod, prečo existuje špecifikácia modelu OpenAI. Špecifikácia modelu(otvorí sa v novom okne) je náš rámec pre správanie modelu. Definuje, ako chceme, aby modely dodržiavali pokyny, riešili konflikty, rešpektovali slobodu používateľov a správali sa bezpečne v rámci širokého spektra dopytov, ktoré im používatelia denne zadávajú. V širšom zmysle je to náš pokus explicitne vyjadriť zamýšľané správanie modelu: nielen v rámci tréningového procesu, ale aj vo forme, ktorú si používatelia, vývojári, výskumníci, tvorcovia politík a širšia verejnosť môžu prečítať, preskúmať a diskutovať o nej.

Táto špecifikácia modelu nie je konštatovaním, že sa naše modely už dnes týmto spôsobom správajú dokonale. V mnohých ohľadoch je to opisné, ale je to aj cieľ, kam chceme správanie modelu smerovať. Používame ho na to, aby bolo zamýšľané správanie jasnejšie, takže naň môžeme trénovať model, hodnotiť ho podľa neho a postupne ho zlepšovať. 

Tento príspevok približuje kontext, ktorý v samotnej špecifikácii modelu nenájdete, vrátane filozofie a mechanizmov, ktoré za ňou stoja: ako je štruktúrovaná, prečo sme urobili tieto štrukturálne rozhodnutia a ako ju v priebehu času píšeme, implementujeme a rozvíjame.

Verejný rámec pre správanie modelu

Špecifikácia modelu je jednou zo súčastí širšieho prístupu OpenAI k bezpečnej a zodpovednej umelej inteligencii. Zatiaľ čo Rámec pripravenosti sa zameriava na riziká vyplývajúce z prelomových schopností a na ochranné opatrenia potrebné pri náraste týchto rizík, špecifikácia modelu sa zaoberá inou, ale dopĺňajúcou sa otázkou: ako by sa naše modely mali správať v širokej škále situácií. Pri širšom pohľade sa odolnosť AI usiluje riešiť širšiu spoločenskú výzvu: pomôcť spoločnosti využiť prínosy pokročilej AI a zároveň obmedzovať narušenia a vznikajúce riziká pri nasadzovaní čoraz schopnejších systémov. Celkovo majú tieto iniciatívy pomôcť zabezpečiť, aby prechod k AGI bol postupný, iteratívny a demokraticky zrozumiteľný: dať ľuďom a inštitúciám čas prispôsobiť sa a zároveň budovať bezpečnostné opatrenia, mechanizmy zodpovednosti a porozumenie verejnosti potrebné na to, aby výkonná umelá inteligencia zostala v súlade so záujmami ľudí.

Pre spravodlivosť aj bezpečnosť je dôležité jasné informovanie verejnosti o správaní modelu. Pre spravodlivosť je dôležité preto, pretože ľudia musia rozumieť tomu, ako a prečo s nimi AI zaobchádza tak, ako zaobchádza, a musia byť schopní identifikovať, spochybniť a riešiť obavy týkajúce sa spravodlivosti, keď vzniknú. A pre bezpečnosť zase preto, pretože ako sa systémy AI postupne stávajú schopnejšími, ľudia a inštitúcie potrebujú jasnejšie očakávania o tom, ako sa majú správať, aké vyváženia/princípy zohľadňujú a ako možno tieto voľby postupne zlepšovať. Takáto čitateľnosť podporuje odolnosť tým, že poskytuje viac ľuďom niečo konkrétne na preskúmanie, spochybnenie a zlepšenie.

Od prvej verzie v roku 2024 sa špecifikácia modelu výrazne vyvinula, keďže sa dozvedáme viac o preferenciách a potrebách používateľov, rozširujeme ju tak, aby pokrývala väčšie schopnosti a prispôsobovala sa im, a učíme sa z verejnej spätnej väzby o správaní modelov a špecifikácii modelu. V duchu iteratívneho nasadzovania je špecifikácia modelu vyvíjajúcim sa dokumentom, ktorý zahŕňa základné hodnoty aj explicitné, zrozumiteľné pravidlá. Zároveň je spojená s procesom úpravy jednotlivých prvkov, keď sa učíme z nasadenia a spätnej väzby v reálnom svete. Investujeme aj do mechanizmov verejnej spätnej väzby, ako je kolektívne zosúladenie, ktoré majú pomôcť ľudstvu zachovať si kontrolu nad tým, ako sa AI používa a ako sa formuje jej správanie.

Interne nám slúži ako kompas pre zamýšľané správanie a spoločný rámec pre trénovanie, hodnotenie a riadenie. Navonok vytvára verejný referenčný bod, ktorý môžu ľudia využiť na pochopenie nášho prístupu, jeho kritické posúdenie a pomoc pri jeho postupnom zlepšovaní.

Čo obsahuje špecifikácia modelu

Špecifikácia modelu sa skladá z niekoľkých rôznych druhov usmernení pre model. To je zámerné. Rôzne časti správania modelu treba riešiť rôznymi spôsobmi a užitočný verejný dokument musí robiť viac než len uvádzať zoznam pravidiel.

Zámer na vysokej úrovni a verejné záväzky

Špecifikácia modelu sa začína zámerom na vysokej úrovni: jasným vysvetlením toho, čo sa snažíme optimalizovať na úrovni systému a prečo.

Tento úvod objasňuje tri ciele, ako plánujeme napĺňať naše poslanie:

  • Postupne nasadzovať modely, ktoré pomáhajú vývojárom a používateľom
  • Zabrániť tomu, aby naše modely spôsobovali závažnú ujmu používateľom alebo iným
  • Zachovať licenciu OpenAI na prevádzku

Ďalej vysvetľuje, ako v praxi uvažujeme o vyvážení týchto cieľov a ako konkrétne kroky robíme natoľko jasnými, aby podporili podrobnejšie zásady, ktoré nasledujú.

Dôležité je, že tento úvod nie je určený na to, aby bol priamym pokynom pre model. Prinášať úžitok ľudstvu je cieľom OpenAI, nie cieľom, ktorý chceme, aby naše modely sledovali autonómne. Namiesto toho chceme, aby modely dodržiavali reťazec príkazov, ktorý zahŕňa špecifikáciu modelu a príslušné pokyny od OpenAI, vývojárov a používateľov, aj keď niektorí ľudia môžu v konkrétnom prípade s výsledkom nesúhlasiť.

Myslíme si, že toto je správna rovnováha, pretože si ceníme ľudskú autonómiu a intelektuálnu slobodu. Ak by sme trénovali modely, aby rozhodovali, ktoré pokyny poslúchnu na základe nášho pohľadu na to, čo je pre spoločnosť dobré, OpenAI by sa ocitla v pozícii rozhodcu morálky na veľmi širokej úrovni. Napriek tomu je úvod stále dôležitý. Keď nie je jasné, ako uplatniť špecifikáciu modelu, preambula by mala pomôcť túto nejasnosť vyriešiť.

Špecifikácia modelu obsahuje aj verejné záväzky, ktoré idú nad rámec priamo merateľného správania modelu, a týkajú sa zámerov pri trénovaní a obmedzení pri nasadzovaní. Napríklad naše zásady červených línií(otvorí sa v novom okne) zahŕňajú záväzok, že v nasadeniach prvej strany, ako je ChatGPT, nikdy nepoužijeme systémové správy na úmyselné narušenie objektivity(otvorí sa v novom okne) alebo súvisiacich zásad. A Žiadne iné ciele(otvorí sa v novom okne) obsahujú záväzky o tom, že chceme optimalizovať odpovede modelu v prospech používateľa, nie pre príjmy ani pre neprínosný čas strávený v službe.

Reťazec príkazov

Jadrom špecifikácie modelu je reťazec príkazov: rámec na rozhodovanie o tom, ktoré pokyny sa majú uplatniť v danej situácii. Zaoberá sa aj tým, ako by mal model pracovať s neúplnými pokynmi, najmä v agentických prostrediach, kde sa očakáva, že bude samostatne dopĺňať detaily a zároveň starostlivo kontrolovať vedľajšie účinky v reálnom svete.

Základná myšlienka rozhodovania o tom, ktoré pokyny sa majú uplatniť, je jednoduchá. Pokyny môžu pochádzať z rôznych zdrojov, vrátane OpenAI, vývojárov a používateľov. Tieto pokyny môžu byť v konflikte. Reťazec príkazov vysvetľuje, ako by mal model riešiť tieto konflikty.  

Každá zásada špecifikácie modelu a každý pokyn má pridelenú úroveň autority(otvorí sa v novom okne). Model má pokyn uprednostniť znenie aj zámer pokynov s vyššou autoritou, keď dôjde ku konfliktu. Ak používateľ požiada o pomoc s výrobou bomby, model by mal uprednostniť prísne bezpečnostné hranice(otvorí sa v novom okne). Ak používateľ požiada, aby si z neho model uťahoval, model by mal vo všeobecnosti uprednostniť túto žiadosť pred politikou proti zneužívaniu(otvorí sa v novom okne) v špecifikácii modelu s nižšou prioritou.

Táto štruktúra nám umožňuje definovať pomerne malú sadu pravidiel, ktoré nemožno prepísať, popri väčšej sade predvolených nastavení. Takto sa snažíme maximalizovať slobodu používateľov a kontrolu vývojárov v rámci bezpečnostných obmedzení.

  • Pevné pravidlá sú explicitne stanovené hranice, ktoré používatelia ani vývojári nemôžu prepísať (v terminológii špecifikácie modelu ide o pokyny na úrovni „root“ alebo „system“). Sú prevažne zákazové a vyžadujú, aby sa modely vyhýbali správaniu, ktoré by mohlo prispieť ku katastrofickým rizikám, priamej fyzickej ujme, porušovaniu zákonov alebo narušeniu reťazca príkazov. Očakávame, že umelá inteligencia sa stane základnou technológiou pre spoločnosť, podobne ako základná internetová infraštruktúra. Preto zavádzame iba pravidlá, ktoré by mohli obmedziť intelektuálnu slobodu, ak ich považujeme za nevyhnutné pre široké spektrum vývojárov a používateľov, ktorí s ňou budú pracovať. V špecifikácii modelu Zostať v medziach(otvorí sa v novom okne) obsahuje prísne pravidlá, ktoré riešia konkrétne bezpečnostné riziká v reálnom svete, a Princípy pre osoby mladšie ako 18 rokov(otvorí sa v novom okne) pridávajú ďalšie ochranné opatrenia pre používateľov mladších ako 18 rokov.
  • Predvolené nastavenia sú východiskové body, ktoré možno upraviť: správanie asistenta založené na „najlepšom odhade“, keď používateľ alebo vývojár neurčil preferenciu. Používame predvolené nastavenia, aby bolo správanie predvídateľné a kontrolovateľné aj vo veľkom rozsahu, takže ľudia môžu predvídať, čo sa stane, bez toho, aby museli zakaždým písať vlastnú sadu inštrukcií. Predvolené nastavenia zachovávajú možnosť riadenia. Používatelia a vývojári môžu výslovne riadiť tón, hĺbku, formát a dokonca aj uhol pohľadu v rámci bezpečnostných hraníc. Predvolené nastavenia na úrovni usmernení (napríklad tón alebo štýl) sú navrhnuté tak, aby boli implicitne usmerňovateľné. Predvolené nastavenia na úrovni používateľa (napríklad pravdivosť a objektivita) sú základom dôvery a predvídateľnosti a možno ich prepísať iba explicitnými pokynmi. Tie by sa nemali nenápadne posúvať na základe dojmov. Ak používateľ chce iný faktický postoj, explicitný pokyn zabezpečí, že zmena zostane transparentná a zrozumiteľná. Tieto predvolené nastavenia sa odrážajú v Spoločne hľadať pravdu(otvorí sa v novom okne), Odvádzať čo najlepšiu prácu(otvorí sa v novom okne) a Používať primeraný štýl(otvorí sa v novom okne). Zahŕňajú normy týkajúce sa čestnosti a objektivity, vyhýbania sa lichoteniu a interakčných noriem, ako sú priamočiarosť a primeraná vrúcnosť a profesionalita vzhľadom na kontext.

Interpretačné pomôcky: rozhodovacie rubriky a konkrétne príklady

Okrem samotnej hierarchie špecifikácia modelu používa interpretačné pomôcky, ktoré pomáhajú modelom (a ľuďom) uplatňovať ju konzistentne v nejednoznačných oblastiach. Tieto pomôcky zahŕňajú: 

  • Rozhodovacie rubriky, ktoré modelu pomáhajú robiť konzistentné rozhodnutia v nejasných situáciách bez toho, aby predstierali, že existuje jediné mechanické pravidlo. Napríklad usmernenia špecifikácie modelu o riadení vedľajších účinkov(otvorí sa v novom okne) uvádzajú aspekty ako minimalizácia nezvratných akcií, zachovanie primeranosti akcií vzhľadom na cieľ, znižovanie nepríjemných prekvapení a uprednostňovanie reverzibilných prístupov. Tieto aspekty by sa mali vyvažovať s inými cieľmi, ako je rýchle a efektívne dokončenie úlohy.
  • Konkrétne príklady, ktoré ukazujú, ako by sa mal princíp uplatňovať v praxi. Ide o krátke príklady príkazov a odpovedí, ktoré zvyčajne zahŕňajú súladnú aj nesúladnú odpoveď, často pri náročnom príkaze blízko dôležitej hranice rozhodovania. Cieľom nie je simulovať plne realistickú konverzáciu. Ide o to objasniť kľúčový rozdiel a zároveň to urobiť spôsobom, ktorý zároveň demonštruje požadovaný štýl odpovede.

Ponechávame pomerne malý počet príkladov a zameriavame sa na tie najinformatívnejšie. Širšie hodnotiace sady pomáhajú pokryť väčšiu časť dlhého chvosta.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Príklad znázorňujúci zásady intelektuálnej slobody a neodsudzovania z časti špecifikácie Predpokladajte tie najlepšie úmysly(otvorí sa v novom okne).

Čo špecifikácia modelu nie je

Špecifikácia je rozhranie, nie implementácia. Opisuje správanie, ktoré chceme, nie každý detail toho, ako toto správanie vytvárame. Snažíme sa vyhnúť tomu, aby sme ho viazali na implementačné detaily, ako sú interné formáty token alebo presný postup trénovania pre konkrétne správanie, pretože tieto detaily sa môžu zmeniť, aj keď sa požadované správanie nezmení. Primárnym publikom špecifikácie modelu nie je model, ale ľudia: má pomôcť zamestnancom OpenAI, používateľom, vývojárom, výskumníkom a tvorcom politík pochopiť, diskutovať o zamýšľanom správaní a rozhodovať o ňom.

Špecifikácia opisuje aj model, nie celý produkt. Dopĺňajú ju naše pravidlá používania, ktoré stanovujú naše očakávania týkajúce sa toho, ako by ľudia mali používať API a ChatGPT. Systém, s ktorým používatelia interagujú, zahŕňa viac než len samotný model: dôležité sú aj funkcie produktu, ako sú vlastné pokyny a pamäť, monitorovanie, vynucovanie politík a ďalšie vrstvy. Bezpečnosť je oveľa viac než len správanie modelu a veríme v obranu do hĺbky

A špecifikácia nie je úplným opisom celej našej štruktúry trénovania ani každého rozdielu v našich interných zásadách. Cieľom nie je zachytiť každý detail. Ide o to, aby boli najdôležitejšie rozhodnutia týkajúce sa správania zrozumiteľné spôsobom, ktorý je plne v súlade s naším zamýšľaným správaním modelu.

Ako sme dospeli k tejto štruktúre

Prečo uvádzame veci v špecifikácii modelu? 

Existuje niekoľko dôvodov, prečo uviesť v Spec toľko informácií, namiesto predpokladu, že čitateľ – alebo model – vyvodí všetko z niekoľkých všeobecných cieľov.

Po prvé, špecifikácia modelu je nástrojom transparentnosti a zodpovednosti . Je navrhnutý tak, aby podporoval zmysluplnú spätnú väzbu od verejnosti. Jasne stanovený verejný cieľ pomáha ľuďom rozlíšiť, či je určité správanie chybou alebo vlastnosťou. Poskytuje im to stabilný referenčný bod pre kritiku a konkrétnu spätnú väzbu. Preto sme sprístupnili špecifikáciu modelu ako open source(otvorí sa v novom okne) a rozhodli sa iterovať verejne. Od prvého vydania bolo na základe spätnej väzby od verejnosti vykonaných mnoho zmien, pričom táto spätná väzba bola zhromaždená prostredníctvom rôznych mechanizmov vrátane formulárov spätnej väzby, verejnej kritiky a zámerného úsilia o zhromažďovanie demokratických podnetov.

Po druhé, špecifikácia modelu je v rámci OpenAI koordinačný nástroj. Poskytuje ľuďom z oblastí výskumu, produktu, bezpečnosti, politiky, právnych záležitostí, komunikácie a ďalších funkcií spoločný slovník na diskusiu o správaní modelu a mechanizmus na navrhovanie a posudzovanie zmien.

Po tretie, explicitné politiky môžu kompenzovať praktické obmedzenia inteligencie modelu a kontextu runtimu a spraviť správanie predvídateľnejším. Hoci to časom platí čoraz menej, niektoré politiky majú za cieľ kompenzovať nedostatočnú inteligenciu, keď modely nemusia byť schopné spoľahlivo odvodiť správne správanie z princípov vyššej úrovne. Napríklad Buď jasný a priamy(otvorí sa v novom okne) odporúčalo starším modelom, aby ukázali svoj postup predtým, než uvedú odpoveď na náročné problémy, ktoré si vyžadujú výpočty, no dnes sa naše modely toto správanie prirodzene učia prostredníctvom učenia posilňovaním

Iné zásady sa zaoberajú obmedzeným kontextom počas behu: asistent sa môže spoliehať len na to, čo je pozorovateľné v aktuálnej interakcii, a len zriedka pozná úplnú situáciu používateľa, jeho zámer, následné použitie alebo to, aké ochranné opatrenia existujú mimo modelu. V takých prípadoch, aj keď by modely pri dostatočnom výskume a premýšľaní mohli byť schopné určiť správne správanie, konkrétnosť zvyšuje efektivitu a predvídateľnosť – zhŕňa mnohé rozhodnutia založené na úsudku do usmernení, ktoré znižujú variabilitu naprieč podobnými príkazmi a robia správanie zrozumiteľnejším pre používateľov aj výskumníkov.

Napokon, špecifikácia modelu má byť úplným zoznamom všeobecných zásad relevantných pre hodnotenie a meranie. Ak chcete posúdiť, či sa model správa tak, ako bolo zamýšľané, je užitočné mať verejný zoznam hlavných kategórií správania, na ktorých vám záleží.

Nemala by na to pokročilá umelá inteligencia prísť sama?

Je lákavé myslieť si, že dostatočne schopný model by mal byť schopný vyvodiť správne správanie z krátkeho zoznamu cieľov, ako je „buď nápomocný a bezpečný“. Je na tom niečo pravdy. V oblastiach s objektívnymi kritériami úspechu, ako je matematika, môže inteligencia často nahradiť podrobné pravidlá.

Vo všeobecnosti však správanie modelu nie je ako riešenie jednoduchého matematického problému. Modely často fungujú v zložitejších oblastiach, kde neexistuje jedna morálne správna odpoveď, na ktorej by sa všetci zhodli. To, čo znamená, že model je „užitočný a bezpečný“, je napríklad mimoriadne závislé od kontextu a je výsledkom rozhodovania, ktoré je zo svojej podstaty zaťažené hodnotovými súdmi. Samotná inteligencia vám nepovie, aké kompromisy máte robiť, keď ide o etiku a hodnoty. Takže aj keď sa modely zlepšujú v inteligencii, stále musíme pracovať na pochopení a usmerňovaní hodnotových úsudkov a na tom, čo znamená konať „eticky“ v konkrétnom prípade. A väčšina dôvodov na existenciu špecifikácie modelu zostáva relevantná aj vtedy, keď sa modely stanú oveľa schopnejšími. Stále potrebujeme verejne dostupný cieľ, okolo ktorého sa ľudia môžu koordinovať, spôsob, ako vyhodnotiť, či správanie zodpovedá našim zámerom, a mechanizmus na úpravu pravidiel podľa toho, ako sa učíme. Ak je jediným pravidlom „buď nápomocný a bezpečný“, potom neexistuje mechanizmus, ktorým by ľudia mohli diskutovať napríklad o hraniciach obsahu, ktorý by mal model odmietnuť poskytnúť. Tým sa všetky tieto rozhodnutia ponechávajú na modeli.

Ak vôbec niečo, tak s tým, ako sa modely stávajú schopnejšími, viac agentickými a širšie nasadzovanými, náklady na nejednoznačnosť rastú. To robí jasný rámec správania viac dôležitým, nie menej.

Jedna užitočná analógia je rozdiel medzi písanou ústavou a judikatúrou. Hoci písaná ústava môže poskytovať všeobecné zásady aj konkrétne pravidlá, nemôže predvídať všetky možné prípady, ktoré môžu nastať a vyžadovať si jej usmernenie. Aj systémy správy potrebujú interpretačné mechanizmy, objasnenia a jasné rozhodnutia na riešenie neprehľadných prípadov alebo nepredvídaných problémov. Zverejnené pravidlá pomáhajú rôznym zainteresovaným stranám koordinovať sa aj vtedy, keď sa nezhodnú. Obmedzujú zmeny tým, že vyžadujú, aby každá zmena bola jasne uvedená. Špecifikácia modelu má plniť všetky tieto úlohy: byť vyhlásením zásad, verejným rámcom správania a procesom priebežnej zmeny.

Napriek tomu si nemyslíme, že všetky dôležité aspekty správania modelu bude vždy možné zredukovať na explicitné pravidlá. Ako sa systémy stávajú autonómnejšími, spoľahlivosť a dôvera budú čoraz viac závisieť od širších schopností a predispozícií: efektívne komunikovať neistotu, rešpektovať hranice autonómie, vyhýbať sa nepríjemným prekvapeniam, sledovať zámery v priebehu času a uvažovanie o ľudských hodnotách v kontexte.

Ako píšeme a implementujeme špecifikáciu modelu

Byť realisticky ambiciózny

Pri písaní špecifikácie modelu je celé spektrum medzi opisom dnešného skutočného správania modelu so všetkými jeho nedostatkami a opisom ideálneho cieľa vo vzdialenej budúcnosti. Snažíme sa nájsť rovnováhu a zvyčajne sa zameriavame na obdobie približne 0 až 3 mesiace od súčasnosti. Špecifikácia modelu tak často zostáva pred modelom aspoň v niekoľkých oblastiach aktívneho vývoja.

To odráža úlohu špecifikácie modelu ako popisu zamýšľaného správania. Malo by nás to nasmerovať jasným smerom, pričom zostane ukotvené v tom, čo už robíme alebo čo máme konkrétne plány zaviesť v blízkej budúcnosti.

Kto prispieva (a prečo je to dôležité)

Špecifikácia modelu sa vytvára prostredníctvom otvoreného interného procesu. Ktokoľvek v OpenAI ho môže komentovať alebo navrhovať zmeny, a finálne aktualizácie schvaľuje široká skupina medzifunkčných zainteresovaných strán. V praxi desiatky ľudí priamo prispeli textom, a oveľa viac sa ich zapája naprieč výskumom, inžinierstvom, produktom, bezpečnosťou, politikou, právnymi záležitosťami, komunikáciou, globálnymi záležitosťami a ďalšími funkciami. Učíme sa aj z verejných vydaní a spätnej väzby, ktoré pomáhajú overovať tieto rozhodnutia pri reálnom nasadení.

Je to dôležité, pretože správanie modelu, a jeho dôsledky v reálnom svete, sú nesmierne zložité. Nikto nedokáže v hlave obsiahnuť úplný súbor správania, tréningový proces a následné dôsledky, no s mnohými medzifunkčnými prispievateľmi a kontrolórmi môžeme zlepšiť kvalitu a zvýšiť dôveru.

Jedným z príjemných prekvapení bolo, že skutočný konsenzus je často možný – najmä keď sa prinútime presne zapísať kompromisy natoľko, že nezhody sa stanú konkrétnymi.

Špecifikácia modelu tiež nie je písaná vo vákuu. Veľká časť toho, čo sa v ňom napokon ocitne, je súhrnom širšej práce v oblasti správania, bezpečnosti a politík. Veľká časť písania špecifikácie modelu je v skutočnosti preklad: vzatie existujúcej práce a jej zjednodušenie, zjednotenie, lepšie usporiadanie a sprístupnenie bez straty základného zámeru.

Ako identifikujeme medzery a posúvame aktualizácie

Naše produkčné modely zatiaľ úplne neodrážajú špecifikáciu modelu, a to z viacerých dôvodov.

  • Tréning modelu môže zaostávať za aktualizáciami špecifikácie modelu. Opisuje správanie, o ktoré sa usilujeme, takže môže byť pred tým, na čo bol náš najnovší model natrénovaný.
  • Tréning môže neúmyselne naučiť správanie, ktoré nie je v súlade so špecifikáciou modelu. Veľmi sa snažíme tomu predchádzať, a keď sa to stane, považujeme to za závažnú chybu – pracujeme buď na úprave správania, alebo špecifikácie modelu, aby sme ich uviedli do súladu.
  • Trénovanie nikdy nemôže úplne pokryť priestor všetkých možných foriem správania. Skutočné používanie obsahuje dlhý chvost kontextov a okrajových prípadov, ktoré sa prejavia až vo veľkom meradle, a žiadny tréningový proces nemôže pokryť všetko.
  • Zovšeobecnenie sa môže líšiť od toho, čo sme zamýšľali. Model môže počas tréningu vytvárať „správne“ výstupy z nezamýšľaných dôvodov, čo môže viesť k nezamýšľanému správaniu v nových situáciách, ktoré sa líšia od tých, s ktorými sa stretol počas tréningu. Techniky ako deliberatívne zosúladenie pomáhajú, ale nie sú úplným riešením.

Vo všeobecnosti platí, že skutočnosť, že špecifikácia modelu opisuje širokú škálu žiaducich správaní, neznamená, že existuje jediná metóda, ako ich všetky naučiť. Rôzne aspekty správania, ako je dodržiavanie pokynov, bezpečnostné hranice, osobnosť, kalibrované vyjadrenie neistoty a ďalšie, si často vyžadujú odlišné techniky a majú rôzne spôsoby zlyhania. Špecifikácia modelu pomáha uľahčiť pochopenie a kritické posúdenie zamýšľaného správania, ale jej kvalitná implementácia zostáva umením a aktívnou oblasťou výskumu.

Popri tomto príspevku vydávame aj Hodnotenia špecifikácie modelu(otvorí sa v novom okne): súbor hodnotení založený na scenároch, ktorý sa pomocou malého počtu reprezentatívnych príkladov snaží pokryť čo najviac tvrdení v špecifikácii modelu. Pomáha nám to sledovať, kde správanie modelu a špecifikácia modelu nemusia byť v súlade, a pomáha nám to overiť, či modely interpretujú špecifikáciu modelu tak, ako sme zamýšľali. Tieto hodnotenia sú len jednou časťou širšej stratégie hodnotenia, ktorá zahŕňa aj cielenejšie posúdenia naprieč mnohými dimenziami správania vrátane konkrétnych oblastí bezpečnosti, pravdivosti a lichotenia, osobnosti a štýlu a schopností.

Graf súladu špecifikácie modelu podľa sekcií pre modely OpenAI v čase. Podrobnosti o hodnoteniach a ich interpretácii nájdete v príspevku na sprievodnom blogu(otvorí sa v novom okne). Jednoducho veríme, že tieto výsledky odrážajú skutočné a široké zlepšenia v zosúladení modelu v čase. Čiastočne však odrážajú aj malý vplyv spôsobený tým, že staršie modely meriame podľa novších pravidiel.

V praxi väčšina aktualizácií špecifikácie vychádza z opakujúcich sa podnetov:

Čo robí dobrý obsah špecifikácie

Niekoľko zásad dizajnu usmerňuje, ako píšeme a revidujeme špecifikáciu modelu.

  • Prehľad a presnosť. „Buď úprimný“ je dobrá hodnota, ale nie je úplný postup rozhodovania. Špecifikácia modelu by mala vyostrovať nezhody, nie ich skrývať za zmierlivým jazykom. Ak je to praktické, mali by sme výslovne upozorniť na možné konflikty medzi pravidlami a poskytnúť usmernenia alebo príklady, ako ich riešiť. Napríklad Neklam(otvorí sa v novom okne) poukazuje na možný konflikt s Buď srdečný(otvorí sa v novom okne) a vysvetľuje, že asistent by sa mal riadiť normami zdvorilosti, no nemal by zachádzať až k milosrdným lžiam, ktoré by mohli predstavovať lichotenie(otvorí sa v novom okne) a byť v rozpore s najlepším záujmom používateľa.
  • Vecné pravidlá. Čitateľ by mal byť schopný vziať realistický príkaz a vytvoriť odpoveď, o ktorej iný čitateľ rozpozná, že jasne spadá do vymedzených hraníc alebo je mimo nich (aj keď na okrajoch môžu existovať hraničné prípady vyžadujúce úsudok).
  • Príklady, ktoré maximalizujú pomer signálu k šumu. Dobré príklady sú často kľúčové pre vypracovanie kvalitnej aktualizácie špecifikácie. Príklady by mali pomôcť zacieliť na podstatu ťažkostí pri špecifikácii správania modelu, odhaliť zložité konflikty a jasne určiť, ako ich riešiť. Po druhé, mali by sa usilovať byť vzorom požadovaného tónu a štýlu, čo môže byť ťažké vyjadriť v písanom texte.
  • Odolnosť. Snažíme sa vyhýbať príkladom so zbytočnou nejednoznačnosťou alebo zložitosťou, aby hlavný konflikt a zamýšľané riešenie boli jasné.
  • Konzistentnosť a jasná organizácia. Usilujeme sa o to, aby boli pravidlá špecifikácie modelu navzájom úplne konzistentné a v súlade s naším zamýšľaným správaním modelu, a aby bola celková organizácia dokumentu jasná a zrozumiteľná.

Čo je pred nami

Špecifikácia modelu nie je tvrdením, že dokážeme zachytiť všetko podstatné, ani že modely vždy dosiahnu cieľ. Je to tvrdenie, že zamýšľané správanie je natoľko dôležité, aby bolo jasné, uskutočniteľné a upraviteľné.

Tri kritériá úspechu určujú, ako ho rozvíjame.

  • Čitateľnosť. Ľudia v OpenAI aj mimo nej si môžu vytvoriť presné očakávania o správaní a môžu sa odvolať na text, keď ich správanie prekvapí.
  • Akcieschopnosť. Špecifikácia modelu sa dá použiť na navrhovanie hodnotení, diagnostiku incidentov a prijímanie konzistentných produktových rozhodnutí — nielen na vyjadrenie hodnôt.
  • Možnosť revízie. Špecifikácia modelu sa môže vyvíjať, ako sa učíme, bez toho, aby sa z nej stal nestabilný pohyblivý cieľ.

Ako sa modely a produkty vyvíjajú, očakávame, že sa špecifikácia modelu bude rozširovať a spresňovať spolu s novými schopnosťami a kontextmi nasadenia. Naším cieľom je zachovať špecifikáciu správania konzistentnú, testovateľnú a v súlade s naším poslaním zabezpečiť, aby AGI prospievala celému ľudstvu.