Vytvorili sme GPT‑4, najnovší míľnik v rámci úsilia spoločnosti OpenAI o rozšírenie hlbokého učenia. GPT‑4 je veľký multimodálny model (prijímajúci obrazové/textové vstupy a produkujúci textové výstupy), ktorý (aj keď je v mnohých reálnych scenároch menej schopný ako ľudia) vykazuje výkon na úrovni človeka vzhľadom na rôzne profesionálne a akademické štandardy. Napríklad úspešne absolvuje simulovanú advokátsku skúšku so skóre okolo horných 10 % najlepších účastníkov testu; naopak, skóre modelu GPT‑3.5 sa pohybovalo okolo spodných 10 %. Strávili sme 6 mesiacov iteračným zosúlaďovaním modelu GPT‑4 pomocou lekcií z nášho kontradiktórneho testovacieho programu, ako aj ChatGPT, čo viedlo k našim najlepším výsledkom (aj keď stále majú ďaleko od dokonalosti) v oblasti faktickej správnosti, ovládateľnosti a odmietania prekročiť stanovené hranice.
Počas uplynulých dvoch rokov sme prebudovali celý náš stack pre hlboké učenie a so spoločnosťou Azure sme od základov navrhli superpočítač pre našu pracovnú záťaž. Pred rokom sme vyškolili GPT‑3.5 ako prvý „testovací cyklus“ systému. Našli a opravili sme niekoľko chýb a vylepšili naše teoretické základy. Výsledkom bolo, že náš tréningový cyklus modelu GPT‑4 bol (aspoň pre nás!) bezprecedentne stabilný a stal sa naším prvým veľkým modelom, ktorého tréningový výkon sme dokázali presne predpovedať vopred. Keďže sa aj naďalej zameriavame na spoľahlivé škálovanie, snažíme sa zdokonaliť našu metodiku, ktorá nám pomôže predvídať a pripraviť sa na budúce funkcie s čoraz väčším predstihom – čo považujeme za kľúčové z hľadiska bezpečnosti.
Uvoľňujeme schopnosť textového vstupu GPT‑4 prostredníctvom ChatGPT a rozhrania API (s poradovníkom). Aby sme pripravili funkciu obrázkového vstupu pre širšiu dostupnosť, na začiatok úzko spolupracujeme s jedným partnerom(otvorí sa v novom okne). Taktiež sprístupňujeme ako open-source OpenAI Evals(otvorí sa v novom okne), náš rámec pre automatizované hodnotenie výkonnosti modelov AI, aby mohol ktokoľvek nahlásiť nedostatky v našich modeloch a pomôcť nám priniesť ďalšie vylepšenia.
V neformálnej konverzácii môže byť rozdiel medzi verziou GPT‑3.5 a GPT‑4 jemný. Rozdiel sa prejaví, keď zložitosť úlohy dosiahne dostatočný prah – GPT‑4 je spoľahlivejší, kreatívnejší a schopnejší zvládnuť oveľa sofistikovanejšie pokyny ako GPT‑3.5.
Aby sme pochopili rozdiel medzi týmito dvoma modelmi, testovali sme ich z hľadiska rôznych referenčných hodnôt vrátane simulácie skúšok, ktoré boli pôvodne navrhnuté pre ľudí. Postupovali sme tak, že sme použili najnovšie verejne dostupné testy (v prípade olympiád a otázok s otvorenými odpoveďami AP) alebo sme zakúpili vydania cvičných testov z rokov 2022 – 2023. Na tieto skúšky sme neabsolvovali žiadny špecifický tréning. Menšiu časť problémov v skúškach model videl počas tréningu, ale veríme, že výsledky sú reprezentatívne – podrobnosti nájdete v našej technickej správe(otvorí sa v novom okne).
interná referencia 1
Taktiež sme model GPT‑4 hodnotili podľa tradičných referenčných hodnôt určených pre modely strojového učenia. GPT‑4 výrazne prekonáva existujúce veľké jazykové modely, ako aj väčšinu najmodernejších (state-of-the-art alebo SOTA) modelov, ktoré môžu zahŕňať špecifické úpravy pre referenčné hodnoty alebo dodatočné tréningové protokoly:
Mnohé existujúce referenčné hodnoty ML sú napísané v angličtine. Aby ste získali počiatočný prehľad o schopnostiach v iných jazykoch, preložili sme referenčnú hodnotu MMLU – súbor 14 000 úloh s výberom viacerých možností pokrývajúci 57 predmetov – do rôznych jazykov pomocou služby Azure Translate (pozri prílohu). V 24 z 26 testovaných jazykoch GPT‑4 prekonáva výkon v anglickom jazyku GPT‑3.5 a iných LLM (Chinchilla, PaLM) vrátane jazykov s nízkym počtom zdrojov, ako sú lotyština, waleština a svahilčina:
Model GPT‑4 sme tiež používali interne, čo má veľký vplyv na funkcie ako podpora, predaj, moderovanie obsahu a programovanie. Taktiež ho používame na pomoc ľuďom pri hodnotení výstupov AI, čím začíname druhú fázu našej stratégie zosúladenia.
GPT‑4 môže prijať príkaz obsahujúci text a obrázky, ktorý – podobne ako nastavenie iba pre text – umožňuje používateľovi špecifikovať akúkoľvek vizuálnu alebo jazykovú úlohu. Konkrétne generuje textové výstupy (prirodzený jazyk, kód atď.) na základe vstupov pozostávajúcich z kombinácie textu a obrázkov. V rôznych oblastiach – vrátane dokumentov s textom a fotografiami, diagramov alebo snímok obrazovky – GPT‑4 vykazuje podobné schopnosti ako pri textových vstupoch. Okrem toho sa dá rozšíriť o techniky testovacieho času, ktoré boli vyvinuté pre výhradne textové jazykové modely, vrátane výziev na niekoľko príkladov a reťazenie myšlienok(otvorí sa v novom okne). Obrázkové vstupy sú stále vo fáze výskumnej ukážky a nie sú verejne dostupné.
Zobrazujeme si ukážku výkonnosti modelu GPT‑4 tým, že ho hodnotíme na úzkom súbore štandardných akademických referenčných hodnôt pre víziu. Tieto čísla však úplne nezodpovedajú rozsahu jeho funkcií, pretože neustále objavujeme nové a vzrušujúce úlohy, ktoré je model schopný zvládnuť. Plánujeme čoskoro zverejniť ďalšie analýzy a číselné údaje hodnotenia, ako aj dôkladné preskúmanie účinku techník počas testovania.
interná poznámka pod čiarouA
Pracovali sme na každom aspekte tarify načrtnutej v našom príspevku o definovaní správania AI vrátane schopnosti riadenia. Namiesto klasickej osobnosti ChatGPT s fixnou výrečnosťou, tónom a štýlom môžu vývojári (a čoskoro aj používatelia modelu ChatGPT) teraz určiť štýl a úlohu AI tak, že opíšu tieto pokyny v „systémovej“ správe. Systémové správy umožňujú používateľom rozhraní API výrazne prispôsobiť skúsenosti svojich používateľov v rámci určitých hraníc(otvorí sa v novom okne). Aj v tejto oblasti sa budeme ďalej zlepšovať (a najmä vieme, že systémové správy sú najjednoduchším spôsobom, ako „jailbreaknúť“ súčasný model, t.j. dodržiavanie hraníc nie je dokonalé), ale odporúčame vám, aby ste si to vyskúšali a dali nám vedieť, čo si o tom myslíte.
Napriek svojim schopnostiam má GPT‑4 podobné obmedzenia ako predchádzajúce modely GPT. Najdôležitejšie je, že stále nie je úplne spoľahlivý („halucinuje“ fakty a robí chyby v uvažovaní). Pri používaní výstupov jazykového modelu, najmä v kontextoch s vysokým rizikom, by sa mala venovať veľká pozornosť presnému protokolu (ako je napríklad ľudská kontrola, podloženie dodatočným kontextom alebo úplné odmietnutie použitia pri vysokých rizikách), ktorý zodpovedá potrebám konkrétneho prípadu použitia.
Aj keď je to stále skutočný problém, GPT‑4 výrazne menej halucinuje v porovnaní s predchádzajúcimi modelmi (ktoré sa samy zlepšujú s každou iteráciou). GPT‑4 dosahuje o 40 % vyššie skóre ako náš najnovší GPT‑3.5 v našich interných hodnoteniach faktickej správnosti v nepriaznivých situáciách:
Dosiahli sme pokrok v externých porovnávacích testoch, ako je TruthfulQA, ktorý testuje schopnosť modelu oddeliť fakty od súboru nesprávnych tvrdení vybraných so škodlivým úmyslom. Tieto otázky sú spárované s fakticky nesprávnymi odpoveďami, ktoré sú štatisticky príťažlivé.
Základný model GPT‑4 túto úlohu zvláda len o niečo lepšie ako GPT‑3.5; avšak po potréningovom procese RLHF (použitím rovnakého postupu, aký sme použili pri verzii GPT‑3.5) vzniká veľký rozdiel. Pri skúmaní niektorých príkladov nižšie GPT‑4 odoláva výberu bežných výrokov (starého psa novým trikom nenaučíš), stále mu však môžu unikať jemné detaily (Elvis Presley nebol synom herca).
Model môže mať vo svojich výstupoch rôzne predsudky – v tomto smere sme dosiahli pokrok, ale stále je čo zlepšovať. Podľa nášho nedávneho blogového príspevku sa snažíme, aby systémy AI, ktoré vytvárame, mali primerané predvolené správanie, ktoré odráža širokú škálu hodnôt používateľov, umožňovali prispôsobenie týchto systémov v širokom rámci a získavali verejný názor na to, aký by tento rámec mal byť.
Modelu GPT‑4 vo všeobecnosti chýbajú znalosti o udalostiach, ktoré nastali po tom, ako sa väčšina jeho údajov prerušila (september 2021), a neučí sa z vlastných skúseností. Niekedy môže robiť jednoduché chyby v uvažovaní, ktoré sú zdanlivo v rozpore s kompetenciami v rôznych oblastiach, alebo je príliš dôverčivý pri prijímaní zjavne nepravdivých tvrdení od používateľa. A niekedy môže zlyhať pri ťažkých problémoch rovnako ako ľudia, napríklad pri zavádzaní bezpečnostných zraniteľností do kódu, ktorý vytvára.
GPT‑4 sa tiež môže vo svojich predpovediach s istotou mýliť a nedbá na opätovnú kontrolu práce, keď je pravdepodobné, že urobí chybu. Je zaujímavé, že základný predtrénovaný model je vysoko kalibrovaný (jeho predpokladaná dôvera v odpoveď sa vo všeobecnosti zhoduje s pravdepodobnosťou, že je správna). Prostredníctvom nášho súčasného potréningového procesu sa však kalibrácia znižuje.
Na modeli GPT‑4 sme opakovane pracovali, aby bol bezpečnejší a lepšie zosúladený už od začiatku tréningu, pričom sme sa zamerali na výber a filtrovanie údajov na predtréning, hodnotenia a zapojenie odborníkov, zlepšenie bezpečnosti modelu, ako aj monitorovanie a presadzovanie.
GPT‑4 predstavuje podobné riziká ako predchádzajúce modely, napríklad generovanie škodlivých rád, chybného kódu či nepresných informácií. Dodatočné funkcie modelu GPT‑4 však vedú k novým rizikovým oblastiam. Aby sme pochopili rozsah týchto rizík, zapojili sme viac ako 50 odborníkov z oblastí ako riziká zosúladenia AI, kybernetická bezpečnosť, bioriziká, dôvera a bezpečnosť či medzinárodné zabezpečenie, aby model testovali v nepriaznivých podmienkach. Ich zistenia nám konkrétne povolili otestovať správanie modelu v mimoriadne rizikových oblastiach, ktoré vyžadujú odborné znalosti na vyhodnotenie. Pripomienky a údaje od týchto odborníkov prispeli k našim opatreniam a vylepšeniam modelu; napríklad sme zhromaždili ďalšie údaje na zlepšenie schopnosti modelu GPT‑4 odmietať požiadavky na syntetizáciu nebezpečných chemikálií.
GPT‑4 zahŕňa dodatočný signál bezpečnostnej odmeny počas tréningu RLHF na zníženie škodlivých výstupov (ako je definované v našich pokynoch na používanie(otvorí sa v novom okne)), ktorý model trénuje tak, aby odmietal žiadosti o takýto obsah. Odmenu poskytuje klasifikátor GPT‑4 s nulovým nastavením, ktorý posudzuje bezpečnostné hranice a štýl dokončenia na bezpečnostných príkazoch. Aby model neodmietal platné žiadosti, zhromažďujeme rôznorodý súbor údajov z rôznych zdrojov (napr. označené výrobné údaje, ľudská simulácia nepriaznivej situácie, príkazy generované modelom) a aplikujeme signál bezpečnostnej odmeny (s kladnou alebo zápornou hodnotou) na povolené aj nepovolené kategórie.
Naše opatrenia výrazne zlepšili mnohé bezpečnostné vlastnosti modelu GPT‑4 v porovnaní s verziou GPT‑3.5. Znížili sme tendenciu modelu reagovať na žiadosti o zakázaný obsah o 82 % v porovnaní s verziou GPT‑3.5 a GPT‑4 reaguje na citlivé požiadavky (napr. lekárske poradenstvo a sebapoškodzovanie) v súlade s našimi pravidlami o 29 % častejšie.
Celkovo naše zásahy na úrovni modelu komplikujú vznik zlého správania, ale stále je to možné. Okrem toho stále existujú „jailbreaky“ s cieľom generovať obsah, ktorý porušuje naše pokyny na používanie. Keďže „riziko na jeden token“ systémov AI sa zvyšuje, bude rozhodujúce dosiahnuť extrémne vysokú mieru spoľahlivosti týchto zásahov; zatiaľ je dôležité doplniť tieto obmedzenia bezpečnostnými technikami pri nasadení, ako je monitorovanie zneužitia.
GPT‑4 a nasledujúce modely majú potenciál významne ovplyvniť spoločnosť v pozitívnom aj negatívnom zmysle slova. Spolupracujeme s externými výskumníkmi, aby sme zlepšili spôsob, akým chápeme a hodnotíme potenciálne vplyvy, a tiež aby sme vytvorili hodnotenia pre nebezpečné funkcie, ktoré sa môžu objaviť v budúcich systémoch. Čoskoro sa podelíme o viac našich úvah o potenciálnych sociálnych a ekonomických dopadoch modelu GPT‑4 a iných systémov AI.
Rovnako ako predchádzajúce modely GPT, aj základný model GPT‑4 bol trénovaný na predpovedanie nasledujúceho slova v dokumente a bol trénovaný pomocou verejne dostupných údajov (napríklad internetových údajov), ako aj údajov, ktoré sme licencovali. Údaje predstavujú webový korpus údajov, ktorý zahŕňa správne a nesprávne riešenia matematických príkladov, slabé a silné uvažovanie, sebakontradikčné a konzistentné tvrdenia a predstavuje pestrú škálu ideológií a myšlienok.
Keď dostane základný model príkaz s otázkou, môže odpovedať rôznymi spôsobmi, ktoré môžu byť vzdialené od pôvodného zámeru používateľa. Aby sme ich zosúladili so zámerom používateľa v rámci ochranných opatrení, doladíme správanie modelu pomocou učenia posilňovaním s ľudskými pripomienkami (RLHF).
Upozorňujeme, že schopnosti modelu pochádzajú predovšetkým z predtréningového procesu – RLHF nezlepšuje výkon na skúškach (bez aktívneho úsilia ho v skutočnosti zhoršuje). Riadenie modelu však pochádza z potréningového procesu – základný model vyžaduje prompt engineering, aby vôbec vedel, že má odpovedať na otázky.
Hlavným zameraním projektu GPT‑4 bolo vytvorenie hlbokého učenia, ktoré sa predvídateľne škáluje. Hlavným dôvodom je, že pri veľmi veľkých tréningoch, ako napríklad GPT‑4, nie je možné vykonať rozsiahle ladenie špecifické pre model. Vyvinuli sme infraštruktúru a optimalizáciu, ktoré majú veľmi predvídateľné správanie na viacerých úrovniach. Aby sme túto škálovateľnosť overili, presne sme vopred predpovedali konečnú stratu modelu GPT‑4 na našej internej kódovej základni (ktorá nie je súčasťou tréningovej súpravy) extrapoláciou z modelov trénovaných rovnakou metodikou, ale s použitím 10 000x nižšieho výpočtového výkonu:
Keďže už dokážeme presne predpovedať metriku, ktorú optimalizujeme počas tréningu (strata), začíname vyvíjať metodiku na predpovedanie zrozumiteľnejších metrík. Napríklad sme úspešne predpovedali mieru úspešnosti na podmnožine súboru údajov HumanEval(otvorí sa v novom okne), pričom sme ich extrapolovali z modelov s 1 000x menším výpočtovým výkonom:
Niektoré funkcie sú stále ťažko predvídateľné. Napríklad Inverse Scaling Prize bola súťažou o objavenie metriky, ktorá sa zhoršuje so zvyšovaním výpočtového výkonu modelu, a jedným z víťazov bolo zanedbávanie spätného pohľadu(otvorí sa v novom okne). Rovnako ako pri ďalšom nedávnom výsledku,(otvorí sa v novom okne) GPT‑4 obracia tento trend:
Veríme, že presné predpovedanie budúcich schopností strojového učenia je dôležitou súčasťou bezpečnosti, ktorej sa vzhľadom na jej potenciálny vplyv nevenuje dostatočná pozornosť (hoci nás povzbudili snahy viacerých inštitúcií). Zintenzívňujeme naše úsilie v oblasti vývoja metód, ktoré spoločnosti poskytnú lepšie usmernenia o tom, čo možno očakávať od budúcich systémov, a dúfame, že sa to stane spoločným cieľom v tejto oblasti.
Open-sourcujeme OpenAI Evals(otvorí sa v novom okne), náš softvérový rámec na vytváranie a spúšťanie porovnávacích hodnôt na hodnotenie modelov ako GPT‑4, pričom kontrolujeme ich výkonnosť vzorku po vzorke. Hodnotenia používame na usmernenie vývoja našich modelov (identifikácia nedostatkov a prevencia regresií) a naši používatelia ho môžu použiť na sledovanie výkonu naprieč verziami modelov (ktoré budú teraz pravidelne vychádzať) a na vývoj integrácií produktov. Napríklad Stripe použil hodnotenia na doplnenie svojich ľudských hodnotení na meranie presnosti ich dokumentačného nástroja poháňaného modelom GPT.
Pretože celý kód je open-source, hodnotenia podporujú písanie nových tried na implementáciu vlastnej hodnotiacej logiky(otvorí sa v novom okne). Podľa našich vlastných skúseností však mnohé referenčné hodnoty sledujú jednu z niekoľkých „šablón“, takže sme zahrnuli aj šablóny(otvorí sa v novom okne), ktoré boli interne najužitočnejšie (vrátane šablóny pre „modelové hodnotenia“ – zistili sme, že GPT‑4 prekvapivo dokáže kontrolovať svoju vlastnú prácu). Vo všeobecnosti najefektívnejším spôsobom, ako vytvoriť nové hodnotenie(otvorí sa v novom okne), bude doloženie jednej z týchto šablón spolu s poskytnutím údajov. Tešíme sa, že uvidíme, čo môžu ostatní vytvoriť pomocou týchto šablón a všeobecne s hodnoteniami.
Dúfame, že hodnotenia sa stanú nástrojom na zdieľanie a crowdsourcing referenčných hodnôt, ktoré budú predstavovať čo najširší súbor spôsobov zlyhaní a náročných úloh. Ako príklad hodný nasledovania sme vytvorili hodnotenie logické hádanky(otvorí sa v novom okne), ktoré obsahuje desať príkazov, pri ktorých GPT‑4 zlyháva. Hodnotenia sú tiež kompatibilné s implementáciou existujúcich referenčných hodnôt; ako príklad sme zaradili niekoľko zápisníkov(otvorí sa v novom okne) implementujúcich akademické referenčné hodnoty a niekoľko variácií integrácie (malých podskupín) CoQA(otvorí sa v novom okne).
Pozývame všetkých, aby použili hodnotenia na testovanie našich modelov a poslali nám najzaujímavejšie príklady. Veríme, že hodnotenia budú neoddeliteľnou súčasťou procesu používania a budovania našich modelov a vítame priame príspevky, otázky a pripomienky(otvorí sa v novom okne).
Predplatitelia ChatGPT Plus získajú prístup k GPT‑4 na lokalite chatgpt.com(otvorí sa v novom okne) s limitom používania. Presný limit používania budeme upravovať v závislosti od dopytu a výkonu systému v praxi, ale očakávame, že kapacita bude výrazne obmedzená (aj keď v nasledujúcich mesiacoch ju budeme zvyšovať a optimalizovať).
V závislosti od vzorcov návštevnosti, ktoré pozorujeme, môžeme zaviesť novú úroveň predplatného pre vyšší objem používania GPT‑4; taktiež dúfame, že v istom okamihu ponúkneme určitý počet bezplatných dotazov na GPT‑4, aby si ho mohli vyskúšať aj tí, ktorí nemajú predplatné.
Ak chcete získať prístup k rozhraniu API GPT‑4 (ktoré používa rovnaké rozhranie ChatCompletions API(otvorí sa v novom okne) ako gpt-3.5-turbo), zaregistrujte sa do nášho poradovníka. Dnes začneme pozývať niektorých vývojárov a postupne zvyšovať počet, aby sme vyvážili kapacitu s dopytom. Ak ste výskumný pracovník, ktorý študuje spoločenský vplyv AI alebo problémy súvisiace so zosúladením AI, môžete tiež požiadať o dotovaný prístup prostredníctvom nášho Programu prístupu pre výskumníkov.
Keď získate prístup, môžete zadávať textové požiadavky na model GPT‑4 (obrázkové vstupy sú stále v obmedzenej verzii alfa), ktorý automaticky aktualizujeme na náš odporúčaný stabilný model, keď postupne vytvoríme nové verzie (aktuálnu verziu môžete zistiť vyvolaním verzie gpt-4-0314, ktorú budeme podporovať do 14. júna). Cena je 0,03 USD za 1k príkazových tokenov a 0,06 USD za 1k dokončovacích tokenov. Predvolené limity sú 40 000 tokenov za minútu a 200 požiadaviek za minútu.
GPT‑4 má kontextovú dĺžku 8 192 tokenov. Poskytujeme tiež obmedzený prístup k našej 32 768-kontextovej (asi 50 strán textu) verzii GPT‑4‑32k, ktorá bude tiež časom automaticky aktualizovaná (aktuálna verzia GPT‑4‑32k‑0314, podporovaná aj do 14. júna). Cena je 0,06 USD za 1k príkazových tokenov a 0,12 USD za 1k dokončovacích tokenov. Stále zlepšujeme kvalitu modelu pre dlhý kontext a radi by sme uvítali pripomienky o tom, ako funguje pre váš prípad použitia. Žiadosti o 8K a 32K motory spracovávame rôznou rýchlosťou na základe kapacity, takže k nim môžete získať prístup v rôznych časoch.
Tešíme sa, že sa GPT‑4 stane cenným nástrojom na zlepšovanie životov ľudí tým, že bude poháňať mnohé aplikácie. Stále nás ešte čaká veľa práce a tešíme sa na zlepšenie tohto modelu prostredníctvom kolektívneho úsilia komunity, ktorá na ňom stavia, skúma ho a prispieva k nemu.
Ďalšie informácie: Prečítajte si článok(otvorí sa v novom okne)/Prezrite si systémovú kartu(otvorí sa v novom okne)/Vyskúšajte si ChatGPT Plus(otvorí sa v novom okne)/Vyskúšajte si to v Playgrounde(otvorí sa v novom okne)/Znova si pozrite ukážkový stream naživo(otvorí sa v novom okne)/Prispejte k OpenAI Evals(otvorí sa v novom okne)
Príklad otázok týkajúcich sa MMLU preložených do iných jazykov. Všimnite si, že používame konzistentné výberové tokeny (A – D):
Poznámky pod čiarou
- A
Túto referenčnú hodnotu vyhodnocujeme pomocou príkazu s reťazením myšlienok so 4 príkladmi z tréningovej súpravy v kontexte. Konkrétny príkaz bol doladený na overovacej súprave.
Referencie
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Ďalšia analýza je k dispozícii v dokumente(otvorí sa v novom okne).


