Vytvořili jsme GPT‑4, nejnovější milník v úsilí OpenAI o škálování hlubokého učení. GPT‑4 je velký multimodální model (přijímá obrázkové a textové vstupy, vydává textové výstupy), který, i když je v mnoha reálných scénářích méně schopný než lidé, vykazuje výkon na úrovni člověka na různých profesionálních a akademických srovnávacích testech. Například složí simulovanou advokátní zkoušku se skóre kolem horních 10 % účastníků testu; naproti tomu GPT‑3.5 skóre bylo kolem dolních 10 %. Strávili jsme 6 měsíců iterativním slaďováním GPT‑4 pomocí lekcí z našeho kontradiktorního testovacího programu a ChatGPT, což vedlo k našim nejlepším výsledkům (i když zdaleka ne dokonalým) v oblasti faktuality, ovladatelnosti a odmítnutí překročit stanovené hranice.
Během posledních dvou let jsme přestavěli celý náš stack pro hluboké učení a společně s Azure jsme od základů navrhli superpočítač pro naše pracovní zatížení. Před rokem jsme trénovali GPT‑3.5 jako první „testovací běh“ systému. Našli jsme a opravili několik chyb a vylepšili naše teoretické základy. Výsledkem bylo, že naše trénování GPT‑4 bylo (alespoň pro nás) bezprecedentně stabilní a stalo se naším prvním velkým modelem, jehož výkon při trénování jsme dokázali předem přesně předpovědět. V rámci našeho soustavného zaměření na spolehlivé škálování se snažíme zdokonalovat naši metodiku, která nám pomáhá předvídat a připravovat se na budoucí schopnosti s čím dál větším předstihem – což považujeme za zásadní pro bezpečnost.
Uvolňujeme možnost textového vstupu GPT‑4 prostřednictvím ChatGPT a API (s pořadníkem). Abychom připravili funkci obrázkového vstupu pro širší dostupnost, úzce spolupracujeme nejprve s jedním partnerem(otevře se v novém okně). Také zveřejňujeme jako open-source OpenAI Evals(otevře se v novém okně), náš rámec pro automatizované hodnocení výkonu modelů AI, aby kdokoli mohl nahlásit nedostatky v našich modelech a pomoci tak řídit další vylepšení.
Při běžné konverzaci může být rozdíl mezi GPT‑3.5 a GPT‑4 nepatrný. Rozdíl se projeví, když složitost úkolu dosáhne dostatečného prahu – GPT‑4 je spolehlivější, kreativnější a schopnější zvládnout mnohem jemnější pokyny než GPT‑3.5.
Abychom pochopili rozdíl mezi oběma modely, testovali jsme je na různých srovnávacích testech, včetně simulace zkoušek, které byly původně navrženy pro lidi. Postupovali jsme tak, že jsme použili nejnovější veřejně dostupné testy (v případě olympiád a otázek s volnou odpovědí AP) nebo jsme zakoupili vydání cvičných zkoušek z let 2022–2023. Pro tyto zkoušky jsme neabsolvovali žádný speciální trénink. Menšina problémů v testech byla modelem viděna během trénování, ale věříme, že výsledky jsou reprezentativní – podrobnosti najdete v naší technické zprávě(otevře se v novém okně).
interní odkaz 1
Také jsme hodnotili GPT‑4 na tradičních srovnávacích testech určených pro modely strojového učení. GPT‑4 výrazně překonává stávající velké jazykové modely, stejně jako většinu nejmodernějších modelů (SOTA), které mohou zahrnovat vytváření specifických srovnávacích testů nebo další protokoly trénování:
Mnoho stávajících srovnávacích testů ML je napsáno v angličtině. Abychom získali počáteční představu o schopnostech v jiných jazycích, přeložili jsme srovnávací test MMLU – sadu 14 000 problémů s výběrem odpovědí zahrnujících 57 předmětů – do různých jazyků pomocí Azure Translate (viz příloha). Ve 24 z 26 testovaných jazyků překonává GPT‑4 výkon v angličtině GPT‑3.5 a dalších LLM (Chinchilla, PaLM), včetně jazyků s omezenými zdroji, jako je lotyština, velština a svahilština:
Také interně používáme GPT‑4, což má velký dopad na funkce, jako je podpora, prodej, moderování obsahu a programování. Také ho používáme k tomu, abychom pomohli lidem s hodnocením výstupů umělé inteligence, čímž zahajujeme druhou fázi naší strategie zarovnání.
GPT‑4 může přijmout prompt obsahující text a obrázky, což – podobně jako nastavení pouze pro text – umožňuje uživateli určit jakýkoli vizuální nebo jazykový úkol. Konkrétně vytváří textové výstupy (přirozený jazyk, kód atd.) na základě vstupů, které se skládají z proložených textů a obrázků. V celé řadě domén – včetně dokumentů s textem a fotografiemi, diagramů nebo snímků obrazovky – vykazuje GPT‑4 podobné schopnosti jako u textových vstupů. Dále jej lze rozšířit o techniky testovacího času, které byly vyvinuty pro jazykové modely pouze s textem, včetně výzvy s několika příklady a řetězce myšlenek(otevře se v novém okně). Obrázkové vstupy jsou stále ve fázi výzkumného náhledu a nejsou veřejně dostupné.
Představujeme výkon GPT‑4 na základě jeho hodnocení v úzké sadě standardních akademických vizuálních srovnávacích testů. Nicméně, tato čísla plně neodrážejí rozsah jeho schopností, protože neustále objevujeme nové a vzrušující úkoly, které model dokáže zvládnout. Brzy plánujeme zveřejnit další analýzy a hodnotící čísla, stejně jako důkladné prozkoumání vlivu technik použitých během testování.
interní poznámka pod čarouA
Pracujeme na každém aspektu plánu popsaného v našem příspěvku o definování chování AI, včetně ovladatelnosti. Místo klasické osobnosti ChatGPT s pevnou mírou podrobnosti, tónem a stylem mohou vývojáři (a brzy i uživatelé ChatGPT) nyní určit styl a úkol své AI popisem těchto pokynů v „systémové“ zprávě. Systémové zprávy umožňují uživatelům API výrazně přizpůsobit prostředí jejich uživatelů v rámci určitých mezí(otevře se v novém okně). Budeme pokračovat ve vylepšování (a zejména víme, že systémové zprávy jsou nejjednodušším způsobem, jak „prolomit“ současný model, tj. dodržení hranic není dokonalé), ale doporučujeme ti, abys to vyzkoušel a dal nám vědět, co si o tom myslíš.
Navzdory svým schopnostem má GPT‑4 podobná omezení jako dřívější modely GPT. Nejdůležitější je, že stále není zcela spolehlivý („halucinuje“ fakta a dělá chyby v odůvodňování). Je třeba věnovat velkou pozornost při používání výstupů jazykových modelů, zejména v kontextech s vysokými riziky. Přesný protokol (např. lidská kontrola, podložení dalším kontextem nebo úplné vyloučení použití s vysokými riziky) by měl odpovídat potřebám konkrétního případu použití.
Ačkoli je to stále skutečný problém, GPT‑4 významně snižuje halucinace ve srovnání s předchozími modely (které se samy zlepšovaly s každou iterací). GPT‑4 má o 40% bodů vyšší skóre než náš nejnovější GPT‑3.5 při našem interním hodnocení fakticity:
Dosáhli jsme pokroku v externích srovnávacích testech, jako je TruthfulQA, který testuje schopnost modelu oddělit fakta od souboru nesprávných tvrzení vybraných s nepřátelským úmyslem. Tyto otázky jsou spárovány s fakticky nesprávnými odpověďmi, které jsou statisticky přitažlivé.
Základní model GPT‑4 je v tomto úkolu jen o něco lepší než GPT‑3.5; nicméně po trénování RLHF (použití stejného procesu, jaký jsme použili u GPT‑3.5) však existuje velký rozdíl. Při zkoumání některých níže uvedených příkladů GPT‑4 odolává výběru běžných výroků (starého psa novým kouskům nenaučíš), stále však může přehlédnout jemné detaily (Elvis Presley nebyl synem herce).
Model může mít ve svých výstupech různá zkreslení – v tomto ohledu jsme udělali pokrok, ale stále je na čem pracovat. Podle našeho nedávného příspěvku na blogu se snažíme, aby systémy umělé inteligence, které vytváříme, měly přiměřené výchozí chování, které odráží širokou škálu uživatelských hodnot, umožňovaly přizpůsobení těchto systémů v širokých mezích a získávaly veřejný vstup o tom, jaké by tyto hranice měly být.
GPT‑4 obecně postrádá znalosti o událostech, které se odehrály po datu, kdy byla většina jeho dat ukončena (září 2021), a neučí se ze svých zkušeností. Někdy může udělat jednoduché chyby v odůvodňování, které se nezdají být v souladu s kompetencemi v tolika doménách, nebo být příliš důvěřivý při přijímání zjevně nepravdivých tvrzení od uživatele. A někdy může selhat při řešení obtížných problémů stejně jako lidé, například zavedením bezpečnostních zranitelností do kódu, který vytváří.
GPT‑4 může být také sebevědomě nesprávný ve svých předpovědích a nedbá na to, aby své výsledky dvakrát zkontroloval, když je pravděpodobné, že udělá chybu. Zajímavé je, že základní předtrénovaný model je vysoce kalibrovaný (jeho předpovězená důvěra v odpověď obecně odpovídá pravděpodobnosti, že je správná). Nicméně, prostřednictvím našeho současného procesu po trénování, se kalibrace snižuje.
Od začátku trénování jsme iterovali na GPT‑4, abychom ho učinili bezpečnějším a lépe sladěným, přičemž úsilí zahrnovalo výběr a filtrování předtréninkových dat, hodnocení a zapojení odborníků, vylepšení bezpečnosti modelu a monitorování a prosazování.
GPT‑4 představuje podobná rizika jako předchozí modely, jako je vytváření škodlivých rad, chybný kód nebo nepřesné informace. Další schopnosti systému GPT‑4 však vedou k novým rizikovým plochám. Abychom pochopili rozsah těchto rizik, zapojili jsme více než 50 odborníků z domén, jako jsou rizika sladění umělé inteligence, kybernetická bezpečnost, biologická rizika, důvěra a bezpečnost a mezinárodní bezpečnost, aby model testovali v nepřátelském prostředí. Jejich zjištění nám konkrétně povolila testovat chování modelů ve vysoce rizikových oblastech, které vyžadují odborné znalosti k vyhodnocení. Zpětná vazba a data od těchto odborníků byla zahrnuta do našich opatření a vylepšení modelu; například jsme shromáždili další data, abychom zlepšili schopnost GPT‑4 odmítat žádosti o syntézu nebezpečných chemikálií.
GPT‑4 zahrnuje další bezpečnostní signál odměny během trénování RLHF, aby se snížily škodlivé výstupy (jak je definováno v našich pokynech pro použití(otevře se v novém okně)) tím, že model trénuje k odmítání žádostí o takový obsah. Odměnu poskytuje klasifikátor GPT‑4 pro zero-shot učení, který posuzuje bezpečnostní hranice a styl dokončení na základě promptů souvisejících s bezpečností. Aby model neodmítal platné požadavky, shromažďujeme různorodou datovou sadu z různých zdrojů (např. označená výrobní data, lidský red-teaming, prompty vytvořené modelem) a aplikujeme signál bezpečnostní odměny (s kladnou nebo zápornou hodnotou) na povolené i nepovolené kategorie.
Naše opatření výrazně zlepšila mnoho bezpečnostních vlastností GPT‑4 ve srovnání s GPT‑3.5. Snížili jsme tendenci modelu reagovat na požadavky o nepovolený obsah o 82 % ve srovnání s GPT‑3.5 a GPT‑4 reaguje na citlivé požadavky (např. lékařské rady a sebepoškozování) v souladu s našimi zásadami o 29 % častěji.
Celkově naše zásahy na úrovni modelu zvyšují obtížnost vyvolání špatného chování, ale stále je to možné. Kromě toho stále existují „jailbreaky“ pro generování obsahu, které porušují naše pokyny pro používání. Jak se zvyšuje „riziko na token“ systémů umělé inteligence, bude klíčové dosáhnout extrémně vysoké spolehlivosti těchto zásahů; prozatím je důležité doplnit tato omezení bezpečnostními technikami při nasazení, jako je monitorování zneužití.
GPT‑4 a nástupnické modely mají potenciál významně ovlivnit společnost jak prospěšným, tak škodlivým způsobem. Spolupracujeme s externími výzkumníky, abychom zlepšili naše chápání a hodnocení potenciálních dopadů a vytvořili hodnocení nebezpečných schopností, které se mohou objevit v budoucích systémech. Brzy se s tebou podělíme o další informace o našich úvahách o potenciálních sociálních a ekonomických dopadech GPT‑4 a dalších systémech umělé inteligence.
Stejně jako předchozí modely GPT byl základní model GPT‑4 natrénován, aby předpovídal další slovo v dokumentu, a byl natrénován pomocí veřejně dostupných dat (jako jsou internetová data) a dat, která jsme licencovali. Data jsou webovým korpusem, který zahrnuje správná a nesprávná řešení matematických problémů, slabé a silné odůvodňování, protichůdná a konzistentní prohlášení a představuje širokou škálu ideologií a myšlenek.
Když je tedy položen dotaz, základní model může reagovat mnoha různými způsoby, které mohou být daleko od záměru uživatele. Abychom to sladili se záměrem uživatele v rámci mantinelů, doladíme chování modelu pomocí posilovací výuky s lidskou zpětnou vazbou (RLHF).
Všimni si, že schopnosti modelu pocházejí především z trénování – RLHF nezlepšuje výkon zkoušky (bez aktivního úsilí jej ve skutečnosti zhoršuje). Řízení modelu však vychází z procesu po trénování – základní model vyžaduje okamžité technické zásahy, aby vůbec věděl, že má na otázky odpovídat.
Velká část projektu GPT‑4 se soustředila na vytvoření stacku pro hluboké učení, který se předvídatelně škáluje. Hlavním odůvodněním je, že u velmi rozsáhlých trénování, jako je GPT‑4, není možné provádět rozsáhlé ladění specifické pro daný model. Vyvinuli jsme infrastrukturu a optimalizaci, které mají velmi předvídatelné chování napříč různými měřítky. Abychom ověřili tuto škálovatelnost, přesně jsme předpověděli konečnou ztrátu GPT‑4 na naší interní kódové základně (která není součástí trénovací sady) extrapolací z modelů trénovaných stejnou metodikou, ale s použitím 10 000x méně výpočetního výkonu:
Teď, když dokážeme přesně předpovídat metriku, kterou optimalizujeme během trénování (ztráta), začínáme vyvíjet metodiku pro předpovídání srozumitelnějších metrik. Například jsme úspěšně předpověděli úspěšnost na podmnožině datové sady HumanEval(otevře se v novém okně), extrapolací z modelů s 1 000x menším výpočetním výkonem:
Některé schopnosti je stále obtížné předpovědět. Například soutěž Inverse Scaling Prize byla zaměřena na nalezení metriky, která se zhoršuje se zvyšováním výpočetního výkonu modelu, a zanedbávání zpětného pohledu(otevře se v novém okně) bylo jedním z vítězů. Stejně jako u jiného nedávného výsledku,(otevře se v novém okně) GPT‑4 obrací trend:
Věříme, že přesné předpovídání budoucích schopností strojového učení je důležitou součástí bezpečnosti, které se vzhledem k jejímu potenciálnímu dopadu nevěnuje dostatečná pozornost (ačkoli nás povzbudily snahy několika institucí). Zintenzivňujeme naše úsilí o vývoj metod, které společnosti poskytnou lepší vedení ohledně toho, co očekávat od budoucích systémů, a doufáme, že se to stane společným cílem v oboru.
Zveřejňujeme jako open-source OpenAI Evals(otevře se v novém okně), náš softwarový rámec pro vytváření a spouštění srovnávacích testů pro hodnocení modelů, jako je GPT‑4, při zkoumání jejich výkonu vzorek po vzorku. Používáme Evals k řízení vývoje našich modelů (jak pro identifikaci nedostatků, tak pro prevenci regresí) a naši uživatelé jej mohou použít ke sledování výkonu napříč verzemi modelů (které budou nyní pravidelně vydávány) a pro rozvíjející se integrace produktů. Například Stripe použil Evals jako doplněk k lidským hodnocením pro měření přesnosti jejich dokumentačního nástroje založeného na GPT.
Protože je kód celý open-source, Evals má podporu pro psaní nových tříd pro implementaci vlastní logiky hodnocení(otevře se v novém okně). Podle našich vlastních zkušeností však řada srovnávacích testů sleduje jednu z mála „šablon“, takže jsme zahrnuli také šablony(otevře se v novém okně), které byly interně nejužitečnější (včetně šablony pro „modelově hodnocené evaluace“ – zjistili jsme, že GPT‑4 je překvapivě schopný zkontrolovat svou vlastní práci). Obecně nejúčinnějším způsobem, jak vytvořit nový eval(otevře se v novém okně), bude vytvořit instanci jedné z těchto šablon a poskytnout data. Těšíme se, až uvidíme, co s těmito šablonami a obecněji s Evals dokáží vytvořit ostatní.
Doufáme, že se Evals stane prostředkem pro sdílení a crowdsourcing srovnávacích testů, které budou představovat co nejširší sadu způsobů selhání a obtížných úkolů. Jako příklad k následování jsme vytvořili Eval logických hádanek(otevře se v novém okně), který obsahuje deset promptů, kde GPT‑4 selhává. Evals je také kompatibilní s implementací stávajících srovnávacích testů; jako příklad jsme zahrnuli několik sešitů(otevře se v novém okně) implementujících akademické srovnávací testy a několik variant integrace (malé podmnožiny) CoQA(otevře se v novém okně).
Zveme všechny, aby použili Evals k otestování našich modelů a odeslali ty nejzajímavější příklady. Věříme, že Evals bude nedílnou součástí procesu používání a budování našich modelů, a vítáme přímé příspěvky, otázky a zpětnou vazbu(otevře se v novém okně).
Předplatitelé ChatGPT Plus získají přístup k GPT‑4 na chatgpt.com(otevře se v novém okně) s omezením používání. Přesné omezení používání budeme upravovat podle poptávky a výkonu systému v praxi, ale očekáváme, že budeme mít značně omezenou kapacitu (i když v nadcházejících měsících budeme rozšiřovat a optimalizovat).
V závislosti na vzorcích provozu, které vidíme, můžeme zavést novou úroveň předplatného pro použití GPT‑4 s vyšším objemem; také doufáme, že v určitém okamžiku nabídneme určité množství bezplatných dotazů GPT‑4, aby si to mohli vyzkoušet i ti, kdo nemají předplatné.
Abys získal přístup k rozhraní API GPT‑4 (které používá stejné rozhraní ChatCompletions API(otevře se v novém okně) jako gpt-3.5-turbo), zaregistruj se do našeho pořadníku. Dnes začneme zvát některé vývojáře a postupně budeme navyšovat jejich počet, abychom vyvážili kapacitu s poptávkou. Pokud jsi výzkumný pracovník studující společenský dopad umělé inteligence nebo problémy s jejím sladěním, můžeš také požádat o dotovaný přístup prostřednictvím našeho Programu přístupu pro výzkumné pracovníky.
Jakmile máš přístup, můžeš zadávat pouze textové požadavky do modelu GPT‑4 (obrázkové vstupy jsou stále v omezené alfa verzi), který budeme automaticky aktualizovat na náš doporučený stabilní model, jak budeme vytvářet nové verze (aktuální verzi můžeš připnout voláním GPT‑4‑0314, které budeme podporovat do 14. června). Cena je stanovena na 0,03 USD za 1 k tokenů prompt a 0,06 USD za 1 k tokenů dokončení. Výchozí limity jsou 40 tisíc tokenů za minutu a 200 požadavků za minutu.
gpt-4 má délku kontextu 8192 tokenů. Poskytujeme také omezený přístup k naší 32 768kontextové (asi 50 stran textu) verzi GPT‑4‑32k, která bude v průběhu času také automaticky aktualizována (aktuální verze GPT‑4‑32k‑0314, podporována také do 14. června). Cena je stanovena na 0,06 USD za 1000 tokenů prompt a 0,12 USD za 1000 tokenů dokončení. Stále zlepšujeme kvalitu modelu pro dlouhý kontext a rádi bychom získali zpětnou vazbu o tom, jak funguje ve tvém případě použití. Zpracováváme žádosti o motory 8K a 32K různou rychlostí podle kapacity, takže k nim můžeš získat přístup v různých časech.
Těšíme se, že se GPT‑4 stane cenným nástrojem pro zlepšování života lidí tím, že bude pohánět mnoho aplikací. Stále je před námi spousta práce a těšíme se, že tento model vylepšíme prostřednictvím kolektivního úsilí komunity, která na něm bude stavět, ho prozkoumávat a přispívat k němu.
Více: Přečti si článek(otevře se v novém okně) / Zobraz kartu systému(otevře se v novém okně) / Vyzkoušej ChatGPT Plus(otevře se v novém okně) / Vyzkoušej v Playgroundu(otevře se v novém okně) / Znovu se podívej na živý přenos z předvádění(otevře se v novém okně) / Přispěj k OpenAI Evals(otevře se v novém okně)
Příklad otázek MMLU, přeložených do jiných jazyků. Všimni si, že používáme konzistentní tokeny výběru (A–D):
Poznámky pod čarou
- A
Tento srovnávací test hodnotíme pomocí promptování řetězce myšlenek se 4 příklady z trénovacího souboru v kontextu. Konkrétní prompt byl vyladěn na validační sadě.
Reference
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Další analýza je k dispozici v článku(otevře se v novém okně).


