Ustvarili smo GPT‑4, najnovejši mejnik v prizadevanjih OpenAI za širjenje globokega učenja. GPT‑4 je velik večmodalni model (sprejema slikovne in besedilne vnose, oddaja izpise besedil), ki, čeprav je v mnogih resničnih scenarijih manj sposoben kot ljudje, kaže uspešnost na človeški ravni po različnih strokovnih in akademskih merilih. Na primer, simulirani odvetniški izpit opravi z rezultatom, ki je med najboljšimi 10% udeležencev; v nasprotju s tem pa GPT‑3.5 rezultat je bil med spodnjih 10 %. Šest mesecev smo GPT‑4 iterativno usklajevali z uporabo lekcij iz našega programa nasprotnega testiranja in ChatGPT, kar je privedlo do naših najboljših rezultatov doslej (čeprav daleč od popolnih) glede dejanskosti, vodljivosti in zavrnitve, da bi šli izven varoval.
V zadnjih dveh letih smo obnovili celoten nabor globokega učenja in skupaj z Azure od temeljev navzgor zasnovali superračunalnik za naše delovne obremenitve. Pred enim letom smo GPT‑3.5 usposobili kot prvi »testni zagon« sistema. Našli in odpravili smo nekaj napak ter izboljšali naše teoretične temelje. Posledično je bil naš postopek usposabljanja GPT‑4 (vsaj za nas!) brez primere stabilen, kar je postal naš prvi velik model, katerega uspešnost usposabljanja smo lahko natančno napovedali vnaprej. Medtem ko nadaljujemo z osredotočanjem na zanesljivo skaliranje, si prizadevamo izpopolniti svojo metodologijo, da bi nam pomagala predvideti in se pripraviti na prihodnje zmogljivosti vedno bolj vnaprej—kar je po našem mnenju ključno za varnost.
Zmožnost vnosa besedila GPT‑4 objavljamo prek ChatGPT in API-ja (s čakalno listo). Da bi pripravili zmogljivost vnosa slik za širšo razpoložljivost, za začetek tesno sodelujemo z enim samim partnerjem(odpre se v novem oknu). Prav tako odprtokodno objavljamo OpenAI Evals(odpre se v novem oknu), naš okvir za avtomatizirano vrednotenje zmogljivosti modelov umetne inteligence, da lahko vsakdo poroča o pomanjkljivostih v naših modelih in pomaga usmerjati nadaljnje izboljšave.
V priložnostnem pogovoru je razlikovanje med GPT‑3.5 in GPT‑4 lahko subtilno. Razlika se pokaže, ko zapletenost naloge doseže zadosten prag—GPT‑4 je bolj zanesljiv, ustvarjalen in sposoben obvladati veliko bolj niansirana navodila kot GPT‑3.5.
Da bi razumeli razliko med obema modeloma, smo testirali na različnih merilih uspešnosti, vključno s simulacijo izpitov, ki so bili prvotno zasnovani za ljudi. Nadaljevali smo z uporabo najnovejših javno dostopnih testov (v primeru olimpijad in vprašanj s prostim odgovorom AP) ali z nakupom izdaj praktičnih izpitov za obdobje 2022–2023. Za te izpite nismo opravili nobenega posebnega usposabljanja. Manjšino težav na izpitih je model opazil med usposabljanjem, vendar verjamemo, da so rezultati reprezentativni—za podrobnosti glejte naše tehnično poročilo(odpre se v novem oknu).
Notranja referenca 1
Prav tako smo GPT‑4 ocenili po tradicionalnih merilih, zasnovanih za modele strojnega učenja. GPT‑4 znatno presega obstoječe velike jezikovne modele, skupaj z večino najsodobnejših (SOTA) modelov, ki lahko vključujejo izdelavo, specifično za merila, ali dodatne protokole usposabljanja:
Številni obstoječi merilniki ML so napisani v angleščini. Da bi dobili začetni občutek sposobnosti v drugih jezikih, smo z Azure Translate prevedli merilo MMLU — nabor 14.000 večizbirnih vprašanj, ki zajemajo 57 predmetov — v različne jezike (glejte Dodatek). V 24 od 26 testiranih jezikov GPT‑4 presega delovanje GPT‑3.5 in drugih LLM-jev v angleščini (Chinchilla, PaLM), tudi za jezike z nizkimi viri, kot so latvijski, valižanski in svahili:
GPT‑4 uporabljamo tudi interno, kar ima velik vpliv na funkcije, kot so podpora, prodaja, zmernost vsebine in programiranje. Uporabljamo ga tudi za pomoč ljudem pri ocenjevanju rezultatov umetne inteligence, začenjamo drugo fazo naše strategije usklajevanja.
GPT‑4 lahko sprejme poziv z besedilom in slikami, kar — vzporedno z nastavitvijo samo za besedilo — uporabniku omogoča, da določi katero koli vizualno ali jezikovno nalogo. Natančneje, ustvarja besedilne rezultate (naravni jezik, koda idr.) na podlagi vnosov, ki so sestavljeni iz vmesnega besedila in slik. V različnih domenah — vključno z dokumenti, ki vsebujejo besedilo in fotografije, diagrame ali posnetke zaslona — GPT‑4 kaže podobne zmogljivosti kot pri vnosih samo z besedilom. Poleg tega ga je mogoče dopolniti s tehnikami preskusnega časa, ki so bile razvite za jezikovne modele samo v besedilu, vključno s spodbudami z nekaj primeri in nizanjem misli(odpre se v novem oknu). Vnosi slik so še vedno v fazi raziskovalnega predogleda in niso javno dostopni.
Uspešnost GPT‑4 si ogledamo tako, da ga ocenimo na ozkem naboru standardnih akademskih meril vida. Vendar te številke ne predstavljajo v celoti obsega njegovih zmogljivosti, saj nenehno odkrivamo nove in vznemirljive naloge, ki jih model lahko obvlada. Načrtujemo, da bomo kmalu objavili nadaljnje analize in številke ocen ter temeljito preučili vpliv tehnik testnega časa.
interna opombaA
Delali smo na vsakem vidiku načrta, opisanega v naši objavi o opredelitvi vedenja umetne inteligence, vključno z vodljivostjo. Namesto klasične osebnosti ChatGPT s fiksno besednostjo, tonom in slogom lahko razvijalci (in kmalu uporabniki ChatGPT) zdaj določijo slog in nalogo svoje umetne inteligence tako, da te smernice opišejo v sporočilu »sistem«. Sistemska sporočila omogočajo uporabnikom API-ja, da bistveno prilagodijo izkušnje svojih uporabnikov v določenih mejah(odpre se v novem oknu). Še naprej bomo tukaj izboljševali (in še posebej vemo, da so sistemska sporočila najlažji način za »jailbreak« trenutnega modela, tj. spoštovanje meja ni popolno), vendar vas spodbujamo, da ga preizkusite in nam sporočite, kaj menite.
Kljub svojim zmožnostim ima GPT‑4 podobne omejitve kot prejšnji modeli GPT. Najpomembneje je, da še vedno ni povsem zanesljiv (»halucinira« dejstva in dela napake pri sklepanju). Pri uporabi rezultatov jezikovnega modela je treba biti zelo previden, zlasti v sobesedilih z visokim tveganjem, pri čemer natančen protokol (kot je človeški pregled, utemeljitev z dodatnim sobesedilom ali popolno izogibanje uporabi v visokotveganih situacijah) ustreza potrebam določenega primera uporabe.
Čeprav so halucinacije še vedno resnična težava, GPT‑4 bistveno zmanjša njihovo pojavnost v primerjavi s prejšnjimi modeli (ki so se sami izboljševali z vsako iteracijo). GPT‑4 dosega 40 % višjo oceno kot naš najnovejši GPT‑3.5 na naših notranjih ocenjevanjih nasprotnih dejstev.
Napredek smo naredili pri zunanjih merilih, kot je TruthfulQA, ki preizkuša sposobnost modela, da loči dejstva od nasprotujoče izbranega niza napačnih izjav. Ta vprašanja so povezana z dejansko napačnimi odgovori, ki so statistično privlačni.
Osnovni model GPT‑4 je pri tej nalogi le nekoliko boljši od GPT‑3.5; vendar po naknadnem usposabljanju RLHF (z uporabo enakega postopka, kot smo ga uporabili pri GPT‑3.5) nastane velika vrzel. Če spodaj preučimo nekaj primerov, se GPT‑4 upira izbiri običajnih izrekov (starega psa ne morete naučiti novih trikov), vendar še vedno lahko spregleda subtilne podrobnosti (Elvis Presley ni bil sin igralca).
Model lahko vsebuje različne pristranskosti v svojih izhodih—pri teh smo napredovali, vendar je še vedno treba storiti več. V naši nedavni objavi na blogu si prizadevamo, da imajo sistemi umetne inteligence, ki jih gradimo, razumno privzeto vedenje, ki odraža širok spekter vrednot uporabnikov, omogočajo prilagajanje teh sistemov v širokih mejah in pridobijo javni vnos o tem, kakšne bi te meje morale biti.
GPT‑4 na splošno nima znanja o dogodkih, ki so se zgodili po tem, ko se je večina njegovih podatkov ločila (september 2021), in se ne uči iz svojih izkušenj. Včasih lahko pri sklepanju naredi preproste napake, ki se ne zdijo skladne s kompetenco na toliko domenah, ali pa je preveč lahkoveren pri sprejemanju očitnih napačnih izjav uporabnika. Včasih lahko pri težkih problemih odpove na enak način kot ljudje, na primer z vnašanjem varnostnih ranljivosti v kodo, ki jo ustvari.
GPT‑4 se lahko pri svojih napovedih samozavestno zmoti in ne poskrbi za dvojno preverjanje dela, kadar je verjetno, da bo naredil napako. Zanimivo je, da je osnovni predhodno usposobljeni model zelo kalibriran (njegova napovedana samozavest v odgovor se na splošno ujema z verjetnostjo, da je pravilen). Vendar se s trenutnim postopkom po usposabljanju kalibracija zmanjša.
Na GPT‑4 smo delali iteracije, da bi bil varnejši in bolj usklajen že od začetka usposabljanja, s prizadevanji, ki vključujejo izbiro in filtriranje podatkov za predhodno usposabljanje, ocenjevanja in sodelovanje s strokovnjaki, izboljšave varnosti modela ter spremljanje in uveljavljanje.
GPT‑4 predstavlja podobna tveganja kot prejšnji modeli, kot so ustvarjanje škodljivih nasvetov, hroščate kode ali netočne informacije. Vendar pa dodatne zmogljivosti GPT‑4 vodijo do novih tveganj. Da bi razumeli obseg teh tveganj, smo angažirali več kot 50 strokovnjakov iz domen, kot so tveganja usklajevanja umetne inteligence, kibernetska varnost, bioriziki, zaupanje in varnost ter mednarodna varnost, da bi model preizkusili z nasprotnimi testi. Njihove ugotovitve so nam posebej omogočile, da preizkusimo vedenje modela na področjih z visokim tveganjem, ki zahtevajo strokovno znanje za ocenjevanje. Povratne informacije in podatki teh strokovnjakov so prispevali k našim blažitvam in izboljšavam modela; na primer, zbrali smo dodatne podatke za izboljšanje sposobnosti GPT‑4, da zavrne zahteve za sintezo nevarnih kemikalij.
GPT‑4 vključuje dodaten signal varnostnega nagrajevanja med usposabljanjem RLHF za zmanjšanje škodljivih izhodov (kot je opredeljeno v naših smernicah za uporabo(odpre se v novem oknu)) z usposabljanjem modela, da zavrne zahteve za takšno vsebino. Nagrado zagotavlja GPT‑4 klasifikator brez predhodnega učenja, ki ocenjuje varnostne meje in slog izpolnjevanja na varnostno povezanih pozivih. Da bi preprečili, da bi model zavrnil veljavne zahteve, zbiramo raznolik nabor podatkov iz različnih virov (npr. označeni proizvodni podatki, človeško mrežno združevanje, pozivi, ustvarjeni z modelom) in uporabimo signal varnostnega nagrajevanja (s pozitivno ali negativno vrednostjo) za dovoljene in nedovoljene kategorije.
Naši ukrepi so bistveno izboljšali številne varnostne lastnosti GPT‑4 v primerjavi z GPT‑3.5. Zmanjšali smo težnjo modela, da se odziva na zahteve za nedovoljeno vsebino, za 82 % v primerjavi z GPT‑3.5, GPT‑4 pa se na občutljive zahteve (npr. zdravniški nasvet in samopoškodovanje) v skladu z našimi pravilniki odziva 29 % pogosteje.
Na splošno naši posegi na ravni modela povečujejo težavnost vzbujanja slabega vedenja, vendar je to še vedno mogoče. Poleg tega še vedno obstajajo »jailbreaki« za ustvarjanje vsebine, ki predstavlja kršitev naših smernic za uporabo. Ko se bo "tveganje na token" sistemov umetne inteligence povečalo, bo postalo ključno, da dosežemo izjemno visoko stopnjo zanesljivosti pri teh posegih; za zdaj je pomembno te omejitve dopolniti z varnostnimi tehnikami ob uvajanju, kot je spremljanje zlorab.
Modeli GPT‑4 in njihovi nasledniki imajo potencial, da pomembno vplivajo na družbo tako na koristen kot na škodljiv način. Sodelujemo z zunanjimi raziskovalci, da bi izboljšali naše razumevanje in ocenjevanje morebitnih vplivov ter oblikovali ocene za nevarne zmogljivosti, ki se lahko pojavijo v prihodnjih sistemih. Kmalu bomo delili več svojih razmišljanj o možnih družbenih in gospodarskih vplivih GPT‑4 in drugih sistemih umetne inteligence.
Tako kot prejšnji modeli GPT je bil tudi osnovni model GPT‑4 usposobljen za napovedovanje naslednje besede v dokumentu in je bil usposobljen z uporabo javno dostopnih podatkov (kot so internetni podatki) ter podatkov, ki smo jih licencirali. Podatki so spletni korpus, ki vključuje pravilne in napačne rešitve matematičnih problemov, šibko in močno sklepanje, samoprotislovne in dosledne izjave ter predstavlja veliko različnih ideologij in idej.
Tako se lahko osnovni model, ob pozivu z vprašanjem, odzove na različne načine, ki so lahko daleč od uporabnikovega namena. Da bi ga uskladili z uporabnikovim namenom znotraj varoval, natančno prilagodimo vedenje modela z uporabo okrepljenega učenja s človeškimi povratnimi informacijami (RLHF).
Upoštevajte, da zmogljivosti modela izvirajo predvsem iz procesa predhodnega usposabljanja—RLHF ne izboljša uspešnosti na izpitu (brez aktivnega napora ga dejansko poslabša). Vendar upravljanje modela izhaja iz postopka po usposabljanju – osnovni model zahteva inženiring poziva, da bi sploh vedel, da mora odgovarjati na vprašanja.
Velik poudarek projekta GPT‑4 je bila izgradnja sklopa globokega učenja, ki se predvidljivo prilagaja. Glavni utemeljitev je, da pri zelo velikih serijah usposabljanja, kot je GPT‑4, ni mogoče opraviti obsežnih nastavitev za posamezen model. Razvili smo infrastrukturo in optimizacijo, ki imata zelo predvidljivo obnašanje na različnih ravneh. Da bi preverili to razširljivost, smo vnaprej natančno napovedali končno izgubo GPT‑4 na naši notranji kodni bazi (ki ni del nabora za usposabljanje) z ekstrapolacijo iz modelov, usposobljenih po isti metodologiji, vendar z uporabo 10.000-krat manj računalniške moči:
Zdaj, ko lahko natančno napovemo metriko, ki jo optimiziramo med usposabljanjem (izgubo), začenjamo razvijati metodologijo za napovedovanje bolj razumljivih metrik. Na primer, uspešno smo napovedali stopnjo uspešnosti na podmnožici nabora podatkov HumanEval(odpre se v novem oknu), pri čemer smo ekstrapolirali iz modelov s 1.000-krat manj izračunov:
Nekatere zmogljivosti je še vedno težko napovedati. Na primer, nagrada za inverzno skaliranje je bila tekmovanje za iskanje metrike, ki se poslabša, ko se izračun modela povečuje, zanemarjanje preteklosti(odpre se v novem oknu) pa je bilo eno od zmagovalnih meril. Tako kot pri drugem nedavnem rezultatu(odpre se v novem oknu) GPT‑4 obrne trend:
Verjamemo, da je natančno napovedovanje prihodnjih zmogljivosti strojnega učenja pomemben del varnosti, ki mu glede na njegov potencialni vpliv ni namenjeno dovolj pozornosti (čeprav nas spodbujajo prizadevanja več institucij). Povečujemo svoja prizadevanja za razvoj metod, ki bodo družbi zagotavljale boljše smernice o tem, kaj lahko pričakujemo od prihodnjih sistemov, in upamo, da bo to postal skupni cilj na tem področju.
Odprtokodno objavljamo OpenAI Evals(odpre se v novem oknu), naš programski okvir za ustvarjanje in izvajanje meril za vrednotenje modelov, kot je GPT‑4, medtem ko pregledujemo njihovo zmogljivost vzorec za vzorcem. Evals uporabljamo za usmerjanje razvoja naših modelov (tako za prepoznavanje pomanjkljivosti kot za preprečevanje regresij), naši uporabniki pa ga lahko uporabijo za sledenje zmogljivosti med različicami modelov (ki bodo zdaj redno izhajale) in razvijajoče se integracije izdelkov. Na primer, Stripe je uporabil Evals za dopolnitev njihovih človeških ocen, da bi izmeril natančnost svojega dokumentacijskega orodja, ki ga poganja GPT.
Ker je koda odprtokodna, Evals podpira pisanje novih razredov za izvajanje logike ocenjevanja po meri(odpre se v novem oknu). Po naših izkušnjah pa številna merila sledijo eni od nekaj »predlog«, zato smo vključili tudi predloge, ki so bile najbolj uporabne znotraj podjetja (vključno s predlogo za »modelno ocenjene evalvacije«(odpre se v novem oknu) – ugotovili smo, da je GPT‑4 presenetljivo sposoben preveriti svoje delo). Na splošno bo najučinkovitejši način za izdelavo novega evala(odpre se v novem oknu) ustvariti eno od teh predlog skupaj z zagotavljanjem podatkov. Navdušeni smo, da vidimo, kaj lahko drugi ustvarijo s temi predlogami in z Evalsom na splošno.
Upamo, da bo Evals postal sredstvo za deljenje in množično zbiranje primerjalnih meril, ki bodo predstavljala čim širši nabor načinov odpovedi in zahtevnih nalog. Kot zgled za sledenje smo ustvarili eval logične sestavljanjke(odpre se v novem oknu), ki vsebuje deset pozivov, kjer GPT‑4 ne uspe. Evals je združljiv tudi z izvajanjem obstoječih meril; kot primer smo vključili več notebookov(odpre se v novem oknu), ki izvajajo akademska merila in nekaj različic integracije (majhnih podskupin) CoQA(odpre se v novem oknu).
Vabimo vse, da uporabijo Evals za preizkušanje naših modelov in predložite najbolj zanimive primere. Verjamemo, da bo Evals sestavni del procesa uporabe in nadgradnje naših modelov, zato pozdravljamo neposredne prispevke, vprašanja in povratne informacije(odpre se v novem oknu).
Naročniki ChatGPT Plus bodo dostop do GPT‑4 dobili na chatgpt.com(odpre se v novem oknu) in z zgornjo omejitvijo uporabe. Natančno zgornjo omejitev uporabe bomo prilagodili glede na povpraševanje in zmogljivost sistema v praksi, vendar pričakujemo, da bomo imeli resne omejitve zmogljivosti (čeprav bomo v prihodnjih mesecih povečali in optimizirali).
Glede na vzorce prometa, ki jih opazujemo, bomo morda uvedli novo raven naročnine za večjo količino uporabe GPT‑4; prav tako upamo, da bomo nekoč ponudili nekaj brezplačnih poizvedb GPT‑4, da bi ga lahko preizkusili tudi tisti brez naročnine.
Za pridobitev dostopa do API-ja GPT‑4 (ki uporablja isti API ChatCompletions(odpre se v novem oknu) kot gpt-3.5-turbo), se, prosim, prijavite na našo čakalno listo. Danes bomo začeli vabiti nekatere razvijalce in se postopoma povečevali, da bomo zmogljivosti uravnotežili s povpraševanjem. Če ste raziskovalec, ki preučuje družbeni vpliv AI ali vprašanja usklajevanja AI, lahko zaprosite tudi za subvencioniran dostop prek našega dostopnega programa za raziskovalce.
Ko boste imeli dostop, boste lahko modelu GPT‑4 (slika vnosi so še vedno v omejeno alfi) pošiljali samo besedilne zahteve, da ga bomo samodejno posodobili na naš priporočeni stabilni model, ko bomo sčasoma izdelovali nove različice (trenutno različico lahko dodate tako, da pokličete GPT‑4‑0314, podpirali pa jo bomo do 14. junija). Cena je 0,03 USD za 1k pozivnih tokenov in 0,06 USD za 1k tokenov za dokončanje. Privzete omejitve hitrosti so 40k tokenov na minuto in 200 zahtevkov na minuto.
GPT‑4 ima dolžino sobesedila 8.192 tokenov. Prav tako zagotavljamo omejeno dostopnost do naše različice z 32.768 sobesedilom (približno 50 strani besedila), GPT‑4‑32k, ki se bo sčasoma samodejno posodabljala (trenutna različica GPT‑4‑32k‑0314, podprta do 14. junija). Cena je 0,06 USD za 1K pozivnih tokenov in 0,12 USD za 1K tokenov za dokončanje. Še vedno izboljšujemo kakovost modela za dolgo sobesedilo, zato bi bili veseli povratnih informacij o tem, kako se obnese v vašem primeru uporabe. Zahteve za motorje 8K in 32K obdelujemo z različnimi hitrostmi glede na zmogljivost, zato lahko dostop do njih prejmete ob različnih časih.
Veselimo se, da bo GPT‑4 postal dragoceno orodje za izboljšanje življenja ljudi z omogočanjem delovanja številnih aplikacij. Še vedno je veliko dela, ki ga je treba opraviti, in veselimo se izboljšanja tega modela s skupnimi prizadevanji za izgradnjo skupnosti, da ga razišče in prispeva k modelu.
Za več: Preberite članek(odpre se v novem oknu) / Oglejte si sistemsko kartico(odpre se v novem oknu) / Preizkusite ChatGPT Plus(odpre se v novem oknu) / Preizkusite v Playground(odpre se v novem oknu) / Ponovno si oglejte predstavitveni prenos v živo(odpre se v novem oknu) / Prispevajte k OpenAI Evals(odpre se v novem oknu)
Primer vprašanj MMLU, prevedenih v druge jezike. Upoštevajte, da uporabljamo dosledne izbire tokenov (A–D):
Opombe
- A
To merilo ocenjujemo z uporabo spodbujanja Chain-Of-Thought s 4 primeri iz nabora usposabljanja v sobesedilu. Poseben poziv je bil nastavljen na naboru potrjevanja.
Reference
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Dodatna analiza je na voljo v dokumentu(odpre se v novem oknu).


