Stvorili smo GPT‑4, najnoviju prekretnicu u naporima OpenAI-a da se poboljša duboko učenje. GPT‑4 veliki je multimodalni model (prihvaća unose slike i teksta, daje tekstualni izlaz) koji, iako je manje sposoban od ljudi u mnogim stvarnim scenarijima, prema raznim profesionalnim i akademskim referentnim vrijednostima (benchmarkovima) pokazuje performanse na ljudskoj razini. Primjerice, model prolazi simulirani pravosudni ispit s ocjenom među najboljih 10 % ispitanika; nasuprot tome, kod GPT‑3.5, rezultat je bio među najlošijih 10 %. Proveli smo 6 mjeseci iterativno usklađujući GPT‑4 koristeći lekcije iz našeg programa kontradiktornog testiranja, kao i iz ChatGPT‑a, što je rezultiralo našim najboljim rezultatima do sada (iako daleko od savršenih) u točnosti, usmjerivosti i odbijanju izlaska izvan zadanih okvira.
Tijekom protekle dvije godine obnovili smo cijeli naš sustav dubokog učenja i za naše potrebe zajedno s Azureom dizajnirali superračunalo od temelja. Prije godinu dana radili smo obuku modela GPT‑3.5 kao prvu "probnu verziju" sustava. Pronašli smo i ispravili neke greške te poboljšali naše teorijske osnove. Kao rezultat toga, naša obuka GPT‑4 modela bila je (barem za nas) bez presedana stabilna, postajući naš prvi veliki model čije smo performanse obuke uspjeli točno predvidjeti unaprijed. Dok nastavimo s fokusom na pouzdano skaliranje, cilj nam je usavršiti našu metodologiju kako bismo mogli predvidjeti i pripremiti se za buduće mogućnosti što više unaprijed — nešto što smatramo ključnim za sigurnost sustava.
Objavljujemo mogućnost upisa teksta GPT‑4 putem ChatGPT‑a i API-ja (s popisom čekanja). Kako bismo pripremili mogućnost unosa slike za širu dostupnost, za početak usko surađujemo s jednim partnerom(otvara se u novom prozoru). Također otvaramo izvorni kôd OpenAI Evals(otvara se u novom prozoru), našeg okvira za automatiziranu procjenu performansi AI modela, kako bismo omogućili svima da prijave nedostatke u našim modelima i pomognu u usmjeravanju daljnjih poboljšanja.
U ležernom razgovoru, razlika između GPT‑3.5 i GPT‑4 može biti suptilna. Razlika se očituje kada složenost zadatka dosegne određeni prag — GPT‑4 je pouzdaniji, kreativniji i sposoban je nositi se s uputama koje imaju više nijansi bolje od GPT‑3.5.
Kako bismo razumjeli razliku između dvaju modela, testirali smo ih na raznim referentnim mjerilima, uključujući simulaciju ispita koji su izvorno dizajnirani za ljude. Nastavili smo koristeći najnovije javno dostupne ispite/testove (u slučaju natjecanja (tzv. "olimpijada" i AP pitanja s otvorenim odgovorima) ili kupnjom izdanja vježbenih ispita za 2022.–2023. Nismo proveli nikakvu specifičnu obuku za ove ispite. Manjinu problema na ispitima model je vidio tijekom obuke, ali vjerujemo da su rezultati reprezentativni — za pojedinosti pogledajte naše tehničko izvješće(otvara se u novom prozoru).
Interna referenca 1
GPT‑4 smo također smo ocijenili na tradicionalnim mjerilima dizajniranim za modele strojnog učenja. GPT‑4 znatno nadmašuje postojeće velike jezične modele, kao i većinu najsuvremenijih (SOTA) modela koji mogu uključivati izradu specifičnu za referentne vrijednosti ili dodatne protokole obuke.
Mnoge postojeće referentne vrijednosti ML-a napisana su na engleskom jeziku. Kako bismo dobili početni osjećaj za sposobnosti na drugim jezicima, preveli smo MMLU mjerilo — skup od 14.000 problema s višestrukim izborom koji obuhvaća 57 predmeta — na različite jezike koristeći Azure Translate (pogledajte Dodatak). U 24 od 26 testiranih jezika, GPT‑4 nadmašuje performanse na engleskom jeziku modela GPT‑3.5 i drugih LLM-ova (Chinchilla, PaLM), uključujući jezike s malom količinom resursa kao što su latvijski, velški i svahili:
GPT‑4 smo također koristili interno, s velikim utjecajem na funkcije poput podrške, prodaje, moderiranja sadržaja i programiranja. Također ga koristimo kako bismo pomogli ljudima u procjeni izlaznih podataka umjetne inteligencije, započinjući drugu fazu naše strategije usklađivanja.
GPT‑4 može prihvatiti unos u obliku teksta i slika, što — paralelno s postavkom samo za tekst — omogućuje korisniku da specificira bilo koji zadatak vezan uz vizualno prepoznavanje ili jezik. Konkretno, generira tekstualne izlaze (prirodni jezik, kôd itd.) s obzirom na upise koji se sastoje od isprepletenog teksta i slika. U raznim domenama — uključujući dokumente s tekstom i fotografijama, dijagrame ili snimke zaslona — GPT‑4 pokazuje slične sposobnosti kao i na isključivo tekstualnim unosima. Nadalje, može se poboljšati tehnikama za vrijeme testiranja koje su razvijene za jezične modele koji funkcioniraju isključivo s tekstom, uključujući unose s nekoliko primjera i lančano razmišljanje(otvara se u novom prozoru). Unosi slika još uvijek su u fazi istraživačkog pretprikaza i nisu javno dostupni.
Pretprikaz performansi GPT‑4 postižemo ocjenjujući ih na uskom skupu standardnih akademskih mjerila za vizualne zadatke. Međutim, ti brojevi ne predstavljaju u potpunosti opseg njegovih mogućnosti, jer stalno otkrivamo nove i uzbudljive zadatke kojima se model može baviti. Plan je uskoro objaviti daljnje analize i evaluacijske brojke, kao i temeljitu istragu učinka tehnika primijenjenih tijekom testiranja.
interna bilješkaA
Poradili smo na svakom aspektu plana opisanog u našoj objavi o definiranju ponašanja AI, uključujući usmjerivost. Umjesto klasične osobnosti ChatGPT‑a koja ima fiksnu rječitost, ton i stil, razvojni inženjeri (a uskoro i korisnici ChatGPT‑a) sada mogu odrediti stil i zadatak svog AI-a opisujući te smjernice u poruci sustava („system“). Poruke sustava omogućuju korisnicima API-ja da značajno prilagode iskustvo svojih korisnika, unutar određenih granica(otvara se u novom prozoru). Nastavit ćemo s poboljšanjima na tom polju (i posebno imajte na umu da su poruke sustava najlakši način za „jailbreak“ trenutnog modela, tj. pridržavanje granica nije savršeno), ali potičemo vas da ga isprobate i javite nam što mislite.
Unatoč svojim mogućnostima, GPT‑4 ima slična ograničenja kao i raniji GPT modeli. Najvažnije je to da još uvijek nije potpuno pouzdan ("halucinira" činjenice i čini pogreške u zaključivanju). Veliku pažnju treba posvetiti korištenju izlaza jezičnih modela, osobito u kontekstima s visokim rizikom, pri čemu točan protokol (kao što je ljudska provjera, osiguranje dodatnim kontekstom ili potpuno izbjegavanje visokorizičnih uporaba) treba odgovarati potrebama specifičnog slučaja uporabe.
Iako je još uvijek stvarni problem, GPT‑4 značajno smanjuje "halucinacije" (informacije koje nemaju smisla) u odnosu na prethodne modele (koji su se i sami poboljšavali sa svakom iteracijom). GPT‑4 postiže 40% bolji rezultat od našeg najnovijeg GPT‑3.5 na našim internim procjenama činjenica u kontradiktornim situacijama:
Postigli smo napredak u vanjskim referentnim vrijednostima poput TruthfulQA, koja testira sposobnost modela da razdvoji činjenice od skupa odabranih netočnih izjava koje su bile pružene prijevarno. Ova pitanja su uparena s činjenično netočnim odgovorima koji su statistički privlačni.
U ovom zadatku, osnovni model GPT‑4 samo je malo bolji od GPT‑3.5; međutim, nakon RLHF poslije obuke (primjenom istog postupka koji smo koristili s GPT‑3.5), otvara se veliki jaz. Ispitujući neke primjere u nastavku, GPT‑4 se odupire odabiru uobičajenih izreka (ne možete starog psa naučiti novim trikovima), no ipak može propustiti suptilne detalje (Elvis Presley nije bio sin glumca).
Model može imati različite pristranosti u svojim izlaznim odgovorima. Na ovom smo polju postigli napredak, ali još uvijek nismo na kraju puta usavršavanja. Prema našoj nedavnoj objavi na blogu, cilj nam je da AI sustavi koje gradimo imaju razumna zadana ponašanja koja odražavaju širok raspon vrijednosti korisnika, omogućuju prilagodbu tih sustava unutar širokih granica i primaju informacije od korisnika, odnosno javnosti o tome kakve bi te granice trebale biti.
GPT‑4 općenito nema znanje o događajima koji su se dogodili nakon što je velika većina njegovih podataka prekinuta (rujan 2021.) i ne uči iz svog iskustva. Ponekad može napraviti jednostavne pogreške u zaključivanju koje se ne čine kompetentnima u mnogim domenama ili mogu biti pretjerano lakovjeran u prihvaćanju očitih lažnih izjava od korisnika. Ponekad može i zakazati kod teških problema na isti način kao i ljudi, primjerice uvođenjem sigurnosnih ranjivosti u kôd koji generira.
GPT‑4 također može biti krivo uvjeren u svoja predviđanjima, odnosno ne provjerava svoje rezultata dvaput kada je vjerojatno da će pogriješiti. Zanimljivo je da je osnovni unaprijed obučeni model visoko kalibriran (njegovo predviđeno povjerenje u odgovor općenito odgovara vjerojatnosti da je točan). Međutim, kroz naš trenutni proces nakon obuke, kalibracija se smanjuje.
Radimo na iteracijama GPT‑4 kako bismo ga učinili sigurnijim i usklađenijim od samog početka obuke, s naporima koji uključuju odabir i filtriranje podataka za obuke, procjene i angažman stručnjaka, poboljšanja sigurnosti modela te praćenje i provedbu.
GPT‑4 predstavlja slične rizike kao i prethodni modeli, poput generiranja štetnih savjeta, pogrešnog kôda ili netočnih informacija. Međutim, dodatne mogućnosti GPT‑4 dovode do novih rizika. Kako bismo razumjeli opseg tih rizika, angažirali smo više od 50 stručnjaka iz domena kao što su rizici usklađivanja umjetne inteligencije, kibernetička sigurnost, biorizik, povjerenje i sigurnost te međunarodna sigurnost kako bi model testirali na "neprijateljski" način. Njihovi nalazi posebno su nam omogućili testiranje ponašanja modela u područjima visokog rizika, koja zahtijevaju stručnost za procjenu. Povratne informacije i podaci od tih stručnjaka korišteni su za naša podešavanja i poboljšanja modela; na primjer, prikupili smo dodatne podatke kako bismo poboljšali sposobnost GPT‑4 da odbija zahtjeve za opisivanjem izrade opasnih kemikalija.
GPT‑4 uključuje dodatni sigurnosni signal uz "nagrađivanje" tijekom RLHF obuke kako bi se smanjili štetni izlazi (kako je definirano našim smjernicama za uporabu(otvara se u novom prozoru)) obučavanjem modela da odbija zahtjeve za takav sadržaj. Nagradu osigurava GPT‑4 klasifikator bez prethodnog učenja koji procjenjuje sigurnosne granice i stil sigurnosnih upita. Kako bismo spriječili da model odbije valjane zahtjeve, prikupljamo raznolik skup podataka iz različitih izvora (npr. označeni proizvodni podaci, namjerni korisnički napadi (red-teaming), upiti smišljeni od strane modela) i primjenjujemo sigurnosni signal sa sustavom nagrađivanja (s pozitivnom ili negativnom vrijednošću) na dopuštene i zabranjene kategorije.
Naše mjere podešavanja značajno su poboljšale mnoga sigurnosna svojstva GPT‑4 u usporedbi s GPT‑3.5. Smanjili smo sklonost modela da odgovara na zahtjeve za zabranjeni sadržaj za 82 % u usporedbi s modelom GPT‑3.5, a GPT‑4 odgovara na osjetljive zahtjeve (npr. medicinski savjeti i samoozljeđivanje) u skladu s našim pravilima 29 % češće.
Sve u svemu, naše intervencije na razini modela povećavaju poteškoću izazivanja lošeg ponašanja, ali to je i dalje moguće. Osim toga, još uvijek postoje metode za iskorištavanjhe slabih točaka ("jailbreakovi") za generiranje sadržaja koji krše naše smjernice za uporabu. Kako se povećava "rizik po tokenu" sustava umjetne inteligencije, postat će ključno postići izuzetno visok stupanj pouzdanosti u tim intervencijama. Za sada je važno nadopuniti ta ograničenja sigurnosnim tehnikama tijekom primjene, poput praćenja zlouporabe.
GPT‑4 i nasljedni modeli imaju potencijal značajno utjecati na društvo na korisne i štetne načine. Surađujemo s vanjskim istraživačima kako bismo poboljšali način na koji razumijemo i procjenjujemo potencijalne utjecaje, kao i kako bismo razvili procjene opasnih sposobnosti koje bi se mogle pojaviti u budućim sustavima. Uskoro ćemo podijeliti više o našem razmišljanju o potencijalnim društvenim i ekonomskim utjecajima GPT‑4 i drugih sustava umjetne inteligencije.
Kao i prethodni GPT modeli, osnovni model GPT‑4 obučen je za predviđanje sljedeće riječi u dokumentu te korištenjem javno dostupnih podataka (poput internetskih podataka) kao i podataka koje smo licencirali. Podaci su korpus podataka u internetskim razmjerima koji uključuju točna i netočna rješenja matematičkih problema, slabo i snažno zaključivanje, proturječne i dosljedne izjave te predstavljaju veliku raznolikost ideologija i ideja.
Dakle, kada se osnovnom modelu postavi pitanje, model može odgovoriti na različite načine koji bi mogli biti daleko od namjere korisnika. Kako bismo ga uskladili s namjerom korisnika unutar zadanih okvira, fino podešavamo ponašanje modela koristeći učenje putem povratnih informacija ljudi (RLHF).
Imajte na umu da se čini da mogućnosti modela dolaze prvenstveno iz procesa predobuke – RLHF ne poboljšava rezultate ispita (bez aktivnog napora, zapravo ih pogoršava). Međutim, upravljanje modelom dolazi iz procesa nakon obuke — osnovni model zahtijeva inženjering unosa kako bi uopće znao da treba odgovarati na pitanja.
Veliki fokus projekta GPT‑4 bio je izgradnja stoga dubokog učenja koji se predvidljivo skalira. Primarni razlog za to je što za vrlo velike modele s obukom poput GPT‑4 nije izvedivo provesti opsežno podešavanje specifično za model. Razvili smo infrastrukturu i optimizaciju koje imaju vrlo predvidljivo ponašanje na više razina. Kako bismo provjerili valjanost ove skalabilnosti, unaprijed smo točno predvidjeli konačni gubitak GPT‑4‑a na našoj internoj kôdnoj bazi (koja nije dio skupa za obuku) ekstrapolacijom iz modela obučenih istom metodologijom, ali koristeći 10.000 puta manje računalne snage:
Sada kada možemo točno predvidjeti metriku koju optimiziramo tijekom obuke (gubitak), počinjemo razvijati metodologiju za predviđanje bolje tumačenih mjernih podataka. Primjerice, uspješno smo predvidjeli stopu prolaznosti na podskupu skupa podataka HumanEval(otvara se u novom prozoru), ekstrapolirajući podatke iz modela s 1.000 puta manje računalne snage:
Neke sposobnosti još uvijek je teško predvidjeti. Primjerice, Nagrada za inverzno skaliranje bila je natjecanje za pronalaženje metrike koja se pogoršava kako se izračunavanje modela povećava, a zanemarivanje retrospektive(otvara se u novom prozoru) (eng. hindsight neglect) bilo je jedan od pobjednika. Baš kao i s drugim nedavnim rezultatom,(otvara se u novom prozoru) GPT‑4 preokreće trend:
Vjerujemo da je točno predviđanje budućih sposobnosti strojnog učenja važan dio sigurnosti koji ne dobiva dovoljno pažnje u odnosu na svoj potencijalni utjecaj (iako smo ohrabreni naporima nekoliko institucija na tom polju). Povećavamo svoje napore kako bismo razvili metode koje društvu pružaju bolje smjernice o tome što očekivati od budućih sustava, i nadamo se da će to postati zajednički cilj u tom području.
Otvaramo izvorni kôd OpenAI Evals(otvara se u novom prozoru), našeg softverskog okvira za izradu i pokretanje referentnih testova za procjenu modela poput GPT‑4, dok pregledavamo njihove performanse, uzorak po uzorak. Evals koristimo za usmjeravanje razvoja naših modela (kako prepoznavanje nedostataka, tako i sprečavanje regresija), a naši korisnici mogu ga primijeniti za praćenje performansi u različitim verzijama modela (koje će sada redovito izlaziti) i razvoj integracija proizvoda. Primjerice, Stripe je koristio Evals kako bi nadopunio ljudske procjene za mjerenje točnosti alata za dokumentaciju koji pokreće GPT.
Budući da je sav kôd otvorenog tipa, Evals podržava pisanje novih klasa za implementaciju prilagođene logike procjene(otvara se u novom prozoru). Međutim, prema našem vlastitom iskustvu, mnoga mjerila slijede jedan od nekoliko "predložaka", pa smo uključili i predloške(otvara se u novom prozoru) koji su interno bili najkorisniji (uključujući predložak za "modelom ocjenjivane procjene" – otkrili smo da je GPT‑4 iznenađujuće sposoban provjeravati vlastiti rad). Općenito, najučinkovitiji način za izradu novog Evala(otvara se u novom prozoru) bit će instanciranje jednog od ovih predložaka zajedno s pružanjem podataka. Uzbuđeni smo što vidimo što drugi mogu izgraditi s ovim predlošcima i općenito s Evalsima.
Nadamo se da će Evals postati sredstvo za dijeljenje i skupno prikupljanje referentnih vrijednosti, predstavljajući maksimalno širok spektar modusa kvarova/pogrešaka i zahtjevnih zadataka. Kao primjer koji se može slijediti, stvorili smo eval logičke zagonetke(otvara se u novom prozoru) koji sadrži deset unosa gdje je GPT‑4 neuspješan. Evals je također kompatibilan s implementacijom postojećih referentnih vrijednosti: uključili smo nekoliko interaktivnih računalnih okruženja (tzv. "bilježnica(otvara se u novom prozoru)") koje implementiraju akademska mjerila i nekoliko varijacija integriranja (malih podskupova) CoQA(otvara se u novom prozoru) kao primjer.
Pozivamo sve da koriste Evals za testiranje naših modela i da nam pošalju najzanimljivije primjere. Vjerujemo da će Evals biti sastavni dio procesa korištenja i nadogradnje naših modela, te pozdravljamo izravne doprinose, pitanja i povratne informacije(otvara se u novom prozoru).
Pretplatnici na ChatGPT Plus dobit će pristup GPT‑4 na chatgpt.com(otvara se u novom prozoru) s ograničenjem uporabe. Prilagodit ćemo točno ograničenje uporabe ovisno o potražnji i performansama sustava u praksi, ali očekujemo da ćemo biti ozbiljno ograničeni kapacitetom (iako ćemo ga povećati i optimizirati tijekom nadolazećih mjeseci).
Ovisno o obrascima prometa koje uočimo, mogli bismo uvesti novu razinu pretplate za veću upotrebu GPT‑4; također se nadamo da ćemo u nekom trenutku ponuditi određenu količinu besplatnih GPT‑4 upita kako bi ga i oni bez pretplate mogli isprobati.
Da biste dobili pristup GPT‑4 API-ju (koji koristi isti ChatCompletions API(otvara se u novom prozoru) kao gpt-3.5-turbo), prijavite se na naš popis čekanja. Danas ćemo početi pozivati neke razvojne inženjere i postupno povećavati količine kako bismo uravnotežili kapacitet s potražnjom. Ako ste istraživač koji proučava društveni utjecaj umjetne inteligencije ili probleme usklađivanja AI, možete se također prijaviti za subvencionirani pristup putem našeg Programa pristupa za istraživače.
Nakon što ste ostvarili pristup, možete slati samo tekstualne zahtjeve modelu GPT‑4 (upis slika je još uvijek u ograničenoj alfa fazi), koji ćemo automatski ažurirati na naš preporučeni stabilni model kako budemo izrađivali nove verzije tijekom vremena (trenutnu verziju možete zadržati pozivom GPT‑4‑0314, koji ćemo podržavati do 14. lipnja). Cijena je 0,03 USD po 1000 (1k) tokena za unos (prompt) i 0,06 USD po 1000 tokena (1k) za odgovor/završavanje (completion). Zadana ograničenja su 40.000 tokena u minuti i 200 zahtjeva u minuti.
GPT‑4 ima duljinu konteksta od 8.192 tokena. Također pružamo ograničeno pristup našoj verziji s 32.768 konteksta (oko 50 stranica teksta), GPT‑4‑32k, koja će se također automatski ažurirati tijekom vremena (trenutna verzija GPT‑4‑32k‑0314, također podržana do 14. lipnja). Cijena je 0,06 USD po 1000 tokena za unos (prompt) i 0,06 USD po 1000 tokena za odgovor/završavanje (completion). Još uvijek poboljšavamo kvalitetu modela za dugi kontekst i voljeli bismo povratne informacije o tome kako djeluje za vaše potrebe. Zahtjeve za rad uz 8K i 32K obrađujemo različitim brzinama ovisno o kapacitetu, tako da njima možete dobiti pristup u različita vremena.
Radujemo se što će GPT‑4 postati vrijedan alat za poboljšanje života ljudi pokretanjem mnogih aplikacija. Na ovom projektu još uvijek ostaje puno posla i radujemo se poboljšanju ovog modela kroz kolektivne napore zajednice koja nadograđuje, istražuje i doprinosi modelu.
Za više informacija: Pročitajte rad(otvara se u novom prozoru) / Pogledajte sistemsku karticu(otvara se u novom prozoru) / Isprobajte ChatGPT Plus(otvara se u novom prozoru) / Isprobajte u Playgroundu(otvara se u novom prozoru) / Ponovno pogledajte demo prijenosa uživo(otvara se u novom prozoru) / Doprinesite OpenAI Evalsu(otvara se u novom prozoru)
Primjer pitanja MMLU, prevedenih na druge jezike. Napomena, koristimo dosljedne tokene izbora (A – D):
Bilješke
- A
Ovu referentnu vrijednost procjenjujemo koristeći poticanje lanca misli s 4 primjera iz skupa za obuku uz kontekst. Specifični u nos podešen je na skupu za provjeru valjanosti.
Reference
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Daljnja analiza dostupna je u radu(otvara se u novom prozoru).


