Preskočite na glavni sadržaj
OpenAI

Kreirali smo GPT‑4, najnoviju prekretnicu u naporima OpenAI-ja na povećanju dubokog učenja. GPT‑4 je veliki multimodalni model (prihvata slike i tekst kao unose, emituje tekstualne izlaze) koji, iako je manje sposoban od ljudi u mnogim stvarnim scenarijima, pokazuje performanse na ljudskom nivou na raznim profesionalnim i akademskim mjerilima. Na primjer, polaže simulirani pravosudni ispit s ocjenom među najboljih 10% ispitanika; nasuprot tome, GPT‑3.5 rezultat je bio oko donjih 10%. Proveli smo 6 mjeseci iterativno usklađujući GPT‑4 koristeći lekcije iz našeg programa kontradiktornog testiranja, kao i ChatGPT‑a, što je rezultiralo našim najboljim rezultatima do sada (iako daleko od savršenih) u pogledu tačnosti, upravljivosti i odbijanja da se izađe izvan zaštitnih ograda.

Tokom protekle dvije godine obnovili smo cijeli naš niz dubokog učenja i zajedno s Azureom ko-dizajnirali superračunar od temelja za naše radno opterećenje. Prije godinu dana obučili smo GPT‑3.5 kao prvo “probno testiranje” sistema. Pronašli smo i ispravili neke greške i poboljšali naše teorijske osnove. Kao rezultat toga, naša obuka za GPT‑4 bila je (barem za nas!) bez presedana stabilna, postajući naš prvi veliki model čije smo performanse obuke mogli precizno predvidjeti unaprijed. Kako nastavimo fokusirati se na pouzdano skaliranje, cilj nam je usavršiti našu metodologiju kako bismo mogli predvidjeti i pripremiti se za buduće mogućnosti sve više unaprijed—nešto što smatramo ključnim za sigurnost.

Objavljujemo mogućnost unosa teksta GPT‑4 putem ChatGPT‑a i API-ja (sa listom čekanja). Da bismo pripremili mogućnost unosa slike za širu dostupnost, usko sarađujemo s jednim partnerom(otvara se u novom prozoru) za početak. Također otvaramo kod za OpenAI Evals(otvara se u novom prozoru), naš okvir za automatiziranu procjenu performansi AI modela, kako bismo omogućili svima da prijave nedostatke u našim modelima i pomognu u usmjeravanju daljnjih poboljšanja.

Mogućnosti

U ležernom razgovoru razlika između GPT‑3.5 i GPT‑4 može biti suptilna. Razlika se pojavljuje kada složenost zadatka dostigne dovoljan prag—GPT‑4 je pouzdaniji, kreativniji i sposobniji da se nosi s mnogo nijansiranijim uputama od GPT‑3.5.

Da bismo razumjeli razliku između dva modela, testirali smo ih na različitim mjerilima, uključujući simulaciju ispita koji su prvobitno dizajnirani za ljude. Nastavili smo koristeći najnovije javno dostupne testove (u slučaju olimpijada i AP pitanja sa slobodnim odgovorom) ili kupovinom izdanja vježbenih ispita za 2022–2023. Nismo imali nikakvu specifičnu obuku za ove ispite. Manji dio problema na ispitima model je vidio tokom obuke, ali vjerujemo da su rezultati reprezentativni—za detalje pogledajte naš tehnički izvještaj(otvara se u novom prozoru).

interna referenca 1

Učitavanje...
Učitavanje...

Također smo ocijenili GPT‑4 na tradicionalnim mjerilima dizajniranim za modele mašinskog učenja. GPT‑4 znatno nadmašuje postojeće velike jezičke modele, kao i većinu najsavremenijih (SOTA) modela koji mogu uključivati izradu specifičnu za referentne vrijednosti ili dodatne protokole obuke:

Učitavanje...

Mnogi postojeći ML benchmarki su napisani na engleskom jeziku. Da biste dobili početni osjećaj sposobnosti na drugim jezicima, preveli smo MMLU mjerilo - skup od 14.000 problema s višestrukim izborom koji obuhvataju 57 predmeta - na različite jezike koristeći Azure Translate (vidi Dodatak). U 24 od 26 testiranih jezika, GPT‑4 nadmašuje performanse GPT‑3.5 i drugih LLM-ova na engleskom jeziku (Chinchilla, PaLM), uključujući jezike s niskim resursima kao što su latvijski, velški i svahili:

Učitavanje...

Također smo interno koristili GPT‑4, s velikim utjecajem na funkcije kao što su podrška, prodaja, moderiranje sadržaja i programiranje. Također ga koristimo kako bismo pomogli ljudima u procjeni AI izlaza, započinjući drugu fazu naše strategije usklađivanja.

Vizualni ulazi

GPT‑4 može prihvatiti upit koji sadrži tekst i slike, što - paralelno s postavkom samo za tekst - omogućava korisniku da odredi bilo koji zadatak vezan za viziju ili jezik. Konkretno, generira tekstualne izlaze (prirodni jezik, kod itd.) na osnovu unosa koji se sastoje od isprepletenog teksta i slika. U različitim domenama—uključujući dokumente s tekstom i fotografijama, dijagrame ili snimke zaslona—GPT‑4 pokazuje slične sposobnosti kao i na unosima koji sadrže samo tekst. Nadalje, može se unaprijediti tehnikama testiranja koje su razvijene za jezičke modele koji koriste samo tekst, uključujući poticanje s nekoliko primjera i lančano razmišljanje(otvara se u novom prozoru). Unosi slika su još uvijek u fazi pregleda istraživanja i nisu javno dostupni.

Učitavanje...

Pregled performansi GPT‑4 vršimo procjenjujući ih na uskom nizu standardnih akademskih mjerila za viziju. Međutim, ovi brojevi ne prikazuju u potpunosti opseg njegovih mogućnosti jer stalno otkrivamo nove i uzbudljive zadatke koje model može riješiti. Planiramo uskoro objaviti daljnje analize i evaluacijske brojeve, kao i temeljitu istragu efekta tehnika primijenjenih tokom testiranja.

interna fusnotaA

Učitavanje...

Upravljivost

Radili smo na svakom aspektu plana navedenog u našem postu o definiranju ponašanja AI, uključujući upravljivost. Umjesto klasične ChatGPT ličnosti s fiksnom rječitošću, tonom i stilom, programeri (a uskoro i korisnici ChatGPT‑a) sada mogu odrediti stil i zadatak svog AI opisujući te smjernice u poruci „sistem“. Sistemske poruke omogućuju korisnicima API-ja da značajno prilagode iskustvo svojih korisnika unutar granica(otvara se u novom prozoru). Nastavit ćemo s poboljšanjima ovdje (i posebno imajte na umu da su sistemske poruke najlakši način za “jailbreak” trenutnog modela, tj. pridržavanje granica nije savršeno), ali potičemo vas da ga isprobate i javite nam što mislite.

Učitavanje...

Ograničenja

Uprkos svojim mogućnostima, GPT‑4 ima slična ograničenja kao i raniji GPT modeli. Najvažnije je da još uvijek nije potpuno pouzdan ("halucinira" činjenice i pravi greške u rasuđivanju). Veliku pažnju treba posvetiti korištenju izlaza jezičkog modela, posebno u kontekstima visokog rizika, s tačnim protokolom (kao što je ljudska revizija, dodavanje dodatnog konteksta ili potpuno izbjegavanje visokorizičnih upotreba) koji odgovara potrebama specifičnog slučaja upotrebe.

Iako je još uvijek stvarni problem, GPT‑4 značajno smanjuje halucinacije u odnosu na prethodne modele (koji su se i sami poboljšavali sa svakom iteracijom). GPT‑4 postiže 40% više od našeg najnovijeg GPT‑3.5 na našim internim evaluacijama faktualnosti u kontradiktornim situacijama:

Učitavanje...

Postigli smo napredak na vanjskim referentnim vrijednostima kao što je TruthfulQA, koji testira sposobnost modela da razdvoji činjenice od protivnički odabranog skupa netačnih izjava. Ova pitanja su uparena s činjenično netačnim odgovorima koji su statistički privlačni.

Učitavanje...

Osnovni model GPT‑4 je samo nešto bolji u ovom zadatku od GPT‑3.5; međutim, nakon RLHF post-obuke (primjenom istog procesa koji smo koristili sa GPT‑3.5) Postoji veliki jaz. Ispitujući neke primjere u nastavku, GPT‑4 se odupire odabiru uobičajenih izreka (ne možete naučiti starog psa novim trikovima), ali ipak može propustiti suptilne detalje (Elvis Presley nije bio sin glumca).

Učitavanje...

Model može imati različite pristrasnosti u svojim izlazima—postigli smo napredak u vezi s tim, ali još uvijek ima mnogo toga za učiniti. Prema našem nedavnom blog postu, cilj nam je da AI sistemi koje gradimo imaju razumna predodređena ponašanja koja odražavaju širok spektar vrijednosti korisnika, omogućuju prilagođavanje tih sistema unutar širokih granica i dobiju javni unos o tome kakve bi te granice trebale biti.

GPT‑4 općenito nema znanje o događajima koji su se dogodili nakon što je velika većina njegovih podataka prekinuta (septembar 2021.) i ne uči iz svog iskustva. Ponekad može napraviti jednostavne greške u zaključivanju koje ne izgledaju u skladu s kompetencijom u toliko domena ili biti pretjerano lakovjeran u prihvatanju očigledno lažnih izjava korisnika. A ponekad može zakazati kod teških problema na isti način kao i ljudi, kao što je uvođenje sigurnosnih ranjivosti u kod koji generira.

GPT‑4 također može biti samouvjereno pogrešan u svojim predviđanjima, ne vodeći računa da dvaput provjeri rad kada je vjerovatno da će pogriješiti. Zanimljivo je da je osnovni unaprijed obučeni model visoko kalibriran (njegovo predviđeno povjerenje u odgovor općenito odgovara vjerovatnoći da je tačan). Međutim, kroz naš trenutni proces nakon obuke, kalibracija se smanjuje.

Učitavanje...

Rizici i mjere ublažavanja

Iterirali smo na GPT‑4 kako bismo ga učinili sigurnijim i usklađenijim od početka obuke, uz napore koji uključuju odabir i filtriranje podataka za obuku, evaluacije i angažman stručnjaka, poboljšanja sigurnosti modela te praćenje i provedbu.

GPT‑4 predstavlja slične rizike kao i prethodni modeli, kao što su generiranje štetnih savjeta, grešaka u kodu ili netačnih informacija. Međutim, dodatne mogućnosti GPT‑4 dovode do novih površina rizika. Da bismo razumjeli opseg ovih rizika, angažirali smo više od 50 stručnjaka iz domena kao što su rizici usklađivanja AI, kibernetička sigurnost, biorizik, povjerenje i sigurnost te međunarodna sigurnost kako bismo protivnički testirali model. Njihovi nalazi su nam posebno omogućili testiranje ponašanja modela u područjima visokog rizika koja zahtijevaju stručnost za procjenu. Povratni odgovor i podaci od ovih stručnjaka su uključeni u naša ublažavanja i poboljšanja modela; na primjer, prikupili smo dodatne podatke kako bismo poboljšali sposobnost GPT‑4 da odbije zahtjeve za sintezu opasnih hemikalija.

GPT‑4 uključuje dodatni sigurnosni signal nagrađivanja tokom RLHF obuka kako bi smanjio štetne izlaze (kako je definirano našim smjernicama za upotrebu(otvara se u novom prozoru)) obučavanjem modela da odbija zahtjeve za takav sadržaj. Nagradu osigurava GPT‑4 klasifikator bez prethodnog učenja koji procjenjuje sigurnosne granice i stil završetka na upitima vezanim za sigurnost. Kako bismo spriječili da model odbija valjane zahtjeve, prikupljamo raznolik skup podataka iz različitih izvora (npr. označeni proizvodni podaci, ljudski red-teaming, generirani upiti modela) i primjenjujemo signal sigurnosne nagrade (s pozitivnom ili negativnom vrijednošću) na dopuštene i zabranjene kategorije. 

Naše mjere ublažavanja značajno su poboljšale mnoga sigurnosna svojstva GPT‑4 u odnosu na GPT‑3.5. Smanjili smo sklonost modela da odgovara na zahtjeve za zabranjeni sadržaj za 82% u odnosu na GPT‑3.5, a GPT‑4 odgovara na osjetljive zahtjeve (npr. medicinski savjeti i samopovređivanje) u skladu s našim politikama 29% češće.

Učitavanje...
Učitavanje...

Sve u svemu, naše intervencije na nivou modela povećavaju poteškoće u izazivanju lošeg ponašanja, ali je to i dalje moguće. Osim toga, još uvijek postoje “jailbreakovi” za generirati sadržaj koji prekršuju naše smjernice za upotrebu. Kako se “rizik po tokenu” AI sistema povećava, postat će ključno postići izuzetno visok stepen pouzdanosti u ovim intervencijama; za sada je važno nadopuniti ova ograničenja sigurnosnim tehnikama prilikom implementacije, kao što je praćenje zloupotrebe.

GPT‑4 i nasljedni modeli imaju potencijal da značajno utiču na društvo, kako na korisne, tako i na štetne načine. Surađujemo s vanjskim istraživačima kako bismo poboljšali način na koji razumijemo i procjenjujemo potencijalne utjecaje, kao i kako bismo izgradili procjene opasnih sposobnosti koje se mogu pojaviti u budućim sustavima. Uskoro ćemo podijeliti više naših razmišljanja o potencijalnim društvenim i ekonomskim uticajima GPT‑4 i drugih AI sistema.

Proces obuke

Kao i prethodni GPT modeli, osnovni model GPT‑4 je obučen da predvidi sljedeću riječ u dokumentu, koristeći javno dostupne podatke (poput internetskih podataka) kao i podatke koje smo licencirali. Podaci su korpus na web-skali koji uključuje ispravna i netačna rješenja matematičkih problema, slabo i snažno zaključivanje, kontradiktorne i dosljedne izjave, te predstavljaju širok spektar ideologija i ideja.

Dakle, kada se suoči s upitom, osnovni model može odgovoriti na različite načine koji bi mogli biti daleko od namjere korisnika. Da bismo ga uskladili s namjerom korisnika unutar zaštitnih ograda, fino podešavamo ponašanje modela koristeći pojačano učenje s ljudskim povratnim odgovorom (RLHF).

Imajte na umu da se čini da sposobnosti modela dolaze prvenstveno iz procesa prethodne obuke—RLHF ne poboljšava rezultate ispita (bez aktivnog truda, zapravo ih pogoršava). Međutim, upravljanje modelom dolazi iz procesa nakon obuke—osnovni model zahtijeva izradu upita kako bi uopće znao da treba odgovarati na pitanja.

Predvidljivo skaliranje

Veliki fokus projekta GPT‑4 bio je na izgradnji sloja dubokog učenja koji se predvidljivo skalira. Primarni razlog je taj što za vrlo velike obuke poput GPT‑4 nije izvedivo obaviti opsežno podešavanje specifično za model. Razvili smo infrastrukturu i optimizaciju koje imaju vrlo predvidljivo ponašanje na više razmjera. Da bismo potvrdili ovu skalabilnost, precizno smo unaprijed predvidjeli konačni gubitak GPT‑4 na našoj internoj bazi koda (koja nije dio skupa za obuku) ekstrapolacijom iz modela treniranih koristeći istu metodologiju, ali koristeći 10.000 puta manje računalne snage:

Učitavanje...

Sada kada možemo precizno predvidjeti metriku koju optimiziramo tokom obuke (gubitak), počinjemo razvijati metodologiju za predviđanje interpretabilnijih metrika. Na primjer, uspješno smo predvidjeli stopu prolaznosti na podskupu skupa podataka HumanEval(otvara se u novom prozoru), ekstrapolirajući iz modela sa 1.000 puta manje računalne snage:

Učitavanje...

Neke sposobnosti je još uvijek teško predvidjeti. Na primjer, Nagrada za inverzno skaliranje bila je takmičenje za pronalaženje metrike koja se pogoršava kako se izračunavanje modela povećava, a zanemarivanje retrospektive(otvara se u novom prozoru) bilo je jedan od pobjednika. Baš kao i kod još jednog nedavnog rezultata,(otvara se u novom prozoru) GPT‑4 preokreće trend:

Učitavanje...

Vjerujemo da je precizno predviđanje budućih sposobnosti mašinskog učenja važan dio sigurnosti koji ne dobija dovoljno pažnje u odnosu na njegov potencijalni utjecaj (iako smo ohrabreni naporima u nekoliko institucija). Povećavamo naše napore da razvijemo metode koje društvu pružaju bolje smjernice o tome šta očekivati od budućih sistema, i nadamo se da će to postati zajednički cilj u ovoj oblasti.

OpenAI Evals

Otvaramo izvorni kod OpenAI Evals(otvara se u novom prozoru), našeg softverskog okvira za kreiranje i pokretanje referentnih testova za procjenu modela poput GPT‑4, dok pregledavamo njihove performanse uzorak po uzorku. Koristimo Evals za usmjeravanje razvoja naših modela (kako prepoznavanje nedostataka, tako i sprečavanje regresija), a naši korisnici mogu ga primijeniti za praćenje performansi kroz različite verzije modela (koje će sada redovno izlaziti) i za razvoj integracija proizvoda. Na primjer, Stripe je koristio Evals da dopuni svoje ljudske procjene kako bi izmjerio tačnost svog alata za dokumentaciju pokretanog GPT‑om.

Budući da je sav kod otvorenog koda, Evals podržava pisanje novih klasa za implementaciju prilagođene logike evaluacije(otvara se u novom prozoru). Međutim, prema našem vlastitom iskustvu, mnoga mjerila slijede jedan od nekoliko “šablona”, pa smo uključili i šablone(otvara se u novom prozoru) koji su interno bili najkorisniji (uključujući šablon za “modelno ocijenjene evaluacije” – otkrili smo da je GPT‑4 iznenađujuće sposoban provjeriti vlastiti rad). Općenito, najefikasniji način za kreiranje novog evala(otvara se u novom prozoru) bit će instanciranje jednog od ovih šablona uz pružanje podataka. Uzbuđeni smo što vidimo šta drugi mogu izgraditi s ovim šablonima i općenito s Evalsom.

Nadamo se da će Evals postati sredstvo za dijeljenje i crowdsourcing referentnih vrijednosti, predstavljajući maksimalno širok skup načina neuspjeha i teških zadataka. Kao primjer koji treba slijediti, kreirali smo eval logičkih zagonetki(otvara se u novom prozoru) koji sadrži deset upita gdje GPT‑4 ne uspijeva. Evals je također kompatibilan s implementacijom postojećih referentnih vrijednosti; uključili smo nekoliko notebookova(otvara se u novom prozoru) koji implementiraju akademske mjerila i nekoliko varijacija integracije (malih podskupova) CoQA(otvara se u novom prozoru) kao primjer.

Pozivamo sve da koriste Evals za testiranje naših modela i da pošalju najzanimljivije primjere. Vjerujemo da će Evals biti sastavni dio procesa korištenja i izgradnje naših modela, i pozdravljamo direktne doprinose, pitanja i povratni odgovor(otvara se u novom prozoru).

ChatGPT Plus

Pretplatnici ChatGPT Plus će dobiti pristup GPT‑4 na chatgpt.com(otvara se u novom prozoru) sa ograničenjem upotrebe. Prilagodit ćemo točno ograničenje upotrebe ovisno o potražnji i performansama sistema u praksi, ali očekujemo da ćemo biti ozbiljno ograničeni kapacitetom (iako ćemo povećati i optimizirati u narednim mjesecima).

Ovisno o obrascima saobraćaja koje vidimo, možemo uvesti novi nivo pretplate za veću upotrebu GPT‑4; takođe se nadamo da ćemo u nekom trenutku ponuditi određenu količinu besplatnih GPT‑4 upita kako bi i oni bez pretplate mogli probati.

API

Da biste dobili pristup GPT‑4 API-ju (koji koristi isti ChatCompletions API(otvara se u novom prozoru) kao gpt-3.5-turbo), Molimo vas da izvršite registraciju na našu listu čekanja. Danas ćemo početi pozivati neke programere i postepeno povećavati broj pozivnica kako bismo uravnotežili kapacitet s potražnjom. Ako ste istraživač koji proučava društveni utjecaj AI ili pitanja usklađivanja AI, možete se također prijaviti za subvencionirani pristup putem našeg Programa pristupa istraživača.

Kada dobijete pristup, možete slati samo tekstualne zahtjeve modelu GPT‑4 (unosi za slike su još uvijek u ograničenoj alfa fazi), koje ćemo automatski ažurirati na naš preporučeni stabilni model kako budemo izrađivali nove verzije sa vremenom (trenutnu verziju možete zadržati pozivom GPT‑4‑0314, za koju ćemo pružati podršku do 14. juna). Cijena je 0,03 USD po 1k upitnih tokena i 0,06 USD po 1k tokena za završetak. Predodređeno ograničenje brzine su 40k tokena po minuti i 200 zahtjeva po minuti.

GPT‑4 ima dužinu konteksta od 8.192 tokena. Također pružamo ograničeno pristup našoj verziji od 32.768 konteksta (oko 50 stranica teksta), GPT‑4‑32k, koja će se također automatski ažurirati tokom vremena (trenutna verzija GPT‑4‑32k‑0314, također podržana do 14. juna). Cijene su 0,06 USD po 1K tokena za upit i 0,12 USD po 1K tokena za završetak. Još uvijek poboljšavamo kvalitet modela za dugi kontekst i voljeli bismo povratni odgovor o tome kako djeluje u vašem slučaju upotrebe. Zahtjeve za 8K i 32K motore obrađujemo različitim brzinama ovisno o kapacitetu, tako da možete dobiti pristup njima u različito vrijeme.

Zaključak

Radujemo se što će GPT‑4 postati vrijedan alat u poboljšanju života ljudi omogućavanjem rada mnogih aplikacija. Još uvijek ima puno posla, i radujemo se poboljšanju ovog modela kroz kolektivne napore zajednice koja gradi na njemu, istražuje ga i doprinosi modelu.

Dodatak

Primjer MMLU pitanja, prevedenih na druge jezike. Napomena, koristimo konzistentne tokene izbora (A–D):

Učitavanje...

Fusnote

  1. A

    Ovaj benchmark evaluiramo koristeći lanac misli (Chain-Of-Thought) s 4 primjera iz skupa za obuku u kontekstu. Specifični upit je podešen na skupu za validaciju.

Reference

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Daljnja analiza je dostupna u radu(otvara se u novom prozoru).

Autor

OpenAI