Am creat GPT‑4, cea mai recentă etapă în efortul OpenAI de a extinde învățarea aprofundată. GPT‑4 este un model multimodal de mari dimensiuni (acceptând intrări de imagini și text, emițând ieșiri de text) care, deși este mai puțin capabil decât oamenii în multe scenarii din lumea reală, demonstrează performanțe la nivel uman pe diverse repere profesionale și academice. De exemplu, trece un examen simulat de barou cu un scor în jurul primilor 10% dintre participanți; în schimb, scorul GPT‑3.5 a fost în jurul ultimelor 10%. Am petrecut 6 luni aliniind iterativ GPT‑4 folosind lecțiile învățate din programul nostru de testare adversă, precum și din ChatGPT, rezultând cele mai bune rezultate de până acum (deși departe de a fi perfecte) în ceea ce privește factualitatea, ușurința în testare și refuzul de a depăși limitele.
În ultimii doi ani, am reconstruit întregul nostru stack de deep learning și, împreună cu Azure, am proiectat de la zero un supercomputer pentru volumul nostru de lucru. Acum un an, am antrenat GPT‑3.5 ca un prim „test” al sistemului. Am găsit și am corectat câteva erori și am îmbunătățit fundamentele teoretice. Prin urmare, antrenamentul nostru GPT‑4 a fost (cel puțin pentru noi!) de o stabilitate fără precedent, devenind primul nostru model mare a cărui performanță de antrenament am putut să o prezicem cu exactitate din timp. Pe măsură ce continuăm să ne concentrăm pe scalarea fiabilă, ne propunem să ne perfecționăm metodologia pentru a ne ajuta să anticipăm și să ne pregătim pentru capacitățile viitoare din ce în ce mai mult din timp - lucru pe care îl considerăm esențial pentru siguranță.
Lansăm funcționalitatea de introducere a textului în GPT‑4 prin ChatGPT și API (cu o listă de așteptare). Pentru a pregăti capacitatea de introducere a imaginilor pentru o disponibilitate mai largă, colaborăm îndeaproape cu un singur partener(se deschide într-o fereastră nouă) pentru început. De asemenea, oferim open-source OpenAI Evals(se deschide într-o fereastră nouă), cadrul nostru de evaluare automată a performanței modelelor AI, pentru a permite oricui să raporteze deficiențe ale modelelor noastre și a contribui la îmbunătățiri ulterioare.
Într-o conversație obișnuită, diferența dintre GPT‑3.5 și GPT‑4 poate fi subtilă. Diferența devine evidentă atunci când complexitatea sarcinii atinge un prag suficient - GPT‑4 este mai de încredere, mai creativ și capabil să gestioneze instrucțiuni mult mai nuanțate decât GPT‑3.5.
Pentru a înțelege diferența dintre cele două modele, am efectuat teste pe o varietate de parametri de referință, inclusiv simulând examene concepute inițial pentru oameni. Am procedat utilizând cele mai recente teste disponibile publicului (în cazul Olimpiadelor și al întrebărilor cu răspuns liber AP) sau achiziționând edițiile 2022–2023 ale examenelor de practică. Nu am făcut nicio pregătire specifică pentru aceste examene. O mică parte din problemele din examene au fost observate de model în timpul antrenamentului, dar credem că rezultatele sunt reprezentative - consultă raportul nostru tehnic(se deschide într-o fereastră nouă) pentru detalii.
referință internă 1
De asemenea, am evaluat GPT‑4 pe baza unor teste de performanță tradiționale concepute pentru modele de învățare automată. GPT‑4 depășește considerabil modelele lingvistice mari existente, alături de majoritatea modelelor de ultimă generație (SOTA) care pot include creare specifică parametrilor de referință sau protocoale de antrenament suplimentare:k
Mulți dintre parametrii de referință ML existenți sunt scriși în limba engleză. Pentru a ne face o idee inițială despre capacitatea în alte limbi, am tradus parametrul de referință MMLU - o suită de 14.000 de probleme cu variante multiple de răspuns, care acoperă 57 de subiecte - într-o varietate de limbi folosind Azure Translate (consultă Anexa). În 24 din cele 26 de limbi testate, GPT‑4 depășește performanța în limba engleză a GPT‑3.5 și a altor LLM-uri (Chinchilla, PaLM), inclusiv pentru limbile cu resurse reduse, cum ar fi letona, galeza și swahili:
De asemenea, am folosit GPT‑4 intern, cu un impact mare asupra funcțiilor precum asistența, vânzările, moderarea conținutului și programarea. De asemenea, îl folosim pentru a ajuta oamenii să evalueze ieșirile AI, începând a doua fază a strategiei noastre de aliniere.
GPT‑4 poate accepta o solicitare de text și imagini, care, similar cu setarea doar text, permite utilizatorului să specifice orice sarcină de viziune sau limbaj. Mai exact, generează ieșiri de text (limbaj natural, cod etc.) pe baza unor intrări care constau din text și imagini intercalate. Pe o gamă largă de domenii - inclusiv documente cu text și fotografii, diagrame sau capturi de ecran - GPT‑4 prezintă capacități similare cu cele pe care le are la intrările doar text. În plus, poate fi completat cu tehnici de testare dezvoltate pentru modele lingvistice bazate doar pe text, inclusiv solicitări cu puține imagini și înlănțuiri de gânduri(se deschide într-o fereastră nouă) . Intrările de imagini sunt încă în faza de previzualizare a cercetării și nu sunt disponibile publicului.
Previzualizăm performanța GPT‑4 evaluându-l pe o suită restrânsă de repere standard de viziune academică. Cu toate acestea, aceste cifre nu reflectă pe deplin amploarea capacităților sale, deoarece descoperim mereu sarcini noi și interesante pe care modelul le poate aborda. Planificăm să publicăm în curând analize și cifre de evaluare suplimentare, precum și o investigație aprofundată a efectului tehnicilor aplicate în timpul testării.
notă de subsol internăA
Am lucrat la fiecare aspect al planului prezentat în postarea noastră despre definirea comportamentului AI, inclusiv direcționabilitatea. În loc de personalitatea clasică a ChatGPT cu o verbositate, un ton și un stil fix, dezvoltatorii (și în curând utilizatorii ChatGPT) pot acum să-și prescrie stilul și sarcina AI descriind acele direcții în mesajul „sistem”. Mesajele de sistem permit utilizatorilor API să personalizeze semnificativ experiența utilizatorilor lor în limitele permise(se deschide într-o fereastră nouă). Vom continua să facem îmbunătățiri aici (și știm în special că mesajele de sistem sunt cel mai simplu mod de a „sparge” modelul actual, adică respectarea limitelor nu este perfectă), dar te încurajăm să încerci și să ne spui ce părere ai.
În ciuda capacităților sale, GPT‑4 are limitări similare cu cele ale modelelor GPT anterioare. Cel mai important, încă nu este pe deplin de încredere ("halucinează" fapte și face erori de raționament). Trebuie acordată o atenție deosebită atunci când se utilizează rezultatele modelului lingvistic, în special în contexte cu miză mare, protocolul exact (cum ar fi revizuirea umană, conectarea cu context suplimentar sau evitarea completă a utilizărilor cu miză mare) potrivindu-se nevoilor unui caz de utilizare specific.
Deși este încă o problemă reală, GPT‑4 reduce semnificativ halucinațiile în comparație cu modelele anterioare (care s-au îmbunătățit ele însele cu fiecare iterație). GPT‑4 obține un scor cu 40% mai mare decât cel mai recent GPT‑3.5 la evaluările noastre interne de factualitate adversarială:
Am făcut progrese în ceea ce privește testele externe de performanță, cum ar fi TruthfulQA, care testează capacitatea modelului de a separa faptele de un set de afirmații incorecte selectate în mod advers. Aceste întrebări sunt însoțite de răspunsuri incorecte din punct de vedere factual, care sunt atrăgătoare din punct de vedere statistic.
Modelul GPT‑4 de bază este doar puțin mai bun la această sarcină decât GPT‑3.5; totuși, după post-instruirea RLHF (aplicând același proces pe care l-am folosit cu GPT‑3.5) există un decalaj mare. Examinând câteva exemple de mai jos, GPT‑4 renunță la selectarea unor proverbe comune (nu poți învăța un câine bătrân trucuri noi), cu toate acestea, poate totuși să omită detalii subtile (Elvis Presley nu a fost fiul unui actor).
Modelul poate avea diverse părtiniri în ieșirile sale - am făcut progrese în această privință, dar mai sunt multe de făcut. Conform postării noastre recente pe blog, ne propunem să facem ca sistemele de inteligență artificială pe care le construim să aibă comportamente implicite rezonabile care să reflecte o gamă largă de valori ale utilizatorilor, să permită personalizarea acestor sisteme în limite largi și să obținem feedback din partea publicului cu privire la care ar trebui să fie aceste limite.
GPT‑4 nu are, în general, cunoștințe despre evenimentele care au avut loc după ce marea majoritate a datelor sale s-au încheiat (septembrie 2021) și nu învață din experiența sa. Uneori poate face erori simple de raționament care nu par să se alinieze cu competența în atât de multe domenii sau poate fi prea credulă în acceptarea afirmațiilor false evidente de la un utilizator. Și uneori poate eșua la probleme dificile la fel cum o fac oamenii, cum ar fi introducerea vulnerabilităților de securitate în codul pe care îl produce.
GPT‑4 poate, de asemenea, să greșească în predicțiile sale, neavând grijă să verifice de două ori munca atunci când este probabil să facă o greșeală. Interesant este că modelul de bază pre-antrenat este extrem de calibrat (încrederea sa prezisă într-un răspuns corespunde, în general, probabilității de a fi corect). Totuși, prin procesul nostru actual de post-instruire, calibrarea este diminuată.
Am lucrat la îmbunătățirea GPT‑4 pentru a-l face mai sigur și mai aliniat încă de la începutul instruirii, cu eforturi care includ selectarea și filtrarea datelor de pre-instruire, evaluări și implicarea experților, îmbunătățiri ale siguranței modelului, monitorizare și aplicare.
GPT‑4 prezintă riscuri similare cu modelele anterioare, cum ar fi generarea de sfaturi dăunătoare, cod eronat sau informații inexacte. Cu toate acestea, capacitățile suplimentare ale GPT‑4 duc la noi suprafețe de risc. Pentru a înțelege amploarea acestor riscuri, am angajat peste 50 de experți din domenii precum riscurile de aliniere AI, securitatea cibernetică, riscuri biologice, încredere și siguranță și securitate internațională pentru a testa modelul în mod advers. Descoperirile lor ne-au activat posibilitatea de a testa comportamentul modelului în zone cu risc ridicat care necesită expertiză pentru evaluare. Feedback-ul și datele de la acești experți au contribuit la atenuările și îmbunătățirile aduse modelului nostru; de exemplu, am colectat date suplimentare pentru a îmbunătăți capacitatea GPT‑4 de a refuza solicitările de sintetizare a substanțelor chimice periculoase.
GPT‑4 încorporează un semnal suplimentar de recompensă de siguranță în timpul instruirii RLHF pentru a reduce ieșirile dăunătoare (așa cum sunt definite de ghidurile noastre de utilizare(se deschide într-o fereastră nouă)) prin antrenarea modelului să refuze cererile pentru un astfel de conținut. Recompensa este oferită de un clasificator zero-shot GPT‑4 care evaluează limitele de siguranță și stilul de completare pentru solicitările legate de siguranță. Pentru a preveni modelul să refuze cererile valide, colectăm un set de date diversificat din diverse surse (de exemplu, date de producție etichetate, red-teaming uman, solicitări generate de model) și aplicăm semnalul de recompensă de siguranță (cu o valoare pozitivă sau negativă) atât pe categoriile permise, cât și pe cele nepermise.
Atenuările noastre au îmbunătățit semnificativ multe dintre proprietățile de siguranță ale GPT‑4 comparativ cu GPT‑3.5. Am redus tendința modelului de a răspunde la solicitări de conținut nepermis cu 82% comparativ cu GPT‑3.5, iar GPT‑4 răspunde la solicitări sensibile (de exemplu, sfaturi medicale și auto-vătămare) în conformitate cu politicile noastre cu 29% mai frecvent.
În general, intervențiile noastre la nivel de model cresc dificultatea de a provoca un comportament neadecvat, dar acest lucru este încă posibil. În plus, există încă „jailbreak-uri” pentru a genera conținut care încalcă ghidurile noastre de utilizare. Pe măsură ce „riscul per token” al sistemelor AI crește, va deveni esențial să se atingă grade extrem de ridicate de fiabilitate în aceste intervenții; pentru moment, este important să se completeze aceste limitări cu tehnici de siguranță la momentul implementării, cum ar fi monitorizarea abuzurilor.
GPT‑4 și modelele succesoare au potențialul de a influența semnificativ societatea atât în moduri benefice, cât și dăunătoare. Colaborăm cu cercetători externi pentru a îmbunătăți modul în care înțelegem și evaluăm impacturile potențiale, precum și pentru a dezvolta evaluări pentru capabilitățile periculoase care ar putea apărea în sistemele viitoare. În curând vom împărtăși mai multe despre gândurile noastre privind impacturile sociale și economice potențiale ale GPT‑4 și ale altor sisteme AI.
La fel ca modelele GPT anterioare, modelul de bază GPT‑4 a fost antrenat să prezică următorul cuvânt dintr-un document și a fost antrenat folosind date disponibile public (cum ar fi datele de pe internet), precum și date pe care le-am licențiat. Datele sunt un corpus de date la scară web, incluzând soluții corecte și incorecte la probleme de matematică, raționamente slabe și puternice, afirmații contradictorii și consistente, și reprezentând o mare varietate de ideologii și idei.
Așadar, atunci când i se pune o întrebare, modelul de bază poate răspunde într-o varietate de moduri care ar putea fi departe de intenția utilizatorului. Pentru a-l alinia cu intenția utilizatorului în cadrul paravanelor de protecție, ajustăm fin comportamentul modelului folosind învățarea prin întărire cu feedback uman (RLHF).
Reține că aceste capabilități ale modelului par să provină în principal din procesul de pre-instruire - RLHF nu îmbunătățește performanța la examene (fără efort activ, de fapt o degradează). Însă conducerea modelului vine din procesul de post-antrenament - modelul de bază necesită solicitări specifice pentru a ști măcar că ar trebui să răspundă la întrebări.
Un punct central al proiectului GPT‑4 a fost construirea unui sistem de deep learning care să se scaleze predictibil. Motivul principal este că, pentru rulări de antrenament foarte mari, cum ar fi GPT‑4, nu este fezabil să se facă ajustări extinse specifice modelului. Am dezvoltat o infrastructură și o optimizare care au un comportament foarte previzibil la mai multe scale. Pentru a verifica această scalabilitate, am prezis cu exactitate în avans pierderea finală a GPT‑4 pe baza noastră de cod internă (care nu face parte din setul de antrenament) prin extrapolarea din modele antrenate folosind aceeași metodologie, dar cu o putere de calcul de 10.000 de ori mai mică:
Acum că putem prezice cu exactitate metrica pe care o optimizăm în timpul instruirii (pierdere), începem să dezvoltăm o metodologie pentru a prezice metrici mai ușor de interpretat. De exemplu, am prezis cu succes rata de promovare pe un subset al setului de date HumanEval(se deschide într-o fereastră nouă), extrapolând din modele cu un consum de resurse de 1.000 de ori mai mic:
Unele capabilități sunt încă greu de prezis. De exemplu, Premiul pentru Scalare Inversă a fost o competiție pentru a găsi o metrică ce se înrăutățește pe măsură ce crește puterea de calcul a modelului, iar neglijarea retrospectivă(se deschide într-o fereastră nouă) a fost unul dintre câștigători. La fel ca în cazul unui alt rezultat recent,(se deschide într-o fereastră nouă) GPT‑4 inversează tendința:
Credem că prezicerea exactă a viitoarelor capacități de învățare automată este o parte importantă a siguranței care nu primește suficientă atenție în raport cu impactul său potențial (deși am fost încurajați de eforturile mai multor instituții). Ne intensificăm eforturile pentru a dezvolta metode care să ofere societății o îndrumare mai bună despre la ce să se aștepte de la sistemele viitoare și sperăm că acest lucru va deveni un obiectiv comun în domeniu.
Facem OpenAI Evals(se deschide într-o fereastră nouă) open-source, cadrul nostru software pentru a crea și rula repere pentru evaluarea modelelor precum GPT‑4, inspectându-le performanța eșantion cu eșantion. Folosim Evals pentru a ghida dezvoltarea modelelor noastre (atât pentru identificarea deficiențelor, cât și pentru prevenirea regresiilor), iar utilizatorii noștri le pot folosi pentru a urmări performanța între versiunile de model (care vor fi lansate acum regulat) și pentru a dezvolta integrările de produse. De exemplu, Stripe a utilizat Evals pentru a completa evaluările umane și pentru a măsura precizia instrumentului său de documentare bazat pe GPT.
Deoarece codul este complet open-source, Evals acceptă scrierea de noi clase pentru a implementa logica de evaluare personalizată(se deschide într-o fereastră nouă). Din experiența noastră, totuși, multe repere urmează unul dintre câteva „șabloane”, așa că am inclus și șabloanele(se deschide într-o fereastră nouă) care au fost cele mai utile intern (inclusiv un șablon pentru „evaluări gradate de model” - am descoperit că GPT‑4 este surprinzător de capabil să-și verifice propria muncă). În general, cel mai eficient mod de a construi un nou eval(se deschide într-o fereastră nouă) este să instanțiezi unul dintre aceste șabloane și să furnizezi date. Suntem încântați să vedem ce pot construi alții cu aceste șabloane și cu Evals în general.
Sperăm ca Evals să devină un mijloc de partajare și colectare în masă a reperelor, reprezentând un set cât mai larg de moduri de eșec și sarcini dificile. Ca exemplu de urmat, am creat un eval de puzzle-uri logice(se deschide într-o fereastră nouă), care conține zece solicitări în care GPT‑4 eșuează. Evals este compatibil și cu implementarea reperelor existente; am inclus mai multe notebook-uri(se deschide într-o fereastră nouă) care implementează repere academice și câteva variante de integrare (a unor mici subseturi de) CoQA(se deschide într-o fereastră nouă) ca exemplu.
Invităm pe toată lumea să folosească Evals pentru a testa modelele noastre și să trimită cele mai interesante exemple. Credem că Evals va fi o parte integrantă a procesului de utilizare și dezvoltare a modelelor noastre și salutăm contribuțiile directe, întrebările și feedbackul(se deschide într-o fereastră nouă).
Abonații ChatGPT Plus vor primi acces la GPT‑4 pe chatgpt.com(se deschide într-o fereastră nouă) cu un plafon de utilizare. Vom ajusta plafonul de utilizare exact în funcție de cerere și de performanța sistemului în practică, dar ne așteptăm să fim sever constrânși din punct de vedere al capacității (deși vom extinde și optimiza în lunile următoare).
În funcție de tiparele de trafic pe care le observăm, s-ar putea să introducem un nou nivel de abonament pentru utilizarea GPT‑4 cu volum mai mare; de asemenea, sperăm ca la un moment dat să oferim un număr de interogări GPT‑4 gratuite, astfel încât cei fără abonament să le poată încerca și ei.
Pentru a obține acces la API-ul GPT‑4 (care utilizează același API ChatCompletions(se deschide într-o fereastră nouă) ca gpt-3.5-turbo), te rugăm să te înregistrezi pe lista noastră de așteptare. Vom începe să invităm câțiva dezvoltatori astăzi și vom extinde treptat invitațiile pentru a echilibra capacitatea cu cererea. Dacă ești un cercetător care studiază impactul social al AI sau problemele de aliniere AI, poți solicita, de asemenea, acces subvenționat prin intermediul Programului de acces pentru cercetători.
Odată ce ai acces, poți face solicitări doar text modelului GPT‑4 (intrările de imagine sunt încă în fază alfa limitată), pe care le vom actualiza automat la modelul nostru stabil recomandat, pe măsură ce lansăm versiuni noi în timp (poți fixa versiunea curentă apelând GPT‑4‑0314, pe care o vom accepta până în 14 iunie). Prețul este de 0,03 USD pe 1k tokenuri prompt și 0,06 USD pe 1k tokenuri de finalizare. Limitele implicite sunt de 40k tokenuri pe minut și 200 de solicitări pe minut.
GPT‑4 are o lungime de context de 8.192 de tokenuri. De asemenea, oferim acces limitat la versiunea noastră de 32.768 de contexte (aproximativ 50 de pagini de text), GPT‑4‑32k, care va fi actualizată automat în timp (versiunea curentă GPT‑4‑32k‑0314, acceptată până în 14 iunie). Prețul este de 0,06 USD pentru fiecare 1K de tokenuri prompt și 0,12 USD pentru fiecare 1K de tokenuri de finalizare. Încă îmbunătățim calitatea modelului pentru un context lung și ne-ar plăcea să primim feedback despre cum funcționează pentru cazul tău. Procesăm cererile pentru motoarele 8K și 32K la rate diferite în funcție de capacitate, astfel încât să primești acces la ele în momente diferite.
Așteptăm cu nerăbdare ca GPT‑4 să devină un instrument valoros în îmbunătățirea vieții oamenilor prin susținerea multor aplicații. Mai avem mult de lucru și așteptăm cu nerăbdare să îmbunătățim acest model prin eforturile colective ale comunității care construiește pe el, îl explorează și contribuie la model.
Pentru mai multe: Citește lucrarea(se deschide într-o fereastră nouă) / Vezi fișa sistemului(se deschide într-o fereastră nouă) / Încearcă ChatGPT Plus(se deschide într-o fereastră nouă) / Încearcă în Playground(se deschide într-o fereastră nouă) / Revezi demonstrația în direct(se deschide într-o fereastră nouă) / Contribuie la OpenAI Evals(se deschide într-o fereastră nouă)
Exemplu de întrebări MMLU, traduse în alte limbi. Notă, folosim tokenuri de alegere consecvente (A–D):
Note de subsol
- A
Evaluăm acest criteriu de referință folosind îndrumări de tip lanț de gânduri cu 4 exemple din setul de antrenament în context. Promptul specific a fost ajustat pe setul de validare.
Referințe
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Analiza suplimentară este disponibilă în articol(se deschide într-o fereastră nouă).


