14 de març del 2023

GPT‑4

Llegiu l'article Veure la fitxa del model Prova-ho a ChatGPT Plus

Més recursos

Prova-ho a Playground Torna a veure la demostració en directe Contribueix a OpenAI Evals

S'està carregant…

Hem creat GPT‑4, la fita més recent en l'esforç d'OpenAI per escalar l'aprenentatge profund. GPT‑4 és un gran model multimodal (accepta entrades d'imatge i text, i emet sortides de text) que, tot i ser menys capaç que els humans en molts escenaris del món real, mostra un rendiment a nivell humà en diversos punts de referència professionals i acadèmics. Per exemple, aprova un examen d'accés a l'advocacia simulat amb una puntuació al voltant del 10% superior dels examinands; en canvi, la puntuació de GPT‑3.5 se situava al voltant del 10% inferior. Hem dedicat 6 mesos a alinear⁠ iterativament GPT‑4 fent servir lliçons del nostre programa de proves adversàries, així com de ChatGPT, i això ha donat lloc als nostres millors resultats fins ara (tot i que lluny de ser perfectes) en factualitat, steerability i rebuig a sortir dels rails de protecció.

Durant els últims dos anys, hem reconstruït tota la nostra pila d'aprenentatge profund i, juntament amb Azure, hem codissenyat un superordinador des de zero per a la nostra càrrega de treball. Fa un any, vam entrenar GPT‑3.5 com a primera «prova de funcionament» del sistema. Vam trobar i corregir alguns errors i vam millorar els nostres fonaments teòrics. Com a resultat, la nostra execució d'entrenament de GPT‑4 va ser (almenys per a nosaltres!) extraordinàriament estable i es va convertir en el nostre primer gran model del qual vam poder predir amb precisió el rendiment d'entrenament abans d'hora. A mesura que continuem centrant-nos en un escalat fiable, pretenem perfeccionar la nostra metodologia per ajudar-nos a predir i preparar-nos per a capacitats futures amb una anticipació cada cop més gran, cosa que considerem crítica per a la seguretat.

Estem llançant la capacitat d'entrada de text de GPT‑4 a través de ChatGPT i l'API (amb una llista d'espera⁠). Per preparar la capacitat d'entrada d'imatge per a una disponibilitat més àmplia, estem col·laborant estretament amb un únic soci⁠(s'obre en una finestra nova) per començar. També estem publicant en codi obert OpenAI Evals⁠(s'obre en una finestra nova), el nostre marc per a l'avaluació automatitzada del rendiment de models d'IA, per permetre a qualsevol persona informar de mancances en els nostres models i ajudar a orientar millores futures.

Capacitats

En una conversa informal, la distinció entre GPT‑3.5 i GPT‑4 pot ser subtil. La diferència apareix quan la complexitat de la tasca arriba a un llindar suficient: GPT‑4 és més fiable, creatiu i capaç de gestionar instruccions molt més matisades que GPT‑3.5.

Per entendre la diferència entre els dos models, vam provar una varietat de punts de referència, inclosa la simulació d'exàmens dissenyats originalment per a humans. Ho vam fer utilitzant les proves públiques més recents disponibles (en el cas de les Olimpíades i de les preguntes de resposta lliure d'AP) o comprant edicions 2022–2023 d'exàmens de pràctica. No vam fer cap entrenament específic per a aquests exàmens. Una minoria dels problemes dels exàmens havien estat vistos pel model durant l'entrenament, però creiem que els resultats són representatius; vegeu el nostre informe tècnic⁠(s'obre en una finestra nova) per a més detalls.

referència interna ¹

S'està carregant...

També vam avaluar GPT‑4 en punts de referència tradicionals dissenyats per a models d'aprenentatge automàtic. GPT‑4 supera considerablement els grans models de llenguatge existents, juntament amb la majoria dels models d'última generació (SOTA), que poden incloure ajustos específics del punt de referència o protocols d'entrenament addicionals:

S'està carregant...

Molts punts de referència existents d'ML estan escrits en anglès. Per obtenir una idea inicial de la capacitat en altres idiomes, vam traduir el punt de referència MMLU —un conjunt de 14.000 problemes de resposta múltiple que abasten 57 matèries— a diversos idiomes amb Azure Translate (vegeu l'Apèndix⁠). En 24 dels 26 idiomes provats, GPT‑4 supera el rendiment en anglès de GPT‑3.5 i d'altres LLM (Chinchilla, PaLM), inclosos idiomes amb pocs recursos com el letó, el gal·lès i el suahili:

S'està carregant...

També hem estat fent servir GPT‑4 internament, amb un gran impacte en funcions com ara suport, vendes, moderació de contingut i programació. També l'estem utilitzant per ajudar els humans a avaluar les sortides d'IA, iniciant la segona fase de la nostra estratègia d'alineament⁠.

Entrades visuals

GPT‑4 pot acceptar una indicació de text i imatges que, en paral·lel a l'entorn només de text, permet a l'usuari especificar qualsevol tasca de visió o llenguatge. Concretament, genera sortides de text (llenguatge natural, codi, etc.) a partir d'entrades formades per text i imatges intercalats. En una gamma de dominis —inclosos documents amb text i fotografies, diagrames o captures de pantalla— GPT‑4 mostra capacitats similars a les que té amb entrades només de text. A més, es pot ampliar amb tècniques en temps de prova desenvolupades per a models de llenguatge només de text, incloses les indicacions amb pocs exemples i amb cadena de pensament⁠(s'obre en una finestra nova). Les entrades d'imatge continuen sent una previsualització de recerca i no estan disponibles públicament.

S'està carregant...

Avancem el rendiment de GPT‑4 avaluant-lo en un conjunt reduït de punts de referència visuals acadèmics estàndard. Tanmateix, aquestes xifres no representen completament l'abast de les seves capacitats, ja que descobrim constantment tasques noves i emocionants que el model és capaç d'abordar. Tenim previst publicar aviat anàlisis addicionals i xifres d'avaluació, així com una investigació exhaustiva de l'efecte de les tècniques en temps de prova.

nota interna^A

S'està carregant...

Steerability

Hem estat treballant en cada aspecte del pla exposat a la nostra publicació sobre com haurien de comportar-se les IA⁠, inclosa la steerability. En lloc de la personalitat clàssica de ChatGPT amb una verbositat, un to i un estil fixos, els desenvolupadors (i aviat els usuaris de ChatGPT) ara poden prescriure l'estil i la tasca de la seva IA descrivint aquestes indicacions al missatge de «sistema». Els missatges de sistema permeten als usuaris de l'API personalitzar significativament l'experiència dels seus usuaris dins d'uns límits⁠(s'obre en una finestra nova). Continuarem fent millores aquí (i sabem especialment que els missatges de sistema són la manera més fàcil de fer «jailbreak» al model actual, és a dir, l'adhesió als límits no és perfecta), però us animem a provar-ho i a fer-nos saber què en penseu.

S'està carregant...

Limitacions

Malgrat les seves capacitats, GPT‑4 té limitacions similars a les dels models GPT anteriors. El més important és que encara no és del tot fiable («al·lucina» fets i comet errors de raonament). S'ha de tenir molta cura en utilitzar sortides de models de llenguatge, especialment en contextos d'alt risc, i el protocol exacte (com ara revisió humana, ancoratge amb context addicional o evitar del tot els usos d'alt risc) s'ha d'ajustar a les necessitats d'un cas d'ús específic.

Tot i que continua sent un problema real, GPT‑4 redueix significativament les al·lucinacions en relació amb els models anteriors (que també han anat millorant amb cada iteració). GPT‑4 obté una puntuació un 40% superior a la del nostre GPT‑3.5 més recent en les nostres avaluacions internes adversàries de factualitat:

S'està carregant...

Hem avançat en punts de referència externs com TruthfulQA, que prova la capacitat del model per separar els fets d'un conjunt d'afirmacions incorrectes seleccionades de manera adversària. Aquestes preguntes s'aparellen amb respostes factualment incorrectes que resulten estadísticament atractives.

S'està carregant...

El model base GPT‑4 només és lleugerament millor en aquesta tasca que GPT‑3.5; tanmateix, després del postentrenament amb RLHF⁠ (aplicant el mateix procés que vam fer servir amb GPT‑3.5⁠) hi ha una gran diferència. Examinant alguns exemples a continuació, GPT‑4 es resisteix a seleccionar dites comunes («old dog new tricks»), però encara pot passar per alt detalls subtils (Elvis Presley no era fill d'un actor).

S'està carregant...

El model pot presentar diversos biaixos en les seves sortides; hem avançat en aquest aspecte, però encara queda feina per fer. Tal com explicàvem a la nostra publicació recent al blog⁠, volem que els sistemes d'IA que construïm tinguin comportaments predeterminats raonables que reflecteixin un ampli ventall de valors dels usuaris, permetin personalitzar aquests sistemes dins de límits amplis i recullin l'opinió pública sobre quins haurien de ser aquests límits.

GPT‑4 generalment no té coneixement d'esdeveniments ocorreguts després que es tallessin la gran majoria de les seves dades (setembre de 2021), i no aprèn de la seva experiència. De vegades pot cometre errors simples de raonament que no semblen concordar amb la competència que mostra en tants dominis, o ser excessivament crèdul en acceptar afirmacions òbviament falses d'un usuari. I de vegades pot fallar en problemes difícils de la mateixa manera que ho fan els humans, com ara introduint vulnerabilitats de seguretat en el codi que produeix.

GPT‑4 també pot equivocar-se amb confiança en les seves prediccions, sense tenir cura de revisar la feina quan és probable que cometi un error. Curiosament, el model base preentrenat està molt ben calibrat (la confiança prevista en una resposta generalment coincideix amb la probabilitat que sigui correcta). No obstant això, amb el nostre procés actual de postentrenament, aquest calibratge es redueix.

S'està carregant...

Riscos i mitigacions

Hem anat iterant sobre GPT‑4 per fer-lo més segur i més alineat des de l'inici de l'entrenament, amb esforços que inclouen la selecció i el filtratge de les dades de preentrenament, avaluacions i participació d'experts, millores de la seguretat del model, i supervisió i aplicació.

GPT‑4 planteja riscos similars als dels models anteriors, com ara generar consells perjudicials, codi amb errors o informació inexacta. Tanmateix, les capacitats addicionals de GPT‑4 comporten noves superfícies de risc. Per entendre l'abast d'aquests riscos, vam implicar més de 50 experts de dominis com els riscos d'alineament de la IA, la ciberseguretat, el biorisc, la confiança i seguretat, i la seguretat internacional perquè posessin el model a prova de manera adversària. Les seves troballes ens van permetre específicament provar el comportament del model en àrees d'alt risc que requereixen expertesa per ser avaluades. Els comentaris i les dades d'aquests experts van alimentar les nostres mitigacions i millores del model; per exemple, hem recopilat dades addicionals per millorar la capacitat de GPT‑4 de rebutjar sol·licituds sobre com sintetitzar productes químics perillosos.

GPT‑4 incorpora un senyal de recompensa de seguretat addicional durant l'entrenament amb RLHF per reduir les sortides nocives (tal com es defineixen a les nostres polítiques d'ús⁠(s'obre en una finestra nova)) entrenant el model perquè rebutgi sol·licituds d'aquest tipus de contingut. La recompensa la proporciona un classificador zero-shot de GPT‑4 que jutja els límits de seguretat i l'estil de compleció en indicacions relacionades amb la seguretat. Per evitar que el model rebutgi sol·licituds vàlides, recopilem un conjunt de dades divers de diverses fonts (p. ex., dades de producció etiquetades, red-teaming humà, indicacions generades pel model) i apliquem el senyal de recompensa de seguretat (amb un valor positiu o negatiu) tant en categories permeses com no permeses.

Les nostres mitigacions han millorat significativament moltes propietats de seguretat de GPT‑4 en comparació amb GPT‑3.5. Hem reduït en un 82% la tendència del model a respondre a sol·licituds de contingut no permès en comparació amb GPT‑3.5, i GPT‑4 respon a sol·licituds sensibles (p. ex., consell mèdic i autolesió) d'acord amb les nostres polítiques un 29% més sovint.

S'està carregant...

En conjunt, les nostres intervencions a nivell de model dificulten l'obtenció de comportaments nocius, però encara és possible fer-ho. A més, encara existeixen «jailbreaks» per generar contingut que infringeix les nostres polítiques d'ús⁠. A mesura que augmenta el «risc per segment» dels sistemes d'IA, serà crític assolir graus extremadament alts de fiabilitat en aquestes intervencions; de moment, és important complementar aquestes limitacions amb tècniques de seguretat en el desplegament, com ara la supervisió d'abusos.

GPT‑4 i els models successors tenen el potencial d'influir significativament en la societat tant de manera beneficiosa com perjudicial. Estem col·laborant amb investigadors externs per millorar com entenem i avaluem els impactes potencials, així com per crear avaluacions de capacitats perilloses que puguin aparèixer en sistemes futurs. Aviat compartirem més del nostre pensament sobre els possibles impactes socials i econòmics de GPT‑4 i altres sistemes d'IA.

Procés d'entrenament

Com els models GPT anteriors, el model base GPT‑4 es va entrenar per predir la paraula següent en un document, i es va entrenar fent servir dades disponibles públicament (com ara dades d'internet) així com dades que hem llicenciat. Les dades constitueixen un corpus a escala web que inclou solucions correctes i incorrectes a problemes de matemàtiques, raonament feble i fort, afirmacions autocontradictòries i coherents, i representa una gran varietat d'ideologies i idees.

Així, quan se li fa una pregunta, el model base pot respondre de moltes maneres que poden allunyar-se molt de la intenció de l'usuari. Per alinear-lo amb la intenció de l'usuari dins d'uns rails de protecció, ajustem el comportament del model mitjançant aprenentatge per reforç amb retroalimentació humana (RLHF⁠).

Tingueu en compte que les capacitats del model semblen provenir principalment del procés de preentrenament; RLHF no millora el rendiment als exàmens (sense un esforç actiu, de fet l'empitjora). Però la direcció del model prové del procés de postentrenament: el model base requereix enginyeria d'indicacions fins i tot per saber que ha de respondre les preguntes.

Escalat predictible

Un gran focus del projecte GPT‑4 ha estat construir una pila d'aprenentatge profund que escali de manera predictible. El motiu principal és que, per a execucions d'entrenament molt grans com GPT‑4, no és viable fer un ajust extensiu específic del model. Vam desenvolupar una infraestructura i una optimització amb un comportament molt predictible en múltiples escales. Per verificar aquesta escalabilitat, vam predir amb precisió per endavant la pèrdua final de GPT‑4 en la nostra base de codi interna (que no formava part del conjunt d'entrenament) extrapolant a partir de models entrenats amb la mateixa metodologia però fent servir 10.000x menys càlcul:

S'està carregant...

Ara que podem predir amb precisió la mètrica que optimitzem durant l'entrenament (la pèrdua), comencem a desenvolupar una metodologia per predir mètriques més interpretables. Per exemple, vam predir amb èxit la taxa d'aprovats en un subconjunt del conjunt de dades HumanEval⁠(s'obre en una finestra nova), extrapolant a partir de models amb 1.000x menys càlcul:

S'està carregant...

Algunes capacitats encara són difícils de predir. Per exemple, l'Inverse Scaling Prize era una competició per trobar una mètrica que empitjorés a mesura que augmentava el càlcul del model, i la negligència retrospectiva⁠(s'obre en una finestra nova) en va ser una de les guanyadores. Igual que amb un altre resultat recent,⁠(s'obre en una finestra nova) GPT‑4 inverteix la tendència:

S'està carregant...

Creiem que predir amb precisió les capacitats futures de l'aprenentatge automàtic és una part important de la seguretat que no rep ni de bon tros prou atenció en relació amb el seu impacte potencial (tot i que ens han animat els esforços de diverses institucions). Estem ampliant els nostres esforços per desenvolupar mètodes que proporcionin a la societat una millor orientació sobre què esperar dels sistemes futurs, i esperem que això esdevingui un objectiu comú en el camp.

OpenAI Evals

Estem publicant en codi obert OpenAI Evals⁠(s'obre en una finestra nova), el nostre marc de programari per crear i executar punts de referència per avaluar models com GPT‑4, tot inspeccionant-ne el rendiment mostra per mostra. Fem servir Evals per orientar el desenvolupament dels nostres models (tant per identificar mancances com per evitar regressions), i els nostres usuaris el poden aplicar per fer seguiment del rendiment entre versions de models (que ara s'aniran publicant regularment) i integracions de producte en evolució. Per exemple, Stripe ha fet servir Evals per complementar les seves avaluacions humanes a l'hora de mesurar la precisió de la seva eina de documentació impulsada per GPT.

Com que tot el codi és de codi obert, Evals permet escriure classes noves per implementar lògica d'avaluació personalitzada⁠(s'obre en una finestra nova). En la nostra experiència, però, molts punts de referència segueixen una d'unes quantes «plantilles», així que també hem inclòs les plantilles⁠(s'obre en una finestra nova) que ens han estat més útils internament (inclosa una plantilla per a «avaluacions qualificades pel model»; hem vist que GPT‑4 és sorprenentment capaç de comprovar la seva pròpia feina). En general, la manera més efectiva de crear una avaluació nova⁠(s'obre en una finestra nova) serà instanciar una d'aquestes plantilles i aportar-hi dades. Ens fa il·lusió veure què poden crear altres persones amb aquestes plantilles i amb Evals en general.

Esperem que Evals esdevingui un vehicle per compartir i obtenir punts de referència mitjançant col·laboració oberta, representant el conjunt més ampli possible de modes de fallada i tasques difícils. Com a exemple a seguir, hem creat una avaluació de trencaclosques lògics⁠(s'obre en una finestra nova) que conté deu indicacions on GPT‑4 falla. Evals també és compatible amb la implementació de punts de referència existents; hem inclòs diversos notebooks⁠(s'obre en una finestra nova) que implementen punts de referència acadèmics i algunes variacions d'integració de (petits subconjunts de) CoQA⁠(s'obre en una finestra nova) com a exemple.

Convidem tothom a fer servir Evals per posar a prova els nostres models i enviar els exemples més interessants. Creiem que Evals serà una part integral del procés d'ús i construcció sobre els nostres models, i agraïm les contribucions directes, preguntes i comentaris⁠(s'obre en una finestra nova).

ChatGPT Plus

Els subscriptors de ChatGPT Plus tindran accés a GPT‑4 a chatgpt.com⁠(s'obre en una finestra nova) amb un límit d'ús. Ajustarem el límit d'ús exacte en funció de la demanda i del rendiment del sistema a la pràctica, però esperem tenir restriccions de capacitat severes (tot i que ampliarem i optimitzarem durant els pròxims mesos).

Segons els patrons de trànsit que observem, és possible que introduïm un nou nivell de subscripció per a un ús de GPT‑4 de més volum; també esperem poder oferir en algun moment una certa quantitat de consultes gratuïtes a GPT‑4 perquè les persones sense subscripció també el puguin provar.

API

Per obtenir accés a l'API de GPT‑4 (que utilitza la mateixa API ChatCompletions⁠(s'obre en una finestra nova) que gpt-3.5-turbo), si us plau inscriviu-vos a la nostra llista d'espera⁠. Avui començarem a convidar alguns desenvolupadors i ampliarem gradualment per equilibrar capacitat i demanda. Si sou investigador i estudieu l'impacte social de la IA o qüestions d'alineament de la IA, també podeu sol·licitar accés subvencionat a través del nostre Programa d'accés per a investigadors⁠.

Un cop tingueu accés, podreu fer sol·licituds només de text al model gpt-4 (les entrades d'imatge encara són en una alfa limitada), que actualitzarem automàticament al nostre model estable recomanat a mesura que publiquem noves versions amb el temps (podeu fixar la versió actual cridant gpt-4-0314, que mantindrem fins al 14 de juny). El preu és de $0.03 per 1k segments d'indicació i de $0.06 per 1k segments de compleció. Els límits de taxa predeterminats són de 40k segments per minut i 200 sol·licituds per minut.

gpt-4 té una longitud de context de 8.192 segments. També oferim accés limitat a la nostra versió de context 32.768 (unes 50 pàgines de text), gpt-4-32k, que també s'actualitzarà automàticament amb el temps (versió actual gpt-4-32k-0314, també compatible fins al 14 de juny). El preu és de $0.06 per 1K segments d'indicació i de $0.12 per 1k segments de compleció. Encara estem millorant la qualitat del model per a contextos llargs i ens encantaria rebre comentaris sobre com funciona per al vostre cas d'ús. Processem les sol·licituds per als motors 8K i 32K a ritmes diferents segons la capacitat, així que és possible que hi rebeu accés en moments diferents.

Conclusió

Esperem que GPT‑4 esdevingui una eina valuosa per millorar la vida de les persones, impulsant moltes aplicacions. Encara queda molta feina per fer, i esperem millorar aquest model gràcies als esforços col·lectius de la comunitat que construeix sobre el model, l'explora i hi contribueix.

Per a més informació: Llegiu l'article⁠(s'obre en una finestra nova) / Veure la fitxa del model⁠(s'obre en una finestra nova) / Prova-ho a ChatGPT Plus⁠(s'obre en una finestra nova) / Prova-ho a Playground⁠(s'obre en una finestra nova) / Torna a veure la demostració en directe⁠(s'obre en una finestra nova) / Contribueix a OpenAI Evals⁠(s'obre en una finestra nova)

Apèndix

Exemple de preguntes MMLU, traduïdes a altres idiomes. Tingueu en compte que fem servir segments d'opció coherents (A–D):

S'està carregant...

Notes al peu

A
Avaluem aquest punt de referència mitjançant indicacions amb cadena de pensament amb 4 exemples del conjunt d'entrenament en context. La indicació específica es va ajustar sobre el conjunt de validació.

References

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper⁠(s'obre en una finestra nova).