Per què els models de llenguatge al·lucinen

A OpenAI, treballem de valent per fer que els sistemes d’IA siguin més útils i fiables. Tot i que els models de llenguatge són cada vegada més capaços, hi ha un repte que continua sent especialment difícil de resoldre del tot: les al·lucinacions. Amb això ens referim als casos en què un model genera amb seguretat una resposta que no és certa. El nostre nou article de recerca(s'obre en una finestra nova) sosté que els models de llenguatge al·lucinen perquè els procediments estàndard d’entrenament i d’avaluació premien endevinar per damunt de reconèixer la incertesa.
ChatGPT també al·lucina. GPT‑5 té significativament menys al·lucinacions especialment quan raona, però encara es produeixen. Les al·lucinacions continuen sent un repte fonamental per a tots els grans models de llenguatge, però estem treballant intensament per reduir-les encara més.
Les al·lucinacions són afirmacions plausibles però falses generades per models de llenguatge. Poden aparèixer de maneres sorprenents, fins i tot en preguntes aparentment senzilles. Per exemple, quan vam demanar a un chatbot molt utilitzat pel títol de la tesi doctoral d’Adam Tauman Kalai (un autor d’aquest article), va generar amb seguretat tres respostes diferents, i cap no era correcta. Quan li vam demanar la seva data de naixement, va donar tres dates diferents, també totes equivocades.
Les al·lucinacions persisteixen en part perquè els mètodes actuals d’avaluació creen incentius equivocats. Tot i que les avaluacions en si no causen directament les al·lucinacions, la majoria mesuren el rendiment del model d’una manera que fomenta endevinar en lloc de ser honest sobre la incertesa.
Pensa-hi com en un examen de tipus test. Si no saps la resposta però la dius a l’atzar, potser tens sort i l’encertes. Deixar-la en blanc et garanteix un zero. De la mateixa manera, quan els models s’avaluen només per l’exactitud, és a dir, pel percentatge de preguntes que responen exactament bé, se’ls incentiva a endevinar en lloc de dir «no ho sé».
Com a altre exemple, suposem que es demana a un model de llenguatge la data de naixement d’una persona però no la sap. Si respon a l’atzar «10 de setembre», té una probabilitat d’1 entre 365 d’encertar-la. Dir «no ho sé» garanteix zero punts. Al llarg de milers de preguntes de prova, el model que endevina acaba semblant millor a les classificacions que un model prudent que admet la incertesa.
Per a preguntes en què hi ha una sola «resposta correcta», es poden considerar tres categories de respostes: respostes precises, errors i abstencions, en què el model no s’arrisca a endevinar. Abstenir-se forma part de la humilitat, un dels valors fonamentals d’OpenAI. La majoria de classificacions prioritzen i ordenen els models segons l’exactitud, però els errors són pitjors que les abstencions. La nostra especificació del model(s'obre en una finestra nova) afirma que és millor indicar incertesa o demanar aclariments que no pas proporcionar informació amb seguretat que pot ser incorrecta.
Per a un exemple concret, considereu l’avaluació SimpleQA com a exemple de la fitxa del model de GPT5(s'obre en una finestra nova).
Mètrica | gpt-5-thinking-mini | OpenAI o4-mini |
Taxa d’abstenció | 52% | 1% |
Taxa d’exactitud | 22% | 24% |
Taxa d’error | 26% | 75% |
Total | 100% | 100% |
En termes d’exactitud, l’antic model OpenAI o4-mini rendeix lleugerament millor. Tanmateix, la seva taxa d’error (és a dir, la taxa d’al·lucinació) és significativament més alta. Endevinar estratègicament quan hi ha incertesa millora l’exactitud però augmenta els errors i les al·lucinacions.
Quan es fan mitjanes dels resultats de desenes d’avaluacions, la majoria de benchmarks seleccionen la mètrica d’exactitud, però això implica una falsa dicotomia entre correcte i incorrecte. En avaluacions simplistes com SimpleQA, alguns models assoleixen una exactitud propera al 100% i així eliminen les al·lucinacions. Tanmateix, en avaluacions més difícils i en l’ús real, l’exactitud queda per sota del 100% perquè hi ha algunes preguntes la resposta de les quals no es pot determinar per diversos motius, com ara informació no disponible, capacitats limitades de pensament en models petits o ambigüitats que cal aclarir.
Malgrat això, les classificacions basades només en l’exactitud dominen els rànquings i les fitxes del model, i motiven els desenvolupadors a construir models que endevinin en lloc de contenir-se. Aquesta és una de les raons per les quals, fins i tot a mesura que els models es tornen més avançats, encara poden al·lucinar i donar amb seguretat respostes incorrectes en lloc de reconèixer la incertesa.
Hi ha una solució senzilla. Penalitzeu més els errors segurs que no pas la incertesa, i doneu crèdit parcial per expressions adequades d’incertesa. Aquesta idea no és nova. Fa temps que algunes proves estandarditzades utilitzen versions de penalització negativa per a respostes incorrectes o crèdit parcial per deixar preguntes en blanc, per desincentivar les endevinalles a cegues. Diversos grups de recerca també han explorat avaluacions que tenen en compte la incertesa i el calibratge.
El nostre punt és diferent. No n’hi ha prou amb afegir al marge unes quantes proves noves conscients de la incertesa. Cal actualitzar les avaluacions d’ús generalitzat basades en l’exactitud perquè la seva puntuació desincentivi endevinar. Si les classificacions principals continuen premiant els encerts de sort, els models continuaran aprenent a endevinar. Corregir les classificacions pot ampliar l’adopció de tècniques per reduir les al·lucinacions, tant les desenvolupades recentment com les provinents de recerques anteriors.
Hem parlat de per què les al·lucinacions són tan difícils d’eliminar, però d’on provenen, en primer lloc, aquestes inexactituds factuals tan específiques? Al cap i a la fi, els grans models preentrenats poques vegades mostren altres tipus d’errors, com ara faltes d’ortografia o parèntesis descompensats. La diferència té a veure amb quins tipus de patrons hi ha a les dades.
Els models de llenguatge primer aprenen mitjançant el preentrenament, un procés de predicció de la paraula següent en quantitats ingents de text. A diferència dels problemes tradicionals d’aprenentatge automàtic, no hi ha etiquetes de «vertader/fals» associades a cada afirmació. El model només veu exemples positius de llenguatge fluid i ha d’aproximar la distribució general.
És doblement difícil distingir les afirmacions vàlides de les no vàlides quan no tens cap exemple etiquetat com a no vàlid. Però fins i tot amb etiquetes, alguns errors són inevitables. Per entendre per què, considerem una analogia més senzilla. En reconeixement d’imatges, si milions de fotos de gats i gossos estan etiquetades com a «gat» o «gos», els algorismes poden aprendre a classificar-les de manera fiable. Però imagina, en canvi, que cada foto d’una mascota s’etiqueta amb la data de naixement de la mascota. Com que les dates de naixement són essencialment aleatòries, aquesta tasca sempre produiria errors, per molt avançat que fos l’algorisme.
El mateix principi s’aplica al preentrenament. L’ortografia i els parèntesis segueixen patrons coherents, així que aquests errors desapareixen amb l’escala. Però els fets arbitraris de baixa freqüència, com la data de naixement d’una mascota, no es poden predir només a partir de patrons i, per tant, donen lloc a al·lucinacions. La nostra anàlisi explica quins tipus d’al·lucinacions haurien de sorgir de la predicció de la paraula següent. Idealment, les etapes posteriors al preentrenament les haurien d’eliminar, però això no té un èxit complet pels motius descrits a la secció anterior.
Esperem que la perspectiva estadística del nostre article aclareixi la naturalesa de les al·lucinacions i contraresti algunes idees equivocades habituals:
- Afirmació: Les al·lucinacions s’eliminaran millorant l’exactitud perquè un model amb una exactitud del 100% no al·lucina mai.
Conclusió: L’exactitud no arribarà mai al 100% perquè, independentment de la mida del model, de les capacitats de cerca i de raonament, algunes preguntes del món real són inherentment impossibles de respondre. - Afirmació: Les al·lucinacions són inevitables.
Conclusió: No ho són, perquè els models de llenguatge poden abstenir-se quan no estan segurs. - Afirmació: Evitar les al·lucinacions requereix un grau d’intel·ligència que només es pot assolir amb models més grans.
Conclusió: Pot ser més fàcil per a un model petit conèixer els seus límits. Per exemple, quan se li demana que respongui una pregunta en maori, un model petit que no sap maori pot simplement dir «no ho sé», mentre que un model que en sap una mica ha de determinar el seu grau de confiança. Com s’explica a l’article, estar «calibrat» requereix molta menys computació que ser precís. - Afirmació: Les al·lucinacions són un error misteriós dels models de llenguatge moderns.
Conclusió: Entenem els mecanismes estadístics pels quals les al·lucinacions sorgeixen i es veuen recompensades en les avaluacions. - Afirmació: Per mesurar les al·lucinacions, només ens cal una bona avaluació d’al·lucinacions.
Conclusió: S’han publicat avaluacions d’al·lucinacions. Tanmateix, una bona avaluació d’al·lucinacions té poc efecte davant de centenars d’avaluacions tradicionals basades en l’exactitud que penalitzen la humilitat i premien endevinar. En canvi, totes les mètriques principals d’avaluació s’han de redissenyar perquè recompensin les expressions d’incertesa.
Els nostres models més recents tenen taxes d’al·lucinació més baixes, i continuem treballant intensament per reduir encara més les taxes d’errors segurs produïts pels nostres models de llenguatge.
Col·laboradors de l’anunci
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel i Johannes Heidecke


