Ensenyar els models a expressar la seva incertesa amb paraules

Mostrem que un model GPT‑3 pot aprendre a expressar la incertesa sobre les seves pròpies respostes en llenguatge natural, sense utilitzar els logits del model. Quan se li dona una pregunta, el model genera tant una resposta com un nivell de confiança (p. ex., "90% de confiança" o "confiança alta"). Aquests nivells es corresponen amb probabilitats ben calibrades. El model també es manté moderadament calibrat sota un canvi de distribució, i és sensible a la incertesa de les seves pròpies respostes, en lloc d'imitar exemples humans. Pel que sabem, aquesta és la primera vegada que s'ha demostrat que un model expressa en llenguatge natural una incertesa calibrada sobre les seves pròpies respostes. Per provar el calibratge, presentem el conjunt de tasques CalibratedMath. Comparem el calibratge de la incertesa expressada amb paraules ("probabilitat verbalitzada") amb la incertesa extreta dels logits del model. Tots dos tipus d'incertesa són capaços de generalitzar el calibratge sota un canvi de distribució. També aportem proves que la capacitat de GPT‑3 per generalitzar el calibratge depèn de representacions latents preentrenades que es correlacionen amb la incertesa epistèmica sobre les seves respostes.

Ensenyar els models a expressar la seva incertesa amb paraules

Resum

Autors

Articles relacionats