Enseñar a los modelos a expresar su incertidumbre con palabras

Hemos demostrado que un modelo GPT‑3 puede aprender a expresar incertidumbre sobre sus propias respuestas usando un lenguaje natural y sin usar logits de modelo. Cuando se le formula una pregunta, el modelo genera una respuesta y su respectivo nivel de certeza (por ejemplo, «90 % de certeza» o «certeza alta»). Estos niveles representan probabilidades bien calibradas. Igualmente, el modelo también se mantiene moderadamente calibrado bajo el cambio de distribución y es consciente de la incertidumbre de sus propias respuestas en vez de imitar los ejemplos humanos. Hasta donde sabemos, es la primera vez que se ha demostrado que un modelo expresa una incertidumbre calibrada sobre sus propias respuestas usando un lenguaje natural. Para probar la calibración, presentamos el conjunto de tareas CalibratedMath. Comparamos la calibración de la incertidumbre expresada en palabras («probabilidad verbalizada») con la incertidumbre extraída de los logits del modelo. Ambos tipos de incertidumbre pueden generalizar la calibración bajo el cambio de la distribución. Asimismo, proporcionamos pruebas de que la capacidad de GPT‑3 para generalizar la calibración depende de las representaciones latentes preentrenadas que se correlacionan con la incertidumbre epistémica sobre sus propias respuestas.


