Cómo enseñar a los modelos a expresar en palabras su incertidumbre

Mostramos cómo un modelo GPT‑3 puede aprender a expresar incertidumbre sobre sus propias respuestas en un lenguaje natural, sin el uso de logits de modelo. Cuando le hacen una pregunta, el modelo genera tanto una respuesta como un nivel de confianza (por ejemplo, “confianza del 90 %” o “confianza alta”). Estos niveles se asignan a probabilidades que están bien calibradas. El modelo también se mantiene moderadamente calibrado en el cambio de distribución y es sensible a la incertidumbre en sus propias respuestas, en lugar de imitar los ejemplos humanos. Según entendemos, esta es la primera vez que un modelo expresa incertidumbre calibrada respecto de sus propias respuestas en un lenguaje natural. Para probar la calibración, presentamos el conjunto de tareas CalibratedMath. Comparamos la calibración de la incertidumbre expresada en palabras (“probabilidad verbalizada”) con la incertidumbre extraída de logits de modelo. Ambos tipos de incertidumbre son capaces de generalizar la calibración en el cambio de distribución. También presentamos evidencia de que la capacidad de GPT‑3 para generalizar la calibración depende de representaciones latentes entrenadas previamente, que se relacionan con la incertidumbre epistémica sobre sus respuestas.


