Učenje modela da svoju nesigurnost izraze rečima

Pokazujemo da GPT‑3 model može da nauči da izrazi nesigurnost u vezi sa sopstvenim odgovorima prirodnim jezikom — bez upotrebe modelskih logita. Kada dobije pitanje, model generiše i odgovor i nivo pouzdanosti (npr. „90% pouzdanosti“ ili „visoka pouzdanost“). Ovi nivoi odgovaraju verovatnoćama koje su dobro kalibrisane. Model takođe ostaje umereno kalibrisan pri promeni distribucije i osetljiv je na nesigurnost u sopstvenim odgovorima, umesto da oponaša ljudske primere. Koliko nam je poznato, ovo je prvi put da je pokazano da model prirodnim jezikom izražava kalibrisanu nesigurnost u vezi sa sopstvenim odgovorima. Za testiranje kalibracije uvodimo skup zadataka CalibratedMath. Upoređujemo kalibraciju nesigurnosti izražene rečima („verbalizovana verovatnoća“) sa nesigurnošću izdvojenom iz modelskih logita. Obe vrste nesigurnosti mogu da generalizuju kalibraciju pri promeni distribucije. Takođe pružamo dokaze da sposobnost GPT‑3 da generalizuje kalibraciju zavisi od unapred obučenih latentnih reprezentacija koje koreliraju sa epistemičkom nesigurnošću u vezi sa njegovim odgovorima.


