Vai al contenuto principale
OpenAI

Stima dei rischi estremi associati ai peggiori scenari degli LLM open weight

Astratto

In questo documento, studiamo i rischi estremi associati ai peggiori scenari legati al rilascio di gpt-oss. Introduciamo il fine-tuning malevolo (MFT), con cui cerchiamo di stimolare al massimo le capacità ottimizzando i gpt-oss affinché siano i più efficienti possibile in due ambiti: quello biologico e della sicurezza informatica. Al fine di enfatizzare al massimo il rischio biologico (biorischio), curiamo le attività relative alla creazione di minacce e addestriamo i gpt-oss in un ambiente RL con navigazione web. Al fine di enfatizzare al massimo il rischio di cybersicurezza, addestriamo i gpt-oss in un ambiente di programmazione agentica per risolvere problemi legati alla sicurezza informatica (CTF). Compariamo questi modelli MFT con LLM open e closed weight sulle valutazioni dei punti critici di rischio. Se comparato ai modelli closed di frontiera, gpt-oss MFT ha prestazioni inferiori rispetto a OpenAI o3, un modello che si colloca al di sotto del livello di preparazione elevato per quanto riguarda il rischio biologico e la sicurezza informatica. Se comparati ai modelli open weight, i gpt-oss possono incrementare in modo marginale le capacità in ambito di rischio biologico, ma di fatto non sono in grado di sopravanzare il punto di rischio. Nel complesso, questi risultati hanno contribuito alla nostra decisione di pubblicare il modello e ci auguriamo che il nostro approccio MFT possa servire da guida utile per valutare i danni derivanti da futuri rilasci open weight.

Autore

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen e Chris Koch