Dietro il nostro approccio al Model Spec
Con il progressivo aumento delle capacità e della diffusione dei sistemi di IA, abbiamo bisogno di un quadro pubblico chiaro su come dovrebbero comportarsi.
In OpenAI riteniamo che l’IA debba essere equa, sicura e accessibile, affinché più persone possano utilizzarla per affrontare problemi complessi, creare opportunità e trarne beneficio in ambiti come salute, scienza, istruzione, lavoro e vita quotidiana. Riteniamo che un accesso democratizzato all’IA sia la strada migliore: non un’IA i cui benefici o il cui controllo siano concentrati nelle mani di pochi, ma un’IA a cui più persone possano accedere, comprendere e contribuire a plasmare.
Questo è uno dei motivi principali per cui esiste il documento Model Spec OpenAI. Il Model Spec(si apre in una nuova finestra) è il nostro quadro di riferimento formale per il comportamento del modello. Definisce come vogliamo che i modelli seguano le istruzioni, risolvano i conflitti, rispettino la libertà degli utenti e si comportino in modo sicuro nell’ampia gamma di richieste che ricevono ogni giorno. Più in generale, è il nostro tentativo di rendere esplicito il comportamento previsto del modello: non solo all’interno del processo di addestramento, ma in una forma che utenti, sviluppatori, ricercatori, responsabili politici e pubblico possano leggere, esaminare e discutere.
Il Model Spec non afferma che i nostri modelli si comportino già oggi perfettamente in questo modo. Per molti aspetti è descrittivo, ma rappresenta anche un obiettivo verso cui vogliamo far evolvere il comportamento del modello. Lo utilizziamo per rendere più chiaro il comportamento previsto, così da poter addestrare il modello in quella direzione, valutarlo rispetto a tale obiettivo e migliorarlo nel tempo.
Questo articolo condivide il contesto che non è presente nel Model Spec stesso, inclusi la filosofia e i meccanismi alla sua base: come è strutturato, perché abbiamo fatto queste scelte strutturali e come lo scriviamo, lo implementiamo e lo evolviamo nel tempo.
Il Model Spec è parte dell’approccio più ampio di OpenAI a un’IA sicura e responsabile. Mentre il Preparedness Framework si concentra sui rischi legati alle capacità di frontiera e sulle misure di mitigazione necessarie con l’aumentare di tali rischi, il Model Spec affronta una questione diversa ma complementare: come i nostri modelli dovrebbero comportarsi in un’ampia gamma di situazioni. In una prospettiva più ampia, la resilienza dell’IA mira ad aiutare la società a cogliere i benefici dell’IA avanzata, riducendo al contempo le perturbazioni e i rischi emergenti associati alla diffusione di sistemi sempre più capaci. Nel complesso, queste iniziative mirano a rendere la transizione verso l’AGI graduale, iterativa e comprensibile a livello democratico: offrendo a persone e istituzioni il tempo di adattarsi, mentre si costruiscono garanzie, meccanismi di responsabilità e una comprensione pubblica adeguata per mantenere sistemi avanzati allineati agli interessi umani.
La chiarezza pubblica sul comportamento del modello è fondamentale sia per l’equità sia per la sicurezza. È fondamentale per l’equità, perché le persone devono comprendere come e perché l’IA le tratta in un certo modo, ed essere in grado di individuare, mettere in discussione e affrontare eventuali problemi di imparzialità. Ed è fondamentale per la sicurezza, perché con l’aumento delle capacità dei sistemi di IA, persone e istituzioni hanno bisogno di aspettative più chiare su come dovrebbero comportarsi, sui compromessi che implicano e su come tali scelte possano essere migliorate nel tempo. Questo livello di comprensibilità rafforza anche la resilienza, offrendo a un numero maggiore di persone elementi concreti da esaminare, discutere e migliorare.
Dalla prima versione del 2024, il Model Spec si è evoluto in modo significativo: abbiamo approfondito la comprensione delle preferenze e delle esigenze degli utenti, ampliato la copertura per adattarlo a capacità sempre maggiori e integrato il feedback pubblico sia sui comportamenti del modello sia sul documento Model Spec stesso. Nello spirito della distribuzione iterativa, il Model Spec è un documento in evoluzione che combina valori di fondo e regole esplicite e comprensibili, insieme a un processo per aggiornare i singoli elementi sulla base dell’esperienza reale e del feedback. Stiamo inoltre investendo in meccanismi di feedback pubblico come l'allineamento collettivo per contribuire a garantire che le persone mantengano il controllo su come l’IA viene utilizzata e su come viene definito il suo comportamento.
Internamente, ci fornisce una stella polare per il comportamento previsto e un quadro condiviso per la formazione, la valutazione e la governance. All’esterno, crea un punto di riferimento pubblico che le persone possono usare per comprendere il nostro approccio, valutarlo criticamente e contribuire a migliorarlo nel tempo.
Il documento Model Spec è composto da diversi tipi di linee guida per il modello. È una scelta voluta. Diverse componenti del comportamento del modello devono essere gestite in modi differenti, e un documento pubblico efficace deve fare più che limitarsi a elencare regole.
Il Model Spec inizia con un intento di alto livello: una spiegazione chiara di ciò che stiamo cercando di ottimizzare a livello di sistema e del perché.
Questo preambolo chiarisce tre obiettivi relativi al modo in cui intendiamo perseguire la nostra missione:
- Distribuire in modo iterativo modelli che diano più strumenti a sviluppatori e utenti
- Evitare che i nostri modelli causino gravi danni agli utenti o ad altri
- Mantenere la licenza di OpenAI per operare
Spiega poi come pensiamo di bilanciare questi obiettivi nella pratica, rendendo i compromessi sufficientemente concreti da supportare i principi più dettagliati che seguono.
È importante notare che questo preambolo non è inteso come un’istruzione diretta per il modello. Portare benefici all’umanità è l’obiettivo di OpenAI, non un obiettivo che vogliamo che i nostri modelli perseguano in modo autonomo. Vogliamo invece che i modelli seguano una catena di comando che includa il Model Spec e le istruzioni applicabili di OpenAI, degli sviluppatori e degli utenti, anche quando alcune persone potrebbero non essere d’accordo con il risultato in un caso specifico.
Riteniamo che questo sia il giusto equilibrio, perché attribuiamo valore all’autonomia umana e alla libertà intellettuale. Se addestrassimo i modelli a decidere a quali istruzioni obbedire in base alla nostra visione di ciò che è bene per la società, OpenAI si troverebbe nella posizione di giudicare la moralità a un livello molto ampio. Detto ciò, il preambolo rimane importante. Quando c’è ambiguità su come applicare il Model Spec, il preambolo dovrebbe aiutare a risolverla.
Il Model Spec contiene anche impegni pubblici che vanno oltre il comportamento del modello direttamente misurabile, includendo intenti di addestramento e vincoli di implementazione. Ad esempio, i nostri principi inderogabili(si apre in una nuova finestra) includono l’impegno che, nelle implementazioni proprietarie come ChatGPT, non useremo mai i messaggi di sistema per compromettere intenzionalmente l’ obiettività(si apre in una nuova finestra) o principi correlati; e Nessun altro obiettivo(si apre in una nuova finestra) stabilisce impegni riguardo alla nostra intenzione di ottimizzare le risposte del modello a beneficio dell’utente, e non per i ricavi o per aumentare il tempo di permanenza sul sito senza beneficio per l’utente.
Al centro del Model Spec vi è la catena di comando: un quadro di riferimento per stabilire quali istruzioni debbano applicarsi in una determinata situazione. Copre anche il modo in cui il modello dovrebbe gestire istruzioni non sufficientemente specificate, soprattutto in contesti agentici in cui ci si aspetta che completi autonomamente i dettagli, controllando al contempo con attenzione gli effetti nel mondo reale.
L’idea di base per stabilire quali istruzioni debbano applicarsi è semplice. Le istruzioni possono provenire da fonti diverse, tra cui OpenAI, gli sviluppatori e gli utenti. Queste istruzioni possono entrare in conflitto. La Catena di comando spiega come il modello dovrebbe risolvere tali conflitti.
Ogni politica del Model Spec e ogni istruzione hanno un livello di autorità(si apre in una nuova finestra). Al modello viene richiesto di dare priorità sia alla lettera sia allo spirito delle istruzioni di livello superiore quando sorgono conflitti. Se un utente chiede aiuto per costruire una bomba, il modello dovrebbe dare priorità a rigorosi confini di sicurezza(si apre in una nuova finestra). Se un utente chiede di essere preso in giro, il modello dovrebbe generalmente dare priorità a tale richiesta rispetto alla policy contro gli abusi(si apre in una nuova finestra) di livello inferiore del Model Spec.
Questa struttura ci consente di definire un insieme relativamente ridotto di regole non sovrascrivibili, insieme a un insieme più ampio di impostazioni predefinite. È così che cerchiamo di massimizzare la libertà dell’utente e il controllo dello sviluppatore, nel rispetto dei vincoli di sicurezza.
- Le regole rigide sono limiti espliciti che non possono essere ignorati da utenti o sviluppatori (nel linguaggio del Model Spec, si tratta di istruzioni di livello “root” o “system”). Sono per lo più di natura proibitiva e richiedono ai modelli di evitare comportamenti che potrebbero contribuire a rischi catastrofici, causare danni fisici diretti, violare la legge o compromettere la catena di comando. Ci aspettiamo che l’IA diventi una tecnologia fondamentale per la società, analoga all’infrastruttura di base di Internet; pertanto, imponiamo regole che potrebbero limitare la libertà intellettuale solo quando riteniamo che siano necessarie per l’ampia gamma di sviluppatori e utenti che interagiranno con essa. Nel Model Spec, Stay in bounds(si apre in una nuova finestra) contiene regole rigide che affrontano concreti rischi per la sicurezza nel mondo reale, e Under-18 Principles(si apre in una nuova finestra) aggiunge ulteriori misure di protezione per gli utenti sotto i 18 anni.
- I valori predefiniti sono punti di partenza modificabili: il comportamento che l’assistente adotta come “ipotesi migliore” quando l’utente o lo sviluppatore non hanno specificato una preferenza. Utilizziamo i valori predefiniti per rendere il comportamento prevedibile e controllabile su larga scala, così che le persone possano anticipare ciò che accade senza dover scrivere ogni volta un set di istruzioni personalizzato. I valori predefiniti preservano la controllabilità: utenti e sviluppatori possono guidare esplicitamente il tono, il livello di approfondimento, il formato e persino il punto di vista entro i limiti di sicurezza. Le impostazioni predefinite a livello di linee guida (come il tono o lo stile) sono concepite per poter essere orientate implicitamente, mentre le impostazioni predefinite a livello utente (come la veridicità e l’obiettività) costituiscono punti di riferimento per la fiducia e la prevedibilità e possono essere sostituite solo da istruzioni esplicite. Queste non dovrebbero cambiare silenziosamente in base a impressioni vaghe; se l’utente desidera una posizione fattuale diversa, renderla un’istruzione esplicita mantiene il cambiamento trasparente e comprensibile. Queste impostazioni predefinite si riflettono in Cercare la verità insieme(si apre in una nuova finestra), Fare il miglior lavoro possibile(si apre in una nuova finestra) e Usare uno stile appropriato(si apre in una nuova finestra), incluse le norme relative a onestà e obiettività, all’evitare la compiacenza e le norme di interazione come la schiettezza e un calore e una professionalità adeguati al contesto.
Al di là della gerarchia stessa, il Model Spec utilizza strumenti interpretativi per aiutare modelli (ed esseri umani) ad applicarlo in modo coerente nelle zone grigie. Questi strumenti includono:
- Criteri decisionali che aiutano il modello a compiere scelte coerenti nelle zone grigie, senza presumere l’esistenza di un’unica regola meccanica. Ad esempio, le indicazioni del Model Spec sul controllo degli effetti collaterali(si apre in una nuova finestra) elencano considerazioni come ridurre al minimo le azioni irreversibili, mantenere le azioni proporzionate all’obiettivo, ridurre le sorprese negative e privilegiare approcci reversibili, che dovrebbero essere bilanciate con altri obiettivi, come completare il compito in modo rapido ed efficace.
- Esempi concreti che mostrano come un principio dovrebbe essere applicato nella pratica. Si tratta di brevi esempi di prompt e risposta che di solito includono sia una risposta conforme sia una non conforme, spesso su un prompt complesso vicino a un importante confine decisionale. L’obiettivo non è simulare una conversazione realistica completa. Serve a chiarire la distinzione fondamentale e a farlo in un modo che dimostri anche lo stile di risposta desiderato.
Manteniamo il numero di esempi relativamente ridotto e ci concentriamo su quelli più informativi. Suite di valutazione più ampie contribuiscono a coprire una porzione maggiore della coda lunga.
Un esempio che illustra i principi della libertà intellettuale e dell’assenza di giudizio dalla sezione della Spec Supporre buone intenzioni(si apre in una nuova finestra).
Il Model Spec è un’ interfaccia, non un’implementazione. Descrive il comportamento desiderato, non ogni dettaglio di come lo realizziamo. Cerchiamo di evitare di vincolarla a dettagli di implementazione, come i formati interni dei token o le specifiche procedure di addestramento per un determinato comportamento, perché tali dettagli possono cambiare anche quando il comportamento desiderato resta invariato. Il pubblico principale del Model Spec non è il modello, ma le persone: serve ad aiutare dipendenti OpenAI, utenti, sviluppatori, ricercatori e decisori politici a comprendere, discutere e definire il comportamento previsto.
La Spec descrive il modello, non l’intero prodotto. È integrato dalle nostre politiche di utilizzo, che definiscono le nostre aspettative su come le persone dovrebbero utilizzare l'API e ChatGPT. Il sistema con cui gli utenti interagiscono include molto più del solo modello: anche le funzionalità del prodotto, come istruzioni personalizzate e memoria, il monitoraggio, l’applicazione delle policy e altri livelli sono fondamentali. La sicurezza va ben oltre il comportamento del modello e crediamo nella difesa su più livelli.
La Spec non è una descrizione completa dell’intero stack di addestramento né di tutte le distinzioni tra le policy interne. L’obiettivo non è coprire ogni dettaglio. Serve a rendere comprensibili le decisioni comportamentali più importanti, in modo pienamente coerente con il comportamento previsto del modello.
Ci sono diverse ragioni per includere così tanti elementi nella Spec, invece di presumere che il lettore, o il modello, possa dedurre tutto da pochi obiettivi di alto livello.
Innanzitutto, il Model Spec è uno strumento di trasparenza e responsabilità . È pensata per favorire un feedback pubblico significativo. Un riferimento pubblico chiaro aiuta a distinguere se un comportamento è un bug o una funzionalità. Fornisce un punto di riferimento stabile per la critica e per un feedback concreto. Ecco perché abbiamo reso open source(si apre in una nuova finestra) il Model Spec e scelto di iterare in modo pubblico Dalla prima versione, molte modifiche sono state introdotte sulla base del feedback pubblico, raccolto attraverso diversi canali, tra cui moduli di feedback, critiche pubbliche e iniziative mirate a raccogliere contributi democratici.
In secondo luogo, il Model Spec è uno strumento di coordinamento all'interno di OpenAI. Fornisce a chi si occupa di ricerca, prodotto, sicurezza, policy, ambito legale, comunicazione e altre funzioni un vocabolario condiviso per discutere il comportamento del modello e un meccanismo per proporre e valutare le modifiche.
In terzo luogo, politiche esplicite possono compensare le limitazioni pratiche dell’intelligenza del modello e del contesto di runtime e rendere il comportamento più prevedibile. Sebbene ciò sia sempre meno vero nel tempo, alcune politiche mirano a compensare un’intelligenza insufficiente, nei casi in cui i modelli potrebbero non essere in grado di derivare in modo affidabile il comportamento corretto da principi di livello superiore. Ad esempio, Sii chiaro e diretto(si apre in una nuova finestra) consigliava ai modelli precedenti di mostrare il proprio ragionamento prima di fornire una risposta per problemi complessi che richiedono calcoli, ma oggi i nostri modelli apprendono naturalmente questo comportamento attraverso l'apprendimento per rinforzo.
Altre policy affrontano il contesto limitato in fase di esecuzione: l’assistente può basarsi solo su ciò che è osservabile nell’interazione corrente e raramente conosce la situazione completa dell’utente, il suo intento, l’uso a valle o le misure di sicurezza presenti al di fuori del modello. In questi casi, anche se i modelli potrebbero individuare il comportamento corretto con sufficiente analisi e riflessione, la specificità migliora l’efficienza e la prevedibilità, condensando molte valutazioni discrezionali in linee guida che riducono la variabilità tra prompt simili e rendono il comportamento più comprensibile sia per gli utenti sia per i ricercatori.
Infine, la Model Spec mira a essere un elenco completo di politiche di alto livello rilevanti per la valutazione e misurazione. Se vuoi valutare se un modello si sta comportando come previsto, è utile disporre di un elenco pubblico delle principali categorie di comportamento che ti interessano.
Si è portati a pensare che un modello sufficientemente capace possa dedurre il comportamento corretto da un breve elenco di obiettivi come "essere utile e sicuro". C’è del vero in questo. Negli ambiti con criteri di successo oggettivi, come la matematica, l’intelligenza può spesso sostituire regole dettagliate.
Ma in generale il comportamento dei modelli non è paragonabile alla risoluzione di un semplice problema matematico: i modelli operano spesso in contesti più complessi, in cui non esiste un’unica risposta moralmente corretta su cui tutti possano concordare. Ciò che significa, ad esempio, per un modello essere "utile e sicuro" dipende fortemente dal contesto ed è il risultato di un processo decisionale intrinsecamente carico di valori. La sola intelligenza non indica quali compromessi adottare in materia di etica e valori. Quindi, anche se i modelli diventano più intelligenti, resta necessario lavorare per comprendere e guidare i giudizi di valore e definire cosa significhi agire in modo "etico" in un determinato contesto. E la maggior parte delle ragioni per avere un Model Spec rimane valida anche quando i modelli diventano molto più capaci: serve ancora un riferimento pubblico attorno a cui coordinarsi, un modo per verificare se il comportamento è coerente con le nostre intenzioni e un meccanismo per aggiornare le regole man mano che apprendiamo. Se l’unica regola è “essere utile e sicuro”, allora non esiste alcun meccanismo attraverso il quale gli esseri umani possano discutere, ad esempio, i confini di quali contenuti il modello debba rifiutarsi di fornire, lasciando tutte queste decisioni al modello.
Semmai, man mano che i modelli diventano più capaci, più autonomi e più ampiamente distribuiti, il costo dell’ambiguità aumenta. Questo rende un quadro comportamentale chiaro ancora più importante, non meno.
Un’analogia utile è la differenza tra una costituzione scritta e la giurisprudenza. Sebbene una costituzione scritta possa fornire principi generali oltre a regole concrete, non può prevedere tutti i possibili casi che potrebbero emergere e richiederne l’applicazione. Anche i sistemi di governance necessitano di meccanismi interpretativi, chiarimenti e decisioni esplicite per risolvere casi complessi o problemi imprevisti. Le regole pubblicate aiutano diversi portatori di interessi a coordinarsi anche quando non sono d’accordo e limitano i cambiamenti richiedendo che qualsiasi modifica sia esplicita. Il Model Spec ha lo scopo di svolgere tutti questi ruoli: una dichiarazione di principi, un quadro comportamentale pubblico e un processo per aggiornare la specifica nel tempo.
Detto questo, non riteniamo che tutto ciò che conta nel comportamento dei modelli sia sempre riconducibile a regole esplicite. Man mano che i sistemi diventano più autonomi, affidabilità e fiducia dipenderanno sempre più da competenze e disposizioni più ampie: comunicare bene l’incertezza, rispettare gli ambiti di autonomia, evitare spiacevoli sorprese, monitorare le intenzioni nel tempo e ragionare correttamente sui valori umani nel contesto.
Nel redigere il Model Spec, esiste uno spettro tra il descrivere il comportamento attuale del modello, con tutti i suoi limiti, e il descrivere un obiettivo ideale di lungo periodo. Cerchiamo di trovare un equilibrio, di solito puntando a un orizzonte di circa 0–3 mesi nel futuro rispetto al presente. Pertanto, il Model Spec rimane spesso in anticipo rispetto al modello in almeno alcune aree di sviluppo attivo.
Ciò riflette il ruolo del Model Spec come descrizione del comportamento previsto. Dovrebbe indicarci una direzione coerente, pur rimanendo ancorata a ciò che già facciamo o che abbiamo piani concreti di implementare nel breve termine.
Il Model Spec viene sviluppato attraverso un processo interno aperto. Chiunque in OpenAI può aggiungere commenti o proporre modifiche, e gli aggiornamenti finali sono approvati da un ampio gruppo di stakeholder interfunzionali. In pratica, decine di persone hanno contribuito direttamente alla stesura del testo, e molte altre, nell’ambito della ricerca, dell’ingegneria, del prodotto, della sicurezza, delle policy, dell’ambito legale, della comunicazione, degli affari globali e di altre funzioni, forniscono il proprio contributo. Apprendiamo inoltre anche dalle release pubbliche e dai feedback, che contribuiscono a mettere alla prova queste scelte nell’impiego nel mondo reale.
Questo è importante perché il comportamento del modello e le sue implicazioni nel mondo sono incredibilmente complessi. Nessuno può tenere a mente l’intera gamma di comportamenti, il processo di addestramento e le implicazioni a valle, ma grazie a numerosi collaboratori e revisori trasversali possiamo migliorare la qualità e aumentare la fiducia.
Una sorpresa positiva è che spesso è possibile raggiungere un vero consenso, soprattutto quando ci imponiamo di esplicitare i compromessi con sufficiente precisione da rendere concreti i disaccordi.
Anche il Model Spec non è scritto nel vuoto. Gran parte di ciò che vi confluisce è una sintesi di un lavoro più ampio su comportamento, sicurezza e policy. Gran parte della scrittura del Model Spec è in realtà un lavoro di traduzione: prendere contenuti esistenti e renderli più semplici, più coerenti, più organizzati e più accessibili, senza perderne l’intento di fondo.
I nostri modelli di produzione non rispecchiano ancora pienamente il Model Spec per diverse ragioni.
- L’addestramento del modello può non tenere il passo con gli aggiornamenti del Model Spec. Descrive un comportamento verso cui stiamo lavorando, quindi può essere in anticipo rispetto a ciò che il nostro modello più recente è stato addestrato a fare.
- 1 L’addestramento può insegnare involontariamente comportamenti non coerenti con il Model Spec. Cerchiamo con impegno di evitarlo e, quando accade, lo consideriamo un bug serio, lavorando per adeguare o il comportamento o il Model Spec così da riallinearli.
- L’addestramento non può mai coprire completamente lo spazio di tutti i possibili comportamenti. L’uso reale comprende una lunga coda di contesti e casi limite che emergono solo su larga scala, e nessun processo di addestramento può coprire tutto.
- La generalizzazione può differire da ciò che intendevamo. Un modello può produrre gli output “corretti” durante l’addestramento per ragioni non intenzionali, il che può portare a comportamenti non intenzionali in nuove situazioni diverse da quelle viste durante l’addestramento. Tecniche come l'allineamento deliberativo aiutano, ma non costituiscono una soluzione completa.
Più in generale, il fatto che il Model Spec descriva un’ampia gamma di comportamenti desiderati non implica che esista un unico metodo per insegnarli tutti. Diversi aspetti del comportamento, come il seguire le istruzioni, i limiti di sicurezza, la personalità, l’espressione calibrata dell’incertezza e altro ancora, richiedono spesso tecniche diverse e presentano modalità di errore differenti. Il Model Spec aiuta a rendere il comportamento previsto più facile da comprendere e criticare, ma implementarla bene rimane sia un’arte sia un’area di ricerca attiva.
Insieme a questo post, pubblichiamo Model Spec Evals(si apre in una nuova finestra): una suite di valutazione basata su scenari che cerca di coprire il maggior numero possibile di affermazioni nel Model Spec con un numero ridotto di esempi rappresentativi. Questo ci aiuta a monitorare dove il comportamento del modello e il Model Spec potrebbero non essere allineati e a verificare se i modelli stanno interpretando il Model Spec nel modo previsto. Queste valutazioni sono solo una parte di una più ampia strategia di valutazione, che include anche valutazioni più mirate in molte dimensioni del comportamento, tra cui aree di sicurezza specifiche, veridicità e compiacenza, personalità e stile e capacità.
Grafico della conformità al documento Model Spec (specifica del modello) per sezione nei modelli OpenAI nel tempo. Consulta il post correlato sul blog(si apre in una nuova finestra) per maggiori dettagli sulle valutazioni e su come le interpretiamo. In breve, riteniamo che questi risultati riflettano miglioramenti reali e diffusi nell’allineamento del modello nel tempo, sebbene in parte risentano del fatto che i modelli più vecchi vengono valutati rispetto a policy più recenti.
In pratica, la maggior parte degli aggiornamenti della Spec è determinata da una serie ricorrente di input:
- Problemi pubblici e feedback. Ambiguità, casi limite o modalità di errore, sia nel linguaggio del Model Spec sia nel comportamento dei nostri modelli.
- Problemi interni. Schemi che osserviamo durante lo sviluppo e i test, incluse le ambiguità in cui diverse interpretazioni ragionevoli portano a comportamenti diversi.
- Aggiornamenti delle policy su comportamento e sicurezza. Quando cambiano vincoli o impegni di livello superiore, la Spec deve riflettere chiaramente la nuova struttura.
- Nuove funzionalità e prodotti. Man mano che i modelli diventano più capaci e rilasciamo nuovi prodotti, vogliamo che il Model Spec tenga il passo in termini di contenuti e copertura, ad esempio aggiungendo regole per le interazioni multimodali(si apre in una nuova finestra), agenti autonomi(si apre in una nuova finestra) e utenti minori di 18 anni(si apre in una nuova finestra).
Alcuni principi di progettazione guidano il modo in cui scriviamo e rivediamo la Spec.
- Chiarezza e precisione. "Sii onesto" è un buon valore, ma non è una procedura decisionale completa. Il Model Spec dovrebbe rendere più nette le divergenze, non nasconderle dietro un linguaggio accomodante. Ove possibile, dovremmo segnalare esplicitamente i potenziali conflitti tra le regole e fornire indicazioni o esempi su come risolverli. Ad esempio, Non mentire(si apre in una nuova finestra) evidenzia un potenziale conflitto con Sii caloroso(si apre in una nuova finestra), spiegando che l'assistente dovrebbe seguire le norme di cortesia, senza però arrivare a bugie a fin di bene che potrebbero equivalere a compiacenza(si apre in una nuova finestra) e andare contro il miglior interesse dell’utente.
- Regole sostanziali. Un lettore dovrebbe essere in grado di prendere un prompt realistico e produrre una risposta che un altro lettore riconosca come chiaramente conforme o non conforme, anche se nei casi limite sono necessarie valutazioni discrezionali.
- Esempi che massimizzano il rapporto segnale/rumore. Buoni esempi sono spesso fondamentali per sviluppare un aggiornamento della Spec di alta qualità. Gli esempi dovrebbero andare al cuore delle difficoltà nello specificare il comportamento del modello, portando in superficie i conflitti più complessi e adottando una posizione chiara su come risolverli. In secondo luogo, dovrebbero fungere da modelli del tono e dello stile desiderati, che possono essere difficili da trasmettere per iscritto.
- Robustezza. Cerchiamo di evitare esempi con ambiguità o complessità superflue, in modo che il conflitto centrale e la soluzione prevista siano chiari.
- Coerenza e organizzazione chiara. Ci impegniamo affinché le regole del Model Spec siano pienamente coerenti tra loro e con il comportamento del modello previsto, e a rendere l’organizzazione complessiva del documento chiara e accessibile.
Il Model Spec non pretende di affermare che possiamo mettere per iscritto tutto ciò che conta, né che i modelli centreranno sempre l’obiettivo. È un’affermazione secondo cui il comportamento previsto è abbastanza importante da essere chiaro, operativo e rivedibile.
Tre criteri di successo guidano il modo in cui la sviluppiamo.
- Leggibilità. Le persone, sia all’interno sia all’esterno di OpenAI, possono formarsi aspettative accurate sul comportamento e fare riferimento al testo quando il comportamento le sorprende.
- Possibilità di azione. Il Model Spec può essere utilizzato per progettare valutazioni, diagnosticare incidenti e prendere decisioni di prodotto coerenti, non solo per esprimere valori.
- Rivedibilità. Il Model Spec può evolversi man mano che impariamo, senza trasformarsi in un bersaglio mobile instabile.
Con l’evoluzione di modelli e prodotti, ci aspettiamo che il Model Spec si espanda e si chiarisca di pari passo con nuove capacità e contesti di implementazione. L’obiettivo è mantenere la specifica comportamentale coerente, verificabile e allineata alla nostra missione di garantire che l’AGI porti beneficio a tutta l’umanità.


