12 februari 2025

De nieuwste Model Spec delen

We hebben de Model Spec bijgewerkt op basis van externe feedback en ons voortdurende onderzoek naar het gewenste gedrag van modellen.

Lees de Model Spec

Bezig met laden...

We delen een belangrijke update van de Model Spec, een document waarin wordt uiteengezet hoe we vinden dat onze AI-modellen zich moeten gedragen. Met deze update wordt het belang versterkt dat we hechten aan aanpasbaarheid, transparantie en de intellectuele vrijheid om met AI te verkennen, van gedachten te wisselen en te creëren zonder onnodige beperkingen. Tegelijkertijd wordt erop gelet dat de vangrails om het risico op echte schade te beperken blijft bestaan. Het bouwt voort op de fundamenten die we afgelopen mei hebben geïntroduceerd. We hebben geput uit onze ervaring met het toepassen ervan in uiteenlopende context, van onderzoek naar afstemming tot het bedienen van gebruikers over de hele wereld.

We delen ook enkele vroege resultaten over de mate waarin modellen over een breed scala aan scenario's voldoen aan de principes van de Model Spec. Deze bevindingen benadrukken de vooruitgang in de loop van de tijd, maar ook de gebieden waar we nog kunnen verbeteren. De Model Spec zal, net als onze modellen, blijven evolueren naarmate we hem toepassen en delen en luisteren naar feedback van belanghebbenden. Om breed gebruik en samenwerking te bevorderen, geven we deze versie van de Model Spec vrij in het publieke domein onder een Creative Commons CC0-licentie. Dit betekent dat ontwikkelaars en onderzoekers het in hun eigen werk vrij mogen gebruiken en aanpassen, en erop mogen voortbouwen.

Doelstellingen en principes

Het doel van OpenAI is om modellen te maken die nuttig en veilig zijn en aansluiten bij de behoeften van gebruikers en ontwikkelaars, terwijl het bijdraagt aan onze missie om te bevorderen dat kunstmatige algemene intelligentie de hele mensheid ten goede komt. Daarvoor is het nodig om modellen waarmee ontwikkelaars en gebruikers effectiever worden, iteratief te implementeren. We moeten er ook op letten dat onze modellen geen ernstige schade toebrengen aan onze gebruikers of anderen en dat we de licentie van Open AI om actief te zijn behouden.

Deze doelstellingen kunnen soms tegenstrijdig zijn. De Model Spec zoekt hierin een balans door het model te instrueren om een duidelijke commandostructuur te volgen, samen met aanvullende principes die grenzen en standaardgedrag voor verschillende scenario's bepalen. In dit kader ligt de prioriteit bij de controle van gebruikers en ontwikkelaars terwijl het binnen duidelijke, goed gedefinieerde grenzen blijft:

Commandostructuur: Definieert hoe het model instructies van het platform (OpenAI), de ontwikkelaar en de gebruiker in volgorde prioriteit geeft. Het grootste deel van de Model Spec bestaat uit richtlijnen waarvan wij vinden dat ze in veel gevallen nuttig zijn, maar gebruikers en ontwikkelaars kunnen er overheen stappen. Dit stelt gebruikers en ontwikkelaars in staat om het gedrag van modellen volledig aan te passen binnen de grenzen van de regels op platformniveau.
Samen naar de waarheid zoeken: Net als een menselijke assistent met hoge integriteit moeten onze modellen gebruikers in staat stellen om zelf hun beste beslissingen te nemen. Dit houdt een zorgvuldige balans in tussen (1) vermijden dat gebruikers een bepaalde kant op worden gestuurd, objectiviteit als norm maar bereidheid om elk onderwerp vanuit elk perspectief te onderzoeken en (2) zich inspannen om de doelen van de gebruiker te begrijpen, aannames en onzekere details verduidelijken en waar nodig kritische feedback geven; vragen die we hebben gehoord en die tot verbeteringen hebben geleid.
Je werk zo goed mogelijk doen: Stelt basisnormen voor competentie, waaronder feitelijke juistheid, creativiteit en programmatisch gebruik.
Binnen grenzen blijven: Legt uit hoe het model de autonomie van de gebruiker in evenwicht brengt met voorzorgsmaatregelen om schade of misbruik te voorkomen. Het is de bedoeling dat deze nieuwe versie allesomvattend is en alle redenen omvat waarbij onze modellen verzoeken van gebruikers of ontwikkelaars moeten weigeren.
Benaderbaar zijn: Beschrijft de standaardgespreksstijl van het model: warm, empathisch en behulpzaam, en de manier waarop deze stijl kan worden aangepast.
De juiste stijl gebruiken: Biedt standaard richtlijnen voor opmaak en levering. Of het nu gaat om keurige opsommingstekens, beknopte codefragmenten of een gesproken gesprek, ons doel is om duidelijkheid en bruikbaarheid te garanderen.

Opkomen voor intellectuele vrijheid

De bijgewerkte Model Spec omarmt expliciet intellectuele vrijheid: het idee dat AI mensen in staat moet stellen om zonder willekeurige beperkingen te onderzoeken, te debatteren en te creëren, hoe uitdagend of controversieel een onderwerp ook is. In een wereld waarin AI-tools het discours steeds meer vormgeven, is de vrije uitwisseling van informatie en perspectieven een noodzaak voor vooruitgang en innovatie.

Deze filosofie is ingebed in de secties 'Binnen de grenzen blijven' en 'Samen naar de waarheid zoeken'. Hoewel het model bijvoorbeeld nooit gedetailleerde instructies mag geven om een bom te maken of persoonlijke privacy te schenden, wordt het wel aangemoedigd om doordachte antwoorden te geven op politiek of cultureel gevoelige vragen, maar zonder een bepaalde agenda te promoten. In essentie hebben we het principe versterkt dat geen enkel idee per definitie verboden is voor discussie, zolang het model maar geen significante schade toebrengt aan de gebruiker of anderen (bijv. het uitvoeren van terroristische daden).

Voortgang meten

Om de prestaties in de echte wereld beter te begrijpen, zijn we begonnen met het verzamelen van uitdagende prompts om te testen hoe goed modellen zich houden aan elk principe in de Model Spec. Deze prompts werden gemaakt met behulp van een combinatie van modellen en menselijke experts, zodat zowel gangbare als complexere scenario's aan bod komen.

Een staafdiagram met afwisselend witte en gele staven op een zwarte achtergrond, die gegevensvergelijkingen weergeven. De gele balken hebben een gestippeld patroon, wat textuur toevoegt aan de visuele presentatie.

Voorlopige resultaten laten significante verbeteringen zien in de naleving van de Model Spec door het model in vergelijking met ons beste systeem afgelopen mei. Hoewel een deel van dit verschil kan worden toegeschreven aan aanpassingen in het beleid, denken we dat het grootste deel voortkomt uit verbeterde afstemming. Hoewel de vooruitgang bemoedigend is, erkennen we dat er nog veel ruimte is voor groei.

We zien dit als het begin van een doorlopend proces. We zijn van plan om onze reeks uitdagende prompts te blijven uitbreiden met nieuwe voorbeelden, vooral gevallen die in de praktijk aan het licht komen, waar onze modellen en de Model Spec nog niet helemaal uitkomen.

Bij het vormgeven van deze versie van de Model Spec hebben we feedback uit de eerste versie verwerkt, evenals lessen uit afstemmingsonderzoek en toepassing in de praktijk. In de toekomst willen we een veel bredere inbreng van het publiek overwegen. Om hier processen voor op te zetten, hebben we pilotstudies uitgevoerd met ongeveer 1000 mensen. Elk van hen beoordeelde het gedrag van het model, stelde regels voor en deelde zijn of haar gedachten. Hoewel deze onderzoeken nog geen brede perspectieven weerspiegelen, hebben de eerste inzichten al rechtstreeks tot enkele aanpassingen geleid. We zien het als een doorlopend, iteratief proces en blijven ons inzetten om te leren en onze aanpak te verfijnen.

De Model Spec als opensource software

We dragen deze nieuwe versie van de Model Spec op aan het publieke domein onder een Creative Commons CC0-licentie. Dit betekent dat ontwikkelaars en onderzoekers deze in hun eigen werk vrij kunnen gebruiken en aanpassen en op de Model Spec kunnen voortbouwen. We zijn ook bezig de evaluatieprompts die hierboven zijn gebruikt in opensource om te zetten en we streven ernaar om in de toekomst meer code, artefacten en hulpmiddelen voor Spec-evaluatie en -afstemming vrij te geven.

Je vindt deze prompts en de Model Spec-bron in een nieuw Github-repository⁠(opent in een nieuw venster), waar we van plan zijn regelmatig nieuwe Model Spec-versies te publiceren.

Wat nu?

Onze AI-systemen ontwikkelen zich verder en we blijven met deze principes itereren, om feedback uit de gemeenschap vragen en onze vooruitgang openlijk delen. In de toekomst zullen we niet voor elke update van de Model Spec een blogpost publiceren. In plaats daarvan kun je de nieuwste updates altijd vinden en volgen op model-spec.openai.com⁠(opent in een nieuw venster).

Ons doel is om voortdurend nieuwe veilige gebruikssituaties mogelijk te maken, waarbij we onze aanpak ontwikkelen op basis van voortdurend onderzoek en innovatie. Door de groeiende rol van AI in ons dagelijks leven is het essentieel om openlijk te blijven leren, te verfijnen en betrokken te blijven. Deze benadering weerspiegelt niet alleen wat we tot nu toe hebben geleerd, maar ook onze overtuiging dat het op één lijn brengen van AI een voortdurende reis is, een reis waarvan we hopen dat je die samen met ons zult maken. Als je feedback hebt op deze Spec, kun je die hier delen.

Authors

OpenAI