Ugrás a fő tartalomra
OpenAI

2026. március 25.

KutatásokPublikáció

Betekintés a modell specifikációhoz való megközelítésünkbe

Ahogy az AI-rendszerek egyre fejlettebbek lesznek és szélesebb körben használják őket, szükségünk van egy világos, nyilvános keretre, mely a viselkedésüket szabályozza.

Betöltés…

Az OpenAI-nál úgy hisszük, hogy az AI-nek igazságosnak, biztonságosnak és szabadon hozzáférhetőnek kell lennie, hogy minél több ember használhassa nehéz problémák megoldására, lehetőségek teremtésére, valamint hogy előnyöket nyújtson az egészségügy, a tudomány, az oktatás, a munka és a mindennapi élet területén. Úgy véljük, hogy az AI-hoz való demokratizált hozzáférés a legjobb út előre: nem olyan AI, amelynek előnyei vagy az irányítása néhányak kezében összpontosul, hanem olyan AI, amelyhez többen férnek hozzá, többen értik, és amelynek alakításában is részt vehetnek.

Ez az egyik alapvető oka annak, hogy az OpenAI modell specifikáció létezik. A modell specifikáció(új ablakban nyílik meg) a modellviselkedésre vonatkozó formális keretrendszerünk. Meghatározza, hogyan szeretnénk, hogy a modellek kövessék az utasításokat, kezeljék az ellentmondásokat, tiszteletben tartsák a felhasználói szabadságot, és biztonságosan működjenek a felhasználók által nap mint nap feltett rendkívül széles körű kérdések esetén. Tágabb értelemben ez egy kísérlet arra, hogy egyértelművé tegyük a kívánt modellviselkedést: nemcsak a képzési folyamatunkon belül, hanem olyan formában is, amelyet a felhasználók, fejlesztők, kutatók, döntéshozók és a szélesebb nyilvánosság is ténylegesen elolvashat, megvizsgálhat és megvitathat.

A modell specifikáció nem azt állítja, hogy a modelljeink ma már tökéletesen így működnek. Sok szempontból leíró jellegű, ugyanakkor egyben célkitűzés is arra vonatkozóan, hogy merre szeretnénk fejleszteni a modellek viselkedését. Arra használjuk, hogy egyértelműbbé tegyük a kívánt működést, így ennek mentén tudjuk képezni a modelleket, értékelni a teljesítményüket, és idővel tovább fejleszteni őket. 

Ez a bejegyzés a háttértörténetet osztja meg, amely nem magában a modell specifikációban szerepel, beleértve a mögöttes filozófiát és működési mechanizmusokat is: hogyan épül fel, miért hoztuk ezeket a szerkezeti döntéseket, és hogyan írjuk, valósítjuk meg és fejlesztjük idővel.

A modellviselkedés nyilvános keretrendszere

A modell specifikáció az OpenAI biztonságos és elszámoltatható AI-ra vonatkozó szélesebb körű megközelítésének egy része. Míg a Felkészültségi keretrendszer az élvonalbeli képességekből eredő kockázatokra és azok növekedésével szükségessé váló védelmi intézkedésekre összpontosít, a modell specifikáció egy további, kiegészítő kérdéssel foglalkozik: hogyan kellene a modelljeinknek viselkedniük a helyzetek széles körében. Tágabb perspektívából nézve az AI ellenállóképességének célja annak a szélesebb társadalmi kihívásnak a kezelése, miszerint a társadalom képes legyen kihasználni a fejlett mesterséges intelligencia előnyeit, miközben csökkenti a zavarokat és a felmerülő kockázatokat az egyre nagyobb képességű rendszerek bevezetése során. Összességében a kezdeményezéseknek a célja az, hogy az AGI felé vezető átmenet fokozatos, iteratív és demokratikusan átlátható legyen: időt adva az embereknek és intézményeknek az alkalmazkodásra, miközben kiépülnek azok a biztosítékok, elszámoltathatósági mechanizmusok és társadalmi megértés, amelyek szükségesek ahhoz, hogy a nagy erejű AI rendszerek az emberi érdekekkel összhangban maradjanak.

A modellviselkedéssel kapcsolatos nyilvános átláthatóság mind az igazságosság, mind a biztonság szempontjából fontos. Az igazságosság azért fontos, mert az embereknek érteniük kell, hogyan és miért bánik velük az AI úgy, ahogy—és képesnek kell lenniük felismerni, megkérdőjelezni és kezelni a felmerülő igazságossági problémákat. És a biztonság miatt is lényeges, mert ahogy az AI-rendszerek egyre fejlettebbek lesznek, az embereknek és intézményeknek világosabb elvárásokra van szükségük arról, hogyan kell működniük ezeknek a rendszereknek, milyen kompromisszumokat hordoznak, és hogyan lehet ezeket a döntéseket idővel tovább javítani. Az ilyen jellegű átláthatóság az ellenállóképességet is támogatja azáltal, hogy több ember számára biztosít konkrét alapot a vizsgálódásra, a kérdésfeltevésre és a fejlesztésre.

A 2024-es első verzió óta a modell specifikáció jelentősen fejlődött, ahogy egyre többet tanulunk a felhasználói preferenciákról és igényekről, bővítjük és az egyre nagyobb képességekhez igazítjuk, valamint tanulunk a modellviselkedéssel és magával a modell specifikációval kapcsolatos nyilvános visszajelzésekből. Az iteratív bevezetés szellemében a modell specifikáció egy folyamatosan fejlődő dokumentum, amely egyszerre tartalmaz alapvető értékeket és kifejezett, átlátható szabályokat—kiegészítve egy olyan folyamattal, amely lehetővé teszi az egyes elemek módosítását a valós használatból és visszajelzésekből szerzett tapasztalatok alapján. Emellett olyan nyilvános visszajelzési mechanizmusokba is befektetünk, mint a kollektív igazítás, hogy segítsünk megőrizni az emberiség kontrollját az AI felhasználása és viselkedésének alakítása felett.

Szervezeten belül iránytűként szolgál az elvárt viselkedéshez, valamint közös keretrendszert biztosít a képzéshez, az értékeléshez és az irányításhoz. Szervezeten kívül olyan nyilvános viszonyítási pontot teremt, amelynek segítségével az emberek megérthetik a megközelítésünket, kritikával illessék, és idővel segítsenek annak fejlesztésében.

Mi található a modell specifikációban

A modell specifikáció többféle, modellre vonatkozó útmutatást tartalmaz. Ez szándékos. A modellviselkedés különböző aspektusait eltérő módon kell kezelni, és egy hasznos nyilvános dokumentumnak többet kell nyújtania, a szabályok egyszerű felsorolásánál.

Átfogó célkitűzés és nyilvános kötelezettségvállalások

A modell specifikáció átfogó célkitűzéssel kezdődik: világosan megfogalmazza, hogy rendszerszinten mit és miért szeretnénk optimalizálni.

Ez a bevezető három célt tisztáz azzal kapcsolatban, hogyan kívánjuk megvalósítani a küldetésünket:

  • iteratív módon bevezetni olyan modelleket, amelyek erősítik a fejlesztőket és a felhasználókat;
  • megelőzni, hogy modelljeink súlyos kárt okozzanak a felhasználóknak vagy másoknak;
  • fenntartani az OpenAI működési jogosultságát.

Ezután bemutatja, miként gondolkodunk e célok gyakorlati összehangolásáról, kellően kézzelfoghatóvá téve a kompromisszumokat ahhoz, hogy alátámassza az ezt követő, részletesebben megfogalmazott alapelveket.

Fontos, hogy a bevezető nem közvetlen utasításként szolgál a modell számára. Az OpenAI célja az emberiség javának szolgálata, nem pedig olyan cél, amelyet szeretnénk, hogy modell önállóan kövessen. Ehelyett azt szeretnénk, hogy a modellek egy utasítási hierarchiát kövessenek, amely magában foglalja a modell specifikációt, valamint az OpenAI, a fejlesztők és a felhasználók kapcsolódó utasításait—még akkor is, ha egyesek egy adott esetben nem értenek egyet az eredménnyel.

Úgy gondoljuk, hogy ez a megfelelő egyensúly, mert hiszünk az emberi autonómiában és a szellemi szabadságban. Ha úgy képeznénk a modelleket, hogy a saját elképzelésünk alapján döntsenek arról, mely utasításokat kövessék a társadalom számára általunk jónak tartott szempontok szerint, akkor az OpenAI abba a helyzetbe kerülne, hogy rendkívül széles körben erkölcsi kérdésekben hozzon döntéseket. Ezzel együtt a bevezető továbbra is fontos. A modell specifikáció alkalmazása kapcsán felmerülő kérdésekre választ ad a bevezető.

A modell specifikáció olyan nyilvános kötelezettségvállalásokat is tartalmaz, amelyek túlmutatnak a közvetlenül mérhető modellviselkedésen, és kiterjednek a betanítási célra a bevezetés korlátaira. Például a Red-line alapelveink(új ablakban nyílik meg) tartalmazzák azt az elköteleződést, hogy saját fejlesztésű alkalmazásokban, mint a ChatGPT, soha nem használunk rendszerüzeneteket az objektivitás (új ablakban nyílik meg)vagy az ahhoz kapcsolódó elvek szándékos torzítására; a „Nincs más cél”(új ablakban nyílik meg) elv pedig azt rögzíti, hogy a modellválaszokat a felhasználók javára optimalizáljuk, nem pedig bevételre vagy olyan időtöltés növelésére, amely nem szolgálja a felhasználók érdekeit.

Utasítási hierarchia

A modell specifikáció középpontjában az utasítási hierarchia (Chain of Command) áll: egy keretrendszer annak eldöntésére, hogy egy adott helyzetben mely utasításokat kell alkalmazni. Kitér arra is, hogyan kell a modellnek kezelnie a nem egyértelműen megadott utasításokat, különösen olyan ügynöki helyzetekben, ahol elvárt, hogy önállóan egészítse ki a részleteket, miközben gondosan kontrollálja a valós világra gyakorolt hatásokat.

Az utasítások alkalmazásának eldöntésének alapelve egyszerű. Az utasítások különböző forrásokból származhatnak, például az OpenAI-tól, fejlesztőktől és felhasználóktól. Ezek az utasítások akár ellent is mondhatnak egymásnak. Az utasítási hierarchia azt magyarázza el, hogy a modellnek hogyan kell feloldania ezeket az ellentmondásokat.  

Minden modell specifikáció irányelv és minden utasítás kap egy jogosultsági szintet(új ablakban nyílik meg). A modell azt az utasítást kapja, hogy ellentmondás esetén a magasabb szintű utasítások betűit és szellemiségét részesítse előnyben. Ha egy felhasználó segítséget kér bomba készítéséhez, a modellnek elsődlegesen a szigorú biztonsági korlátokat(új ablakban nyílik meg) kell előtérbe helyeznie. Ha egy felhasználó azt kéri, hogy kigúnyolják, a modellnek általánosságban előnyben kell részesítenie ezt a kérést a modell specifikáció alacsonyabb szintű visszaélések elleni szabályzatával(új ablakban nyílik meg) szemben.

Ez a struktúra lehetővé teszi, hogy egy viszonylag kis számú, felül nem bírálható szabályt határozzunk meg egy nagyobb alapértelmezett készlet mellett. Így próbáljuk a lehető legnagyobb mértékben biztosítani a felhasználók szabadságát és a fejlesztők ellenőrzését a biztonsági korlátokon belül.

  • A Szigorú szabályok olyan egyértelmű korlátok, amelyeket sem a felhasználók, sem a fejlesztők nem írhatnak felül (a modell specifikáció szóhasználatában ezek „root” vagy „system” szintű utasítások). Többnyire tiltó jellegűek, és megkövetelik a modellektől, hogy kerüljék a katasztrofális kockázatokhoz vagy közvetlen fizikai károkozáshoz hozzájáruló viselkedéseket, törvényeket sérthetnek, vagy alááshatják az utasítási hierarchiát. Arra számítunk, hogy az AI a társadalom egyik alapvető technológiája lesz, hasonló szerepet betöltve, mint az internet alapinfrastruktúrája. Ezért a szellemi szabadságot esetleg korlátozó szabályokat csak abban az esetben alkalmazunk, ha azokat szükségesnek tartjuk az azt használó fejlesztők és felhasználók széles köre számára. A modell specifikációban a Maradj a kereteken belül(új ablakban nyílik meg) szigorú szabályokat tartalmaz, amelyek konkrét, valós biztonsági kockázatokat kezelnek. A 18 év alattiakra vonatkozó elvek(új ablakban nyílik meg) további védelmi intézkedéseket biztosít a 18 év alatti felhasználók számára.
  • Az alapértelmezések felülbírálható kiindulópontok: az asszisztens „legjobb tipp” szerinti viselkedése, amikor a felhasználó vagy a fejlesztő nem ad meg preferenciát. Azért használunk alapértelmezett beállításokat, hogy a viselkedés nagy léptékben is kiszámítható és szabályozható legyen, így az emberek előre látják, mi fog történni, anélkül hogy minden alkalommal testre szabott utasításkészletet kellene írniuk. Az alapértelmezett beállítások megőrzik az irányíthatóságot: a felhasználók és a fejlesztők a biztonsági korlátokon belül kifejezetten szabályozhatják a hangnemet, a részletességet, a formátumot, sőt még a nézőpontot is. Az irányelvi szintű alapértelmezett beállítások (például a hangnem vagy a stílus) kialakításnál fogva implicit módon irányíthatóak, míg a felhasználói szintű alapértelmezett beállítások (például az igazmondás és az objektivitás) a megbízhatóság és az előrejelezhetőség sarokpontjai, és csak kifejezett utasítások írhatják felül őket. Ezeknek nem szabad észrevétlenül, pusztán megérzések mentén eltolódniuk; ha a felhasználó másfajta tényszerű álláspontot kíván, akkor ennek kifejezett utasításként való megadása biztosítja, hogy a váltás átlátható és egyértelmű maradjon. Ezek az alapértelmezések megjelennek a Keressük együtt az igazságot(új ablakban nyílik meg), a Végezd a legjobb munkát(új ablakban nyílik meg) és a Használd a megfelelő stílust(új ablakban nyílik meg) részekben is, beleértve az őszinteségre és objektivitásra vonatkozó normákat, a túlzott egyetértés elkerülését, valamint az olyan interakciós normákat is, mint az egyenesség, illetve a kontextusnak megfelelő közvetlenség és professzionalizmus.

Értelmezést segítő eszközök: döntési irányelvek és konkrét példák

Magán a hierarchián túl a modell specifikáció értelmezési segédleteket használ, segítve a modelleket (és az embereket), hogy következetesen alkalmazzák azt a szürke zónákban. A segítségek közé tartoznak: 

  • Döntési irányelvek, amelyek segítenek a modellnek abban, hogy következetes döntéseket hozzon a szürke zónákban anélkül, hogy úgy tennének, mintha létezne egyetlen mechanikus szabály. Például a modell specifikáció a mellékhatások szabályozására(új ablakban nyílik meg) vonatkozó útmutatása olyan szempontokat sorol fel, mint a visszafordíthatatlan műveletek minimalizálása, a műveletek céllal arányos szinten tartása, a kellemetlen meglepetések csökkentése és a visszafordítható megközelítések előnyben részesítése, amelyeket egyensúlyba kell hozni más célokkal, például a feladat gyors és hatékony elvégzésével.
  • Konkrét példák, amelyek bemutatják, hogyan kell egy elvet a gyakorlatban alkalmazni. Ezek rövid utasítás-válasz példák, amelyek általában megfelelő és nem megfelelő választ is tartalmaznak, gyakran egy nehéz utasítás esetén, egy fontos döntési határ közelében. A cél nem az, hogy egy teljes, valósághű beszélgetést szimuláljunk. Arra szolgál, hogy egyértelművé tegye a lényeges különbségtételt, mégpedig úgy, hogy közben a kívánt válaszstílust is bemutatja.

A példák számát viszonylag alacsonyan tartjuk, és a leginformatívabbakra helyezzük a hangsúlyt. Az átfogóbb értékelési csomagok segítenek lefedni a hosszú farok nagyobb részét.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

A specifikáció A jó szándék feltételezése(új ablakban nyílik meg) című szakaszból származó, a szellemi szabadság és az ítélkezésmentesség alapelveit szemléltető példa.

Miről nem szól a modell specifikáció

A specifikáció egy interfész, nem megvalósítás. Azt a viselkedést írja le, amit szeretnénk, nem pedig annak a részleteit, hogyan hozzuk létre ezt a viselkedést. Igyekszünk elkerülni, hogy ezt megvalósítási részletekhez kössük, például belső tokenformátumokhoz vagy egy adott viselkedés pontos betanítási folyamatához, mert ezek a részletek akkor is módosulnak, amikor a kívánt viselkedés nem. A modell specifikáció elsődleges célközönsége nem a modell, hanem az emberek: célja, hogy segítsen az OpenAI munkatársainak, felhasználóinak, fejlesztőinek, kutatóinak és döntéshozóinak megérteni, megvitatni és megszabni a kívánt működést.

A modell specifikáció a modellt is leírja, de nem a teljes terméket. Ezt egészítik ki a használati irányelveink, amelyek felvázolják az API és a ChatGPT használatával kapcsolatos elvárásainkat. Az a rendszer, amellyel a felhasználók kapcsolatba lépnek, több mint maga a modell: a termékfunkciók (például az egyéni utasítások és a memória), a megfigyelés, a szabályzatok betartatása és más rétegek mind számítanak. A biztonság sokkal több a modell viselkedésénél, és hiszünk a mély védelemben

A specifikáció nem a teljes betanítási rendszerünk vagy minden belső szakpolitikai megkülönböztetés teljes körű leírása. A cél nem az összes részlet megragadása. Célja az, hogy a legfontosabb viselkedéssel kapcsolatos döntéseket érthetővé tegye, oly módon, hogy az teljes mértékben összhangban álljon az általunk célzott modell viselkedésével.

Hogyan alakult ki ez a struktúra

Miért kerülnek egyes részek a modell specifikációba? 

Több oka is van annak, hogy ennyi mindent belefoglalunk a specifikációba, ahelyett, hogy feltételeznénk, hogy az olvasó—vagy a modell—néhány magas szintű célból mindent ki tud következtetni.

Először is, a modell specifikáció az átláthatóságot és az elszámoltathatóságot szolgáló eszköz. Arra tervezték, hogy ösztönözze az érdemi nyilvános visszajelzést. Az egyértelműen megfogalmazott nyilvános cél segít az embereknek eldönteni, hogy egy viselkedés hiba vagy funkció. Ez stabil viszonyítási pontot biztosít számukra a kritikához és a konkrét visszajelzéshez. Ezért tettük nyílt forráskódúvá(új ablakban nyílik meg) a modell specifikációt, és ezért döntöttünk úgy, hogy nyilvánosan fejlesztjük tovább. Az első kiadás óta számos változtatást végeztünk a nyilvános visszajelzések alapján, különféle módokon begyűjtve, többek között visszajelzési űrlapokon, nyilvános kritikákon és a demokratikus vélemények összegyűjtésére irányuló tudatos erőfeszítések révén.

Másodszor, a modell specifikáció koordinációs eszköz az OpenAI-n belül. Közös nyelvet biztosít a kutatás, termékfejlesztés, biztonság, szabályzat, jogi, kommunikációs és más területeken dolgozók számára a modell viselkedésének megvitatásához, valamint a változtatások javaslatára és felülvizsgálatára szolgáló mechanizmust.

Harmadszor, az explicit szabályok ellensúlyozni tudják a modell intelligenciájának és futásidejű kontextusának gyakorlati korlátait, és kiszámíthatóbbá teszik a viselkedést. Bár ez idővel egyre kevésbé igaz, egyes szabályok célja továbbra is az elégtelen intelligencia ellensúlyozása, amikor a modellek nem feltétlenül képesek megbízhatóan levezetni a helyes viselkedést az általánosabb szintű alapelvekből. Például a Légy egyértelmű és egyenes(új ablakban nyílik meg) azt javasolta a korábbi modelleknek, hogy az olyan nehéz, számításokat igénylő feladatoknál a válasz kimondása előtt mutassák be a levezetést, ma azonban modelljeink ezt a viselkedést természetes módon sajátítják el a megerősítéses tanulás révén. 

Más irányelvek a futásidőben jelentkező korlátozott kontextust kezelik: az asszisztens csak arra támaszkodhat, ami az aktuális interakcióban megfigyelhető, és ritkán ismeri a felhasználó teljes helyzetét, szándékát, a további felhasználást, vagy azt, hogy milyen védelmi mechanizmusok léteznek a modell kívül. Ilyen esetekben, még ha a modellek elegendő kutatással és gondolkodással képesek is kikövetkeztetni a helyes viselkedést, a konkrétság javítja a hatékonyságot és az előrejelezhetőséget—számos mérlegelési döntést sűrít iránymutatásba, amely csökkenti a hasonló utasítások közötti eltéréseket, és a viselkedést könnyebben érthetővé teszi a felhasználók és a kutatók számára.

Végül a modell specifikáció azt is megcélozza, hogy teljes körű listát nyújtson az értékelés és mérés szempontjából releváns magas szintű szabályokról. Ha fel szeretnéd mérni, hogy egy modell a kívánt módon viselkedik-e, hasznos, ha rendelkezésre áll azoknak a fő viselkedési kategóriáknak a nyilvános listája, amelyek fontosak számodra.

Nem kellene egy fejlett AI-nak ezt magától kitalálnia?

Csábító lehet azt gondolni, hogy egy kellően fejlett modell képes kikövetkeztetni a helyes viselkedést egy olyan rövid céllistából, mint pl.„légy segítőkész és biztonságos”. Van ebben némi igazság. Az olyan, objektív sikerkritériumokkal rendelkező területeken, mint a matematika, az intelligencia gyakran kiválthatja a részletes szabályokat.

Általánosságban elmondható, hogy a modell viselkedése nem hasonlítható egy egyszerű matematikai feladat megoldásához; a modellek gyakran olyan összetett területeken működik, ahol nincs olyan egyetlen erkölcsileg helyes válasz, amelyben mindenki egyetértene. Az, hogy egy modell mitől „hasznos” és „biztonságos”, rendkívül kontextusfüggő, és az értékekkel terhelt döntéshozatal eredménye. Az intelligencia önmagában nem határozza meg, milyen kompromisszumokat kell kötni az etika és az értékek terén. Tehát ahogy a modellek egyre intelligensebbé válnak, továbbra is dolgoznunk kell azon, hogy megértsük és irányítsuk az értékítéleteket, valamint azt, hogy mit jelent egy adott esetben „etikusan” cselekedni. Továbbá a modell specifikáció meglétének legtöbb oka akkor is releváns marad, amikor a modellek képessége jóval megnő: továbbra is szükségünk van egy nyilvános viszonyítási pontra, amelyhez az emberek igazodni tudnak, egy módszerre annak értékelésére, hogy a viselkedés megfelel-e a szándékainknak, valamint egy mechanizmusra a szabályok felülvizsgálatához, ahogy egyre többet tanulunk. Ha az egyetlen szabály az, hogy „légy segítőkész és biztonságos”, akkor nincs olyan mechanizmus, amely lehetővé tenné az emberek számára, hogy például vitassák annak határait, hogy milyen tartalmak nyújtását kell a modellnek megtagadnia, mindezeket a döntéseket a modellre bízva.

Sőt, ahogy a modellek egyre nagyobb képességgel bírnak, önállóbbak és szélesebb körben alkalmazzák őket, a kétértelműség költsége is nő. Ez csak még fontosabbá teszi az egyértelmű viselkedési keretrendszert, nem kevésbé fontossá.

Egy hasznos hasonlat az írott alkotmány és az esetjog összehasonlítása. Bár az írott alkotmány általános elveket és konkrét szabályokat is megfogalmaz, nem számolhat előre minden lehetséges esettel, amely felmerülhet, és amelyben szükség lehet az útmutatására. A valódi irányítási rendszereknek értelmezési mechanizmusokra, pontosításokra és egyértelmű döntésekre is szükségük van a kusza esetek vagy az előre nem látható problémák megoldásához. A közzétett szabályok abban segítenek, hogy a különböző érintett felek az egyet nem értés esetén is összehangolják a tevékenységüket, és korlátok közé szorítják a változtatásokat azáltal, hogy minden változtatásnak kifejezettnek kell lennie. A modell specifikáció azt a célt szolgálja, hogy mindezen szerepeket betöltse: az alapelvek megfogalmazásaként, nyilvános viselkedési keretrendszerként, valamint a specifikáció időbeli módosításának folyamataként.

Ezzel együtt nem gondoljuk, hogy a modell viselkedésével kapcsolatban minden lényeges dolog mindig visszavezethető lesz a pontos szabályokra. Ahogy a rendszerek egyre autonómabbá válnak, a megbízhatóság és a bizalom egyre inkább szélesebb készségektől és beállításoktól függ majd: a bizonytalanság megfelelő kommunikációjától, az autonómia határainak tiszteletben tartásától, a kellemetlen meglepetések elkerülésétől, a szándék időbeli nyomon követésétől, valamint az emberi értékekről a kontextus figyelembevételével való helyes érveléstől.

Hogyan írjuk és alkalmazzuk a modell specifikációt

Reálisan ambiciózus

A modell specifikáció megírásakor a skála egyik végén a modell mai, tényleges viselkedésének leírása áll, minden hibájával együtt, a másik végén pedig egy távoli jövőre vonatkozó ideális cél leírása. Igyekszünk egyensúlyt teremteni, általában a jelenhez képest 0–3 hónappal tekintünk előre. Így a modell specifikáció gyakran előrébb jár a modellnél az aktív fejlesztés legalább néhány területén.

Ez tükrözi a modell specifikáció szerepét mint a célzott viselkedés leírását. Koherens irányt kell mutatnia számunkra, továbbra is ahhoz igazodva, amit már most is csinálunk, vagy amit a közeljövőben konkrétan bevezetni tervezünk.

Kik járulnak hozzá (és ez miért lényeges)

A modell specifikációt nyílt belső folyamat keretében fejlesztik. Az OpenAI-nál bárki megjegyzéseket tehet, módosításokat javasolhat, a végleges frissítéseket pedig a funkcióközi érdekelt felek széles köre hagyja jóvá. A gyakorlatban emberek tucatjai járultak közvetlenül hozzá a szöveghez, és a kutatás, a mérnöki terület, a termékfejlesztés, a biztonság, a szabályzat, a jog, a kommunikáció, a globális ügyek és más területek részéről még sokan mások is beleszólnak. A nyilvános kiadásokból és a visszajelzésekből is tanulunk, amelyek a döntéseinket az éles bevezetés során segítenek tesztelni.

Ez azért fontos, mert a modell viselkedése—és annak a világban jelentkező következményei—rendkívül összetettek. Egy ember sem képes a viselkedések teljes körét, a betanítási folyamatot és a tovagyűrűző következményeket teljes egészében átlátni, de sok, szakterületeken átívelő közreműködő és ellenőr bevonásával javíthatjuk a minőséget, és növelhetjük a bizonyosságot.

Az egyik kellemes meglepetés az volt, hogy a valódi konszenzus gyakran lehetséges—különösen akkor, amikor rákényszerítjük magunkat arra, hogy elég pontosan leírjuk a kompromisszumokat ahhoz, hogy a nézeteltérések konkréttá váljanak.

A modell specifikáció sem vákuumban íródott. A tartalmának jelentős része a viselkedéssel, biztonsággal és szabályozással kapcsolatos szélesebb körű munka összefoglalása. A modell specifikáció írása nagyrészt valójában fordítás: a meglévő munka átdolgozása egyszerűbb, következetesebb, rendezettebb és hozzáférhetőbb formába anélkül, hogy elveszne az alapszándék.

Hogyan azonosítjuk a hiányosságokat, és hogyan valósítjuk meg a frissítéseket

A gyakorlatban használt modelljeink több okból sem tükrözik még teljes mértékben a modell specifikáció előírásait.

  • A modell betanítása elmaradhat a modell specifikáció frissítéseihez képest. Ez egy olyan viselkedést ír le, amelynek elérésén dolgozunk, ezért előrébb járhat annál, mint amire a legújabb modellünket betanítottuk.
  • A betanítás nem szándékosan a modell specifikációval nem összhangban lévő viselkedést taníthat. Keményen dolgozunk ennek elkerülésén, és amikor mégis megtörténik, súlyos hibaként kezeljük—vagy a viselkedés, vagy a modell specifikáció módosításán dolgozva, hogy összhangba hozzuk őket.
  • A betanítás soha nem fedhet le teljes mértékben minden lehetséges viselkedést. A valós használat olyan kontextusok és szélső esetek hosszú sorát tartalmazza, amelyek csak nagy léptékben jelentkeznek, és egyetlen betanítási folyamat sem fedhet le mindent.
  • A generalizálás eltérhet a szándékunktól. Egy modell a betanítás során nem célzott okokból is előállíthatja a „megfelelő” kimeneteket, ami nem várt viselkedéshez vezethet olyan új helyzetekben, amelyek eltérnek a betanítás során látottaktól. Az olyan technikák, mint a deliberatív kiigazítás, segítenek, de önmagukban nem jelentenek teljes megoldást.

Tágabb értelemben az, hogy a modell specifikáció a kívánatos viselkedések széles körét írja le, nem jelenti azt, hogy létezik egyetlen módszer mindegyik megtanítására. A viselkedés különböző aspektusai—az utasításkövetés, a biztonsági korlátok, a személyiség, a bizonytalanság kalibrált kifejezése és még sok más—gyakran eltérő technikákat igényelnek, és eltérő hibamódokkal rendelkeznek. A modell specifikáció segít könnyebben érthetővé és bírálhatóvá tenni a célzott viselkedést, de a megfelelő megvalósítása továbbra is egyszerre művészet és aktív kutatási terület.

Ezzel a bejegyzéssel együtt közzétesszük a modell specifikáció értékeléseket(új ablakban nyílik meg): egy forgatókönyv-alapú értékelési csomagot, amely kis számú reprezentatív példával igyekszik lefedni a modell specifikációban szereplő állítások többségét. Ez segít nyomon követni, hogy hol tér el a modell viselkedése a modell specifikációtól, és segít ellenőrizni, hogy a modellek a tervezettek szerint értelmezik-e a modell specifikációt. Ezek az értékelések szélesebb értékelési stratégia részét képezik, amely célzottabb vizsgálatokat is tartalmaz a viselkedés számos dimenziójában, beleértve az egyes biztonsági területeket, az igazmondást, a túlzott egyetértést, a személyiséget, a stílust és a képességeket.

Diagram: a modell specifikációnak való megfelelés szakaszonként az OpenAI modellek esetében idővel. Az értékelésekről és az értelmezésükről szóló részletekért nézd meg a kapcsolódó blogbejegyzést(új ablakban nyílik meg). Röviden: úgy véljük, hogy ezek az eredmények a modell idővel bekövetkezett valós és széles körű javulását tükrözik, ugyanakkor kis mértékben azt a hatást is, hogy a régebbi modelleket újabb szabályzatokhoz mérjük.

A gyakorlatban a legtöbb specifikáció frissítést visszatérően felmerülő szempontok csoportja alakítja:

  • Nyilvános problémák és visszajelzések. Félreértések, szélső esetek vagy hibamódok—akár a modell specifikáció nyelvezetében, akár a modelljeink viselkedésében.
  • Belső problémák. A fejlesztés és tesztelés során megfigyelhető mintázatok, beleértve azokat a kétértelműségeket is, ahol a különböző észszerű értelmezések eltérő viselkedést eredményeznek.
  • A viselkedési és biztonsági irányelvek frissítései. Amikor a magasabb szintű megkötések vagy vállalások megváltoznak, a specifikációnak egyértelműen tükröznie kell az új struktúrát.
  • Új képességek és termékek. Ahogy a modellek egyre inkább képessé válnak új viselkedésformákra, és új termékeket vezetünk be, azt szeretnénk, hogy a modell specifikáció tartalmában és lefedettségében is lépést tartson – például a multimodális interakciókra vonatkozó szabályok(új ablakban nyílik meg), az autonóm ügynökök(új ablakban nyílik meg) és a 18 év alatti felhasználók(új ablakban nyílik meg) hozzáadásával.

Mitől jó egy specifikációs tartalom

Azt, hogy miként írunk és dolgozunk át egy model specifikációt, néhány tervezési alapelv szabja meg.

  • Átláthatóság és precizitás. A „Légy őszinte” jó érték, de nem teljes döntési eljárás. A modell specifikációnak ki kell éleznie a nézeteltéréseket, nem pedig egyetértést sugalló nyelvezet mögé rejtenie azokat. Ahol ez gyakorlatilag megvalósítható, kifejezetten jeleznünk kell a szabályok közötti lehetséges ütközéseket, és útmutatást vagy példákat kell adnunk azok feloldására. Például a Ne hazudj(új ablakban nyílik meg) rámutat egy lehetséges konfliktusra a Légy kedves(új ablakban nyílik meg) elvvel, és elmagyarázza, hogy az asszisztensnek követnie kell az udvariasság normáit, anélkül azonban, hogy kegyes hazugságokba bocsátkozna, amelyek túlzott egyetértésnek(új ablakban nyílik meg) minősülhetnek, és ellentétesek lehetnek a felhasználó legjobb érdekével.
  • Érdemi szabályok. Az olvasónak képesnek kell lennie arra, hogy életszerű utasítás alapján olyan választ alkosson, amelyről egy másik olvasó egyértelműen meg tudja állapítani, hogy a kereteken belül van-e vagy sem (még ha a határterületeken akadnak is mérlegelést igénylő esetek).
  • A jel–zaj arány maximalizálására szolgáló példák. A jó példák gyakran központi szerepet játszanak a kiváló minőségű specifikációfrissítés kidolgozásában. A példáknak segíteniük kell rávilágítani a modell viselkedésének meghatározásával kapcsolatos nehézségek lényegére, felszínre hozva a nehezen feloldható ütközéseket, és egyértelmű álláspontot képviselve azok megoldásáról. Másodsorban törekedniük kell arra, hogy a kívánt hangnem és stílus mintapéldái legyenek, amit prózai szövegben nehéz lehet közvetíteni.
  • Robusztusság. Igyekszünk elkerülni a felesleges kétértelműséget vagy komplexitást tartalmazó példákat, hogy az alapvető konfliktus és a tervezett megoldás egyértelmű legyen.
  • Következetesség és egyértelmű szervezettség. Arra törekszünk, hogy a modell specifikáció szabályai teljes mértékben összhangban legyenek egymással és az általunk célzott modellviselkedéssel, valamint hogy a dokumentum általános felépítése világos és könnyen áttekinthető legyen.

Ami előttünk áll

A modell specifikáció nem állítja, hogy minden lényeges dolgot le tudunk írni, vagy hogy a modellek mindig pontosan elérik a célt. Ez az állítás azt jelenti, hogy a szándékolt viselkedés elég fontos ahhoz, hogy világos, cselekvésre alkalmas és felülvizsgálható legyen.

Három sikerkritérium határozza meg azt, hogyan történik a további fejlesztés.

  • Olvashatóság. Az emberek az OpenAI-n belül és kívül is pontos elvárásokat alakíthatnak ki a viselkedéssel kapcsolatban, és rámutathatnak a szövegre, ha a viselkedés meglepő számukra.
  • Végrehajthatóság. A modell specifikáció használható értékelések tervezésére, incidensek diagnosztizálására és következetes termékdöntések meghozatalára—nem csupán értékek kifejezésére.
  • Felülvizsgálhatóság. A modell specifikáció fejlődhet, ahogy tanulunk, anélkül, hogy instabil, folyton változó célponttá váljon.

Ahogy a modellek és a termékek fejlődnek, várakozásaink szerint a modell specifikáció is bővül és pontosabbá válik, összhangban az új képességekkel és telepítési környezetekkel. A cél az, hogy a viselkedési specifikáció koherens, tesztelhető és összhangban legyen a küldetésünkkel, hogy az AGI az egész emberiség javát szolgálja.