Turvallisuusekosysteemimme vahvistaminen ulkoisilla testeillä
Lähestymistapamme kolmansien osapuolten arviointiin edistyneelle tekoälylle.
OpenAI uskoo, että riippumattomilla ja luotetuilla kolmansien osapuolten arvioinneilla on keskeinen rooli edistyneen tekoälyn turvallisuusekosysteemin vahvistamisessa. Kolmannen osapuolen arvioinnit ovat edistyneiden mallien perusteella tehtyjä arviointeja, joilla vahvistetaan kriittisiä turvallisuusominaisuuksia ja niiden lieventämistoimia koskevia väitteitä tai tarjotaan lisänäyttöä niistä. Nämä arvioinnit auttavat vahvistamaan turvallisuusväitteitä, suojaamaan katvealueilta ja lisäämään läpinäkyvyyttä kykyjen ja riskien osalta. Kutsumalla ulkopuolisia asiantuntijoita testaamaan edistyksellisiä mallejamme, pyrimme myös lisäämään luottamusta kykyarviointiemme ja suojatoimiemme perusteellisuuteen sekä edistämään turvallisuuden ekosysteemin yleistä kehittymistä.
GPT‑4:n lanseerauksen jälkeen OpenAI on tehnyt yhteistyötä useiden ulkoisten kumppaneiden kanssa malliemme testaamiseksi ja arvioimiseksi. Yleisesti ottaen kolmansien osapuolten kanssa tekemämme yhteistyö on kolmenlaista:
- Riippumattomat arvioinnit keskeisistä uusista kykyistä ja riskialueista, kuten bioturvallisuus, kyberturvallisuus, tekoälyn itsensä kehittäminen ja suunnittelusta
- Menetelmäkatsaukset, joissa arvioidaan, miten arvioimme ja tulkitsemme riskiä
- Aihealueen asiantuntijoiden (SME) arviointi, jossa asiantuntijat arvioivat mallia suoraan todellisissa SME-tehtävissä ja antavat jäsenneltyä palautetta arviointiimme sen ominaisuuksista ja niihin liittyvistä suojatoimista 1
Tässä blogissa kerromme, miten käytämme kutakin näistä ulkoisen arvioinnin muodoista, miksi ne ovat tärkeitä, miten ne ovat vaikuttaneet käyttöönottopäätöksiin ja mitä periaatteita käytämme näiden yhteistyöprojektien jäsentämiseen. Avoimuuden hengessä kerromme myös lisää luottamuksellisuudesta ja julkaisuehdoista, jotka ohjaavat yhteistyötämme kolmansien osapuolten testaajien kanssa.
Kolmannen osapuolen arvioijat lisäävät riippumattoman arviointikerroksen sisäisen työmme rinnalle, mikä vahvistaa tarkkuutta ja tarjoaa lisäsuojaa itsensä vahvistamista vastaan. Heidän panoksensa tarjoaa lisätietoa omien arvioidemme lisäksi ja auttaa tekemään vastuullisia päätöksiä tehokkaiden järjestelmien käyttöönotosta.
Pidämme myös kolmansien osapuolten arviointeja osana joustavan turvallisuusekosysteemin rakentamista. Tiimimme suorittavat laajoja sisäisiä testejä eri osaamis- ja riskialueilla, mutta riippumattomat organisaatiot tuovat mukanaan uusia näkökulmia ja metodologisia lähestymistapoja. Työskentelemme tukemaan monipuolista joukkoa päteviä arviointiorganisaatioita, jotka voivat säännöllisesti arvioida edistyneitä malleja kanssamme.
Lopuksi haluamme olla avoimia siitä, miten tämä syöte auttaa muokkaamaan turvallisuusprosessiamme. Julkaisemme säännöllisesti kolmansien osapuolten arviointeja – esimerkiksi sisällyttämällä yhteenvetoja ennakkoarvioinneista järjestelmäkortteihin ja tukemalla arviointiorganisaatioita julkaisemaan yksityiskohtaisempia töitä luottamuksellisuuden ja tarkkuuden tarkistuksen jälkeen. Tämä avoimuus luo luottamusta osoittamalla, miten ulkoinen syöte muokkaa kykyjemme arviointeja ja suojatoimia.
Luotettavaan pääsyyn, läpinäkyvyyteen ja tiedon jakamiseen perustuvat kestävät suhteet auttavat koko ekosysteemiä pysymään uusien riskien edellä ja edistävät mukautuvia, konkreettisia arviointeja, joita tarvitaan vahvempien standardien ja tietoon perustuvan hallinnon luomiseksi uusille tekoälyjärjestelmille.
GPT‑4(avautuu uudessa ikkunassa):n julkaisusta lähtien olemme tukeneet riippumattomia arviointeja varhaisista mallien tarkistuspisteistä ennen käyttöönottoa. Siitä lähtien olemme laajentaneet yhteistyötämme useiden kolmansien osapuolten organisaatioiden kanssa, joilla on syvällistä asiantuntemusta keskeisten uusien kykyjen ja riskialueiden arvioinnista. Määrittelemme itsenäisen laboratoriotyön avoimeksi testaukseksi, jossa ulkopuoliset tiimit käyttävät omia menetelmiään tiettyyn edistykselliseen kykyyn liittyvän väitteen tai arvion laatimiseksi.
Esimerkiksi GPT‑5:n osalta OpenAI koordinoi laajan joukon ulkoisia kykyarviointeja keskeisillä riskialueilla, kuten pitkän aikavälin autonomia, juonittelu, petos ja valvonnan kiertäminen, märän laboratorion suunnittelun toteutettavuus ja hyökkäävän kyberturvallisuuden arviointi.
Nämä riippumattomat arvioinnit täydentävät OpenAI:n valmiuskehyksen mukaisesti tehtyjä arviointeja ja sisältävät vertailukohtia, kuten METR:n aikahorisonttiarvioinnin(avautuu uudessa ikkunassa) tai SecureBion virologisten valmiuksien vianmäärityksen(VCT)(avautuu uudessa ikkunassa) arvioinnin.
Näiden arviointien tukemiseksi tarjosimme turvallisen pääsyn varhaisiin mallin tarkistuspisteisiin, valikoituja arviointituloksia konkretisoimaan havaitsemiamme suorituskyvyn parannuksia, tietojen määräaikaisen säilyttämisen tarpeen mukaan sekä malleja, joissa oli vähemmän lieventämistoimia. Esimerkiksi kyberturvallisuuden ja bioturvallisuuden toimialueilla toimivat organisaatiot testasivat malleja sekä turvallisuuslievennyksillä että ilman niitä tutkiakseen taustalla olevia ominaisuuksia. Useat muut organisaatiot ottivat käyttöön suoran ajatusketjun pääsyn, jotta ne voivat tarkastella mallin päättelyjälkiä. Tämä läpinäkyvyyden lisääminen mahdollisti arvioijille tunnistaa tapauksia, joissa oli kyseessä sandbagging2 tai juonittelu, jotka saattoivat olla havaittavissa vain ajatusketjua lukemalla. Pääsy järjestettiin turvallisuusvalvonnan avulla. Päivitämme valvontaa jatkuvasti mallien ominaisuuksien ja testausvaatimusten kehittyessä.
Tietyissä konteksteissa ulkopuoliset arvioijat ovat hyvin sijoittuneita tarjoamaan metodologista arviointia, tarjoten lisänäkökulmia kehyksiin ja todisteisiin, joihin edistyneet laboratoriot luottavat riskin arvioinnissa. Esimerkiksi GPT:n lanseerauksen yhteydessä käytimme vastakkaista hienosäätöä arvioidaksemme avoimien mallien pahimpia mahdollisuuksia, kuten kuvataan kohdassa Suurimpien riskien arviointi rajoittamattoman suuren kielimallin osalta. Keskeinen turvallisuuskysymys oli, voisiko haitallinen toimija hienosäätää mallia saavuttamaan korkean kyvykkyyden esimerkiksi bio- tai kyberteknologian aloilla valmiuskehyksemme puitteissa. Koska tämä vaati resursseja vievää vastakkainasettelua, kutsuimme kolmannen osapuolen arvioijia tarkastamaan sisäiset menetelmämme ja tuloksemme sekä antamaan suosituksia sen sijaan, että toistaisimme samanlaista työtä.
Tämä sisälsi useita viikkoja kestäneen prosessin, jossa jaettiin arviointien käyttöönottoja, yksityiskohtia vastakkainasettelun hienosäätämisestä ja kerättiin jäsenneltyjä suosituksia menetelmien ja arviointien parantamiseksi pahimpien mahdollisten riskien varalta. Arvioijien antama palaute johti muutoksiin lopullisessa vastakkainasettelun hienosäätöprosessissa ja osoitti metodologisen vahvistamisen arvon. Kirjasimme paperiin ja gpt-oss-järjestelmäkorttiin ne kohdat, jotka hyväksyimme, ja perustelimme ne, joita emme ottaneet käyttöön.
Tässä tapauksessa metodologian tarkastelu oli oikea ratkaisu riippumattomien arviointien sijaan: arvioinnit sisälsivät laajamittaisten pahimman skenaarion kokeiden suorittamisen, mikä vaatii infrastruktuuria ja teknistä asiantuntemusta, jota ei yleensä ole saatavilla suurten tekoälylaboratorioiden ulkopuolella. Tämä tarkoitti, että riippumattomat arvioinnit eivät todennäköisesti olisi voineet suoraan johtaa näkemyksiin pahimmista skenaarioista, ja oli tuottavampaa keskittyä ulkopuolisten arvioijien avulla väitteiden vahvistamiseen. Ulkopuoliset arvioijat tarkastelivat menetelmiä ja todisteita(avautuu uudessa ikkunassa), korostaen päätöksenteon kannalta merkityksellisiä puutteita, jotka käsiteltiin osana suositusten palautekierrosta. Toivomme voivamme laajentaa tätä lähestymistapaa muihin aloihin, joissa pääsy- tai infrastruktuuritarpeet tekevät kolmannen osapuolen suorien arviointien suorittamisen epäkäytännölliseksi tai joissa ulkopuolisia arviointeja ei vielä ole.
Toinen tapa, jolla hyödynnämme ulkopuolisia asiantuntijoita, on aihepiirin asiantuntijoiden (SME) kyselytutkimus, jossa asiantuntijat arvioivat mallia suoraan ja antavat strukturoitua palautetta kyselyjen kautta sen ominaisuuksien arvioinnista. Tämä eroaa red teaming-menetelmästä, jonka tarkoituksena on stressitestata tiettyjä suojatoimia. Tämä mahdollistaa sen, että voimme täydentää valmiuspuitteiden arviointeja toimialuekohtaisilla näkemyksillä, jotka heijastavat asiantuntijoiden arvioita ja todellista kontekstia, jota pelkät staattiset arvioinnit eivät välttämättä pysty kuvaamaan. Kutsuimme esimerkiksi asiantuntijapaneelin käyttämään vain hyödyllistä mallia3 kokeilemaan omia päästä päähän -bioskenaarioitaan ChatGPT‑agentille ja GPT‑5:lle. He arvioivat, kuinka paljon malli voisi auttaa heidän kaltaisiaan asiantuntijoita verrattuna vähemmän kokeneisiin aloittelijoihin, perustuen mallin antaman ohjeistuksen hyödyllisyyteen heidän skenaarioissaan. Tavoitteena oli kerätä lisätietoa siitä, kuinka hyvin järjestelmä voisi auttaa motivoitunutta aloittelijaa pääsemään lähemmäksi pätevää suoritusta: pk-yritykset testasivat ”aloittelijan tason nostamista” koskevat väitteemme realistisissa, itse laatimissaan työnkulkuissa ja antoivat yksityiskohtaista palautetta siitä, missä malli tarjosi olennaista, vaihekohtaista apua ja missä taas vähemmän hyödyllisiä yhteenvetoja. Tämä asiantuntijan tutkintatehtävä sisällytettiin osaksi näiden mallien käyttöönoton kokonaisarviointia, ja se jaettiin molempien julkaisujen järjestelmäkortteihin.
Avoimuuden hengessä kerromme lisää siitä, mihin kolmannen osapuolen arvioijat sitoutuvat työskennellessään kanssamme, sekä yhteistyötämme ohjaavista periaatteista:
- Avoimuus ja huolellisesti rajattu luottamuksellisuu: Kolmannen osapuolen arvioijat allekirjoittavat salassapitosopimukset, jotta he voivat jakaa luottamuksellisia, ei-julkisia tietoja arviointien tueksi. Tämän viestin liitteessä on otteita kolmansien osapuolten arvioijien kanssa tehdyistä sopimuksista, joissa kuvataan julkaisemiseen liittyvät oikeudet ja arviointia koskevat odotukset. Toimimme avoimuuden periaatteella ja pyrimme ottamaan käyttöön julkaisemisen, joka edistää turvallisuutta ja siihen liittyvien arviointien ymmärtämistä vaarantamatta luottamuksellisia tietoja tai immateriaalioikeuksia. Osana tätä tarkastamme ja hyväksymme kolmansien osapuolten arviointien julkaisut varmistaaksemme sekä luottamuksellisuuden että tietojen paikkansapitävyyden. Viime vuosina useat kolmannet osapuolet ovat julkaisseet arviointinsa rinnalla omat arviointiyhteenvetomme järjestelmäkortteina. Esimerkkejä töistä, jotka on julkaistu sen jälkeen, kun olemme tarkistaneet niiden luottamuksellisuuden ja paikkansapitävyyden, ovat muun muassa: [METR GPT‑5 report (avautuu uudessa ikkunassa), Apollo Research report on OpenAI o1(avautuu uudessa ikkunassa), Irregular GPT‑5 Assessment(avautuu uudessa ikkunassa)]
- Harkittu tiedon julkistaminen ja turvallinen, arkaluonteinen pääsy: Oletuksena tarjoamme tietoja ja pääsyn malleihin, jotka on tarkoitettu julkisiksi tai tuotantovalmiiksi. Kun arvioinnit sitä edellyttävät, tarjoamme syvällisemmän pääsyn, kuten vain avustaviin malleihin tai ei-julkisiin tietoihin. OpenAI on tarjonnut nämä käyttöoikeudet kolmansien osapuolten arvioijille, kun se on ollut tarpeen kriittisten turvallisuuskysymysten vuoksi. On tärkeää, että tämäntyyppiset arkaluontoiset pääsyoikeudet edellyttävät tiukkoja turvatoimia, ja päivitämme näitä valvontatoimia jatkuvasti mallien ominaisuuksien ja testausvaatimusten kehittyessä.
- Tasapainoiset taloudelliset kannustimet: Uskomme, että on tärkeää varmistaa, että kolmannen osapuolen arviointijärjestelmä on hyvin rahoitettu ja kestävä. Tämän vuoksi tarjoamme korvausta kaikille kolmansien osapuolten arvioijille, ja jotkut heistä päättävät kieltäytyä korvauksesta organisaationsa tämän asian koskevan filosofian mukaisesti. Korvausmuotoja ovat suora maksu työstä ja/tai mallin käyttökustannusten tukeminen API-krediiteillä tai muulla tavalla. Maksua ei koskaan suoriteta kolmannen osapuolen arvioinnin tulosten perusteella.
Yhdessä nämä tekijät auttavat kolmansien osapuolten arviointeja suojaamaan arkaluonteisia tietoja ja edistämään tekoälyn turvallisuuden avoimuutta sekä luomaan keinoja, joiden avulla kolmansien osapuolten arvioijat voivat saada korvauksen ajastaan.
Tulevaisuudessa näemme tarpeen jatkaa sellaisten organisaatioiden ekosysteemin vahvistamista, jotka pystyvät tekemään luotettavia, päätöksentekoon vaikuttavia arvioita edistyneistä tekoälyjärjestelmistä. Tehokas kolmannen osapuolen arviointi edellyttää erityisosaamista, vakaata rahoitusta ja metodologista tarkkuutta. Jatkuva investointi päteviin arvioijaorganisaatioihin, mittaustieteen kehittäminen ja arkaluontoisen pääsyn turvaaminen ovat olennaisia tekijöitä, jotta arvioinnit pysyvät mallien kehityksen tasalla.
Kolmansien osapuolten arvioinnit ovat yksi tapa tuoda ulkopuolista näkökulmaa turvallisuustyöhömme, ja ne toimivat muiden mekanismien rinnalla. Teemme myös yhteistyötä ulkopuolisten asiantuntijoiden kanssa rakenteellisten red teaming -toimien, kollektiivisten yhdenmukaistamisprojektien, U.S. CAISI:n ja UK AISI:n työn sekä neuvonantajaryhmien yhteistyön, kuten Global Physician Network, kanssa ja Hyvinvoinnin ja tekoälyn asiantuntijaneuvoston kautta, auttaaksemme ohjaamaan työtämme mielenterveyden ja käyttäjien hyvinvoinnin parissa. Nämä toimet tuovat mukanaan erilaisia asiantuntemuksen muotoja ja tukevat laajempaa ja luotettavampaa perustaa kehittyneiden tekoälyjärjestelmien arviointiin ja hallintaan.
Seuraavassa on esimerkkejä sopimuksistamme kolmansien osapuolten kanssa, jotka tekevät kanssamme yhteistyötä käyttöönottoa edeltävissä arvioinneissa.
Tekijä
Alaviitteet
- 1
Tämä eroaa red teaming -menetelmästä, jonka tarkoituksena on testata suojatoimia yksityiskohtaisesti ja tuottaa tietoa arvioinnin kehittämistä varten.
- 2
Kun malli tarkoituksella alisuoriutuu tai piilottaa todelliset kykynsä, kun se havaitsee, että sitä arvioidaan tai testataan.
- 3
Hyödylliset mallit vastaavat kaikkiin pyyntöihin, vaikka pyyntö olisi haitallinen. Nämä luodaan jälkikoulutusmenetelmillä, jotka saavuttavat tämän käyttäytymisen.


