Siirry pääsisältöön
OpenAI

19. marraskuuta 2025

Turvallisuus

Turvallisuusekosysteemimme vahvistaminen ulkoisilla testeillä

Lähestymistapamme kolmansien osapuolten arviointiin edistyneelle tekoälylle.

Ladataan...

OpenAI uskoo, että riippumattomilla ja luotetuilla kolmansien osapuolten arvioinneilla on keskeinen rooli edistyneen tekoälyn turvallisuusekosysteemin vahvistamisessa. Kolmannen osapuolen arvioinnit ovat edistyneiden mallien perusteella tehtyjä arviointeja, joilla vahvistetaan kriittisiä turvallisuusominaisuuksia ja niiden lieventämistoimia koskevia väitteitä tai tarjotaan lisänäyttöä niistä. Nämä arvioinnit auttavat vahvistamaan turvallisuusväitteitä, suojaamaan katvealueilta ja lisäämään läpinäkyvyyttä kykyjen ja riskien osalta. Kutsumalla ulkopuolisia asiantuntijoita testaamaan edistyksellisiä mallejamme, pyrimme myös lisäämään luottamusta kykyarviointiemme ja suojatoimiemme perusteellisuuteen sekä edistämään turvallisuuden ekosysteemin yleistä kehittymistä.

GPT‑4:n lanseerauksen jälkeen OpenAI on tehnyt yhteistyötä useiden ulkoisten kumppaneiden kanssa malliemme testaamiseksi ja arvioimiseksi. Yleisesti ottaen kolmansien osapuolten kanssa tekemämme yhteistyö on kolmenlaista:

  • Riippumattomat arvioinnit keskeisistä uusista kykyistä ja riskialueista, kuten bioturvallisuus, kyberturvallisuus, tekoälyn itsensä kehittäminen ja suunnittelusta
  • Menetelmäkatsaukset, joissa arvioidaan, miten arvioimme ja tulkitsemme riskiä
  • Aihealueen asiantuntijoiden (SME) arviointi, jossa asiantuntijat arvioivat mallia suoraan todellisissa SME-tehtävissä ja antavat jäsenneltyä palautetta arviointiimme sen ominaisuuksista ja niihin liittyvistä suojatoimista 1

Tässä blogissa kerromme, miten käytämme kutakin näistä ulkoisen arvioinnin muodoista, miksi ne ovat tärkeitä, miten ne ovat vaikuttaneet käyttöönottopäätöksiin ja mitä periaatteita käytämme näiden yhteistyöprojektien jäsentämiseen. Avoimuuden hengessä kerromme myös lisää luottamuksellisuudesta ja julkaisuehdoista, jotka ohjaavat yhteistyötämme kolmansien osapuolten testaajien kanssa. 

Miksi tämä on tärkeää? 

Kolmannen osapuolen arvioijat lisäävät riippumattoman arviointikerroksen sisäisen työmme rinnalle, mikä vahvistaa tarkkuutta ja tarjoaa lisäsuojaa itsensä vahvistamista vastaan. Heidän panoksensa tarjoaa lisätietoa omien arvioidemme lisäksi ja auttaa tekemään vastuullisia päätöksiä tehokkaiden järjestelmien käyttöönotosta.

Pidämme myös kolmansien osapuolten arviointeja osana joustavan turvallisuusekosysteemin rakentamista. Tiimimme suorittavat laajoja sisäisiä testejä eri osaamis- ja riskialueilla, mutta riippumattomat organisaatiot tuovat mukanaan uusia näkökulmia ja metodologisia lähestymistapoja. Työskentelemme tukemaan monipuolista joukkoa päteviä arviointiorganisaatioita, jotka voivat säännöllisesti arvioida edistyneitä malleja kanssamme.

Lopuksi haluamme olla avoimia siitä, miten tämä syöte auttaa muokkaamaan turvallisuusprosessiamme. Julkaisemme säännöllisesti kolmansien osapuolten arviointeja – esimerkiksi sisällyttämällä yhteenvetoja ennakkoarvioinneista järjestelmäkortteihin ja tukemalla arviointiorganisaatioita julkaisemaan yksityiskohtaisempia töitä luottamuksellisuuden ja tarkkuuden tarkistuksen jälkeen. Tämä avoimuus luo luottamusta osoittamalla, miten ulkoinen syöte muokkaa kykyjemme arviointeja ja suojatoimia. 

Luotettavaan pääsyyn, läpinäkyvyyteen ja tiedon jakamiseen perustuvat kestävät suhteet auttavat koko ekosysteemiä pysymään uusien riskien edellä ja edistävät mukautuvia, konkreettisia arviointeja, joita tarvitaan vahvempien standardien ja tietoon perustuvan hallinnon luomiseksi uusille tekoälyjärjestelmille.

Ulkopuolisten laboratorioiden tekemät riippumattomat arvioinnit

GPT‑4(avautuu uudessa ikkunassa):n julkaisusta lähtien olemme tukeneet riippumattomia arviointeja varhaisista mallien tarkistuspisteistä ennen käyttöönottoa. Siitä lähtien olemme laajentaneet yhteistyötämme useiden kolmansien osapuolten organisaatioiden kanssa, joilla on syvällistä asiantuntemusta keskeisten uusien kykyjen ja riskialueiden arvioinnista. Määrittelemme itsenäisen laboratoriotyön avoimeksi testaukseksi, jossa ulkopuoliset tiimit käyttävät omia menetelmiään tiettyyn edistykselliseen kykyyn liittyvän väitteen tai arvion laatimiseksi.

Esimerkiksi GPT‑5:n osalta OpenAI koordinoi laajan joukon ulkoisia kykyarviointeja keskeisillä riskialueilla, kuten pitkän aikavälin autonomia, juonittelu, petos ja valvonnan kiertäminen, märän laboratorion suunnittelun toteutettavuus ja hyökkäävän kyberturvallisuuden arviointi. 

Nämä riippumattomat arvioinnit täydentävät OpenAI:n valmiuskehyksen mukaisesti tehtyjä arviointeja ja sisältävät vertailukohtia, kuten METR:n aikahorisonttiarvioinnin(avautuu uudessa ikkunassa) tai SecureBion virologisten valmiuksien vianmäärityksen(VCT)(avautuu uudessa ikkunassa) arvioinnin. 

Näiden arviointien tukemiseksi tarjosimme turvallisen pääsyn varhaisiin mallin tarkistuspisteisiin, valikoituja arviointituloksia konkretisoimaan havaitsemiamme suorituskyvyn parannuksia, tietojen määräaikaisen säilyttämisen tarpeen mukaan sekä malleja, joissa oli vähemmän lieventämistoimia. Esimerkiksi kyberturvallisuuden ja bioturvallisuuden toimialueilla toimivat organisaatiot testasivat malleja sekä turvallisuuslievennyksillä että ilman niitä tutkiakseen taustalla olevia ominaisuuksia. Useat muut organisaatiot ottivat käyttöön suoran ajatusketjun pääsyn, jotta ne voivat tarkastella mallin päättelyjälkiä. Tämä läpinäkyvyyden lisääminen mahdollisti arvioijille tunnistaa tapauksia, joissa oli kyseessä sandbagging2 tai juonittelu, jotka saattoivat olla havaittavissa vain ajatusketjua lukemalla. Pääsy järjestettiin turvallisuusvalvonnan avulla. Päivitämme valvontaa jatkuvasti mallien ominaisuuksien ja testausvaatimusten kehittyessä.

Metodologian tarkastelu

Tietyissä konteksteissa ulkopuoliset arvioijat ovat hyvin sijoittuneita tarjoamaan metodologista arviointia, tarjoten lisänäkökulmia kehyksiin ja todisteisiin, joihin edistyneet laboratoriot luottavat riskin arvioinnissa. Esimerkiksi GPT:n lanseerauksen yhteydessä käytimme vastakkaista hienosäätöä arvioidaksemme avoimien mallien pahimpia mahdollisuuksia, kuten kuvataan kohdassa Suurimpien riskien arviointi rajoittamattoman suuren kielimallin osalta. Keskeinen turvallisuuskysymys oli, voisiko haitallinen toimija hienosäätää mallia saavuttamaan korkean kyvykkyyden esimerkiksi bio- tai kyberteknologian aloilla valmiuskehyksemme puitteissa. Koska tämä vaati resursseja vievää vastakkainasettelua, kutsuimme kolmannen osapuolen arvioijia tarkastamaan sisäiset menetelmämme ja tuloksemme sekä antamaan suosituksia sen sijaan, että toistaisimme samanlaista työtä.

Tämä sisälsi useita viikkoja kestäneen prosessin, jossa jaettiin arviointien käyttöönottoja, yksityiskohtia vastakkainasettelun hienosäätämisestä ja kerättiin jäsenneltyjä suosituksia menetelmien ja arviointien parantamiseksi pahimpien mahdollisten riskien varalta. Arvioijien antama palaute johti muutoksiin lopullisessa vastakkainasettelun hienosäätöprosessissa ja osoitti metodologisen vahvistamisen arvon. Kirjasimme paperiin ja gpt-oss-järjestelmäkorttiin ne kohdat, jotka hyväksyimme, ja perustelimme ne, joita emme ottaneet käyttöön.

Tässä tapauksessa metodologian tarkastelu oli oikea ratkaisu riippumattomien arviointien sijaan: arvioinnit sisälsivät laajamittaisten pahimman skenaarion kokeiden suorittamisen, mikä vaatii infrastruktuuria ja teknistä asiantuntemusta, jota ei yleensä ole saatavilla suurten tekoälylaboratorioiden ulkopuolella. Tämä tarkoitti, että riippumattomat arvioinnit eivät todennäköisesti olisi voineet suoraan johtaa näkemyksiin pahimmista skenaarioista, ja oli tuottavampaa keskittyä ulkopuolisten arvioijien avulla väitteiden vahvistamiseen. Ulkopuoliset arvioijat tarkastelivat menetelmiä ja todisteita(avautuu uudessa ikkunassa), korostaen päätöksenteon kannalta merkityksellisiä puutteita, jotka käsiteltiin osana suositusten palautekierrosta. Toivomme voivamme laajentaa tätä lähestymistapaa muihin aloihin, joissa pääsy- tai infrastruktuuritarpeet tekevät kolmannen osapuolen suorien arviointien suorittamisen epäkäytännölliseksi tai joissa ulkopuolisia arviointeja ei vielä ole. 

Aihepiirin asiantuntijan (SME) tutkinta

Toinen tapa, jolla hyödynnämme ulkopuolisia asiantuntijoita, on aihepiirin asiantuntijoiden (SME) kyselytutkimus, jossa asiantuntijat arvioivat mallia suoraan ja antavat strukturoitua palautetta kyselyjen kautta sen ominaisuuksien arvioinnista. Tämä eroaa red teaming-menetelmästä, jonka tarkoituksena on stressitestata tiettyjä suojatoimia. Tämä mahdollistaa sen, että voimme täydentää valmiuspuitteiden arviointeja toimialuekohtaisilla näkemyksillä, jotka heijastavat asiantuntijoiden arvioita ja todellista kontekstia, jota pelkät staattiset arvioinnit eivät välttämättä pysty kuvaamaan. Kutsuimme esimerkiksi asiantuntijapaneelin käyttämään vain hyödyllistä mallia3 kokeilemaan omia päästä päähän -bioskenaarioitaan ChatGPT‑agentille ja GPT‑5:lle. He arvioivat, kuinka paljon malli voisi auttaa heidän kaltaisiaan asiantuntijoita verrattuna vähemmän kokeneisiin aloittelijoihin, perustuen mallin antaman ohjeistuksen hyödyllisyyteen heidän skenaarioissaan.  Tavoitteena oli kerätä lisätietoa siitä, kuinka hyvin järjestelmä voisi auttaa motivoitunutta aloittelijaa pääsemään lähemmäksi pätevää suoritusta: pk-yritykset testasivat ”aloittelijan tason nostamista” koskevat väitteemme realistisissa, itse laatimissaan työnkulkuissa ja antoivat yksityiskohtaista palautetta siitä, missä malli tarjosi olennaista, vaihekohtaista apua ja missä taas vähemmän hyödyllisiä yhteenvetoja. Tämä asiantuntijan tutkintatehtävä sisällytettiin osaksi näiden mallien käyttöönoton kokonaisarviointia, ja se jaettiin molempien julkaisujen järjestelmäkortteihin. 

Mikä tekee kolmannen osapuolen arviointiyhteistyöstä onnistuneeksi?

Avoimuuden hengessä kerromme lisää siitä, mihin kolmannen osapuolen arvioijat sitoutuvat työskennellessään kanssamme, sekä yhteistyötämme ohjaavista periaatteista:

  • Avoimuus ja huolellisesti rajattu luottamuksellisuu: Kolmannen osapuolen arvioijat allekirjoittavat salassapitosopimukset, jotta he voivat jakaa luottamuksellisia, ei-julkisia tietoja arviointien tueksi. Tämän viestin liitteessä on otteita kolmansien osapuolten arvioijien kanssa tehdyistä sopimuksista, joissa kuvataan julkaisemiseen liittyvät oikeudet ja arviointia koskevat odotukset. Toimimme avoimuuden periaatteella ja pyrimme ottamaan käyttöön julkaisemisen, joka edistää turvallisuutta ja siihen liittyvien arviointien ymmärtämistä vaarantamatta luottamuksellisia tietoja tai immateriaalioikeuksia. Osana tätä tarkastamme ja hyväksymme kolmansien osapuolten arviointien julkaisut varmistaaksemme sekä luottamuksellisuuden että tietojen paikkansapitävyyden. Viime vuosina useat kolmannet osapuolet ovat julkaisseet arviointinsa rinnalla omat arviointiyhteenvetomme järjestelmäkortteina. Esimerkkejä töistä, jotka on julkaistu sen jälkeen, kun olemme tarkistaneet niiden luottamuksellisuuden ja paikkansapitävyyden, ovat muun muassa: [METR GPT‑5 report (avautuu uudessa ikkunassa), Apollo Research report on OpenAI o1(avautuu uudessa ikkunassa), Irregular GPT‑5 Assessment(avautuu uudessa ikkunassa)
  • Harkittu tiedon julkistaminen ja turvallinen, arkaluonteinen pääsy: Oletuksena tarjoamme tietoja ja pääsyn malleihin, jotka on tarkoitettu julkisiksi tai tuotantovalmiiksi. Kun arvioinnit sitä edellyttävät, tarjoamme syvällisemmän pääsyn, kuten vain avustaviin malleihin tai ei-julkisiin tietoihin. OpenAI on tarjonnut nämä käyttöoikeudet kolmansien osapuolten arvioijille, kun se on ollut tarpeen kriittisten turvallisuuskysymysten vuoksi. On tärkeää, että tämäntyyppiset arkaluontoiset pääsyoikeudet edellyttävät tiukkoja turvatoimia, ja päivitämme näitä valvontatoimia jatkuvasti mallien ominaisuuksien ja testausvaatimusten kehittyessä.
  • Tasapainoiset taloudelliset kannustimet: Uskomme, että on tärkeää varmistaa, että kolmannen osapuolen arviointijärjestelmä on hyvin rahoitettu ja kestävä. Tämän vuoksi tarjoamme korvausta kaikille kolmansien osapuolten arvioijille, ja jotkut heistä päättävät kieltäytyä korvauksesta organisaationsa tämän asian koskevan filosofian mukaisesti. Korvausmuotoja ovat suora maksu työstä ja/tai mallin käyttökustannusten tukeminen API-krediiteillä tai muulla tavalla. Maksua ei koskaan suoriteta kolmannen osapuolen arvioinnin tulosten perusteella.

Yhdessä nämä tekijät auttavat kolmansien osapuolten arviointeja suojaamaan arkaluonteisia tietoja ja edistämään tekoälyn turvallisuuden avoimuutta sekä luomaan keinoja, joiden avulla kolmansien osapuolten arvioijat voivat saada korvauksen ajastaan. 

Katse tulevaisuuteen

Tulevaisuudessa näemme tarpeen jatkaa sellaisten organisaatioiden ekosysteemin vahvistamista, jotka pystyvät tekemään luotettavia, päätöksentekoon vaikuttavia arvioita edistyneistä tekoälyjärjestelmistä. Tehokas kolmannen osapuolen arviointi edellyttää erityisosaamista, vakaata rahoitusta ja metodologista tarkkuutta. Jatkuva investointi päteviin arvioijaorganisaatioihin, mittaustieteen kehittäminen ja arkaluontoisen pääsyn turvaaminen ovat olennaisia tekijöitä, jotta arvioinnit pysyvät mallien kehityksen tasalla. 

Kolmansien osapuolten arvioinnit ovat yksi tapa tuoda ulkopuolista näkökulmaa turvallisuustyöhömme, ja ne toimivat muiden mekanismien rinnalla. Teemme myös yhteistyötä ulkopuolisten asiantuntijoiden kanssa rakenteellisten red teaming -toimien, kollektiivisten yhdenmukaistamisprojektien, U.S. CAISI:n ja UK AISI:n työn sekä neuvonantajaryhmien yhteistyön, kuten Global Physician Network, kanssa ja Hyvinvoinnin ja tekoälyn asiantuntijaneuvoston kautta, auttaaksemme ohjaamaan työtämme mielenterveyden ja käyttäjien hyvinvoinnin parissa. Nämä toimet tuovat mukanaan erilaisia asiantuntemuksen muotoja ja tukevat laajempaa ja luotettavampaa perustaa kehittyneiden tekoälyjärjestelmien arviointiin ja hallintaan.

Lisäys

Seuraavassa on esimerkkejä sopimuksistamme kolmansien osapuolten kanssa, jotka tekevät kanssamme yhteistyötä käyttöönottoa edeltävissä arvioinneissa. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Tekijä

OpenAI

Alaviitteet

  1. 1

    Tämä eroaa red teaming -menetelmästä, jonka tarkoituksena on testata suojatoimia yksityiskohtaisesti ja tuottaa tietoa arvioinnin kehittämistä varten.

  2. 2

    Kun malli tarkoituksella alisuoriutuu tai piilottaa todelliset kykynsä, kun se havaitsee, että sitä arvioidaan tai testataan.

  3. 3

    Hyödylliset mallit vastaavat kaikkiin pyyntöihin, vaikka pyyntö olisi haitallinen. Nämä luodaan jälkikoulutusmenetelmillä, jotka saavuttavat tämän käyttäytymisen.