Ohjehierarkian parantaminen edistyneissä LLM-malleissa
Esittelyssä IH-Challenge, koulutusdatajoukko, joka vahvistaa ohjehierarkiaa, turvallisuuden ohjattavuutta ja kehoteinjektioiden kestävyyttä.
Tekoälyjärjestelmät saavat usein ohjeita useista eri lähteistä. Näitä voivat olla järjestelmäviestien turvallisuuskäytännöt, kehittäjien tuoteohjeet, käyttäjien pyynnöt ja verkosta löytyvät tiedot. Malleja kouluttaminen priorisoimaan luotettavimmat ohjeet näiden lähteiden joukosta luotettavasti on keskeinen osa turvallista käyttöönottoa.
Monia tekoälyn turvallisuuteen ja luotettavuuteen liittyviä ongelmia voi ilmetä, kun tämä priorisointi pettää. Mallit saattavat saada pyyntöjä kielletyn sisällön tuottamisesta, yrityksiä paljastaa yksityisiä tietoja tai verkkodataan upotettuja kehoteinjektiohyökkäyksiä. Näiden skenaarioiden asianmukaisen käyttäytymisen epäonnistumisella on sama perimmäinen syy: malli saattaa noudattaa vääriä ohjeita.
Kun nämä ohjeet ovat ristiriidassa keskenään, mallin on päätettävä, mitkä niistä priorisoidaan. Jos malli käsittelee epäluotettavaa ohjetta auktoritatiivisena, se voi toimia tavoilla, jotka rikkovat käytäntöjä tai kehittäjän ja käyttäjän tarkoitusperiä.
Osoitamme, että asianmukaisesti suunnitellut ohjehierarkiatehtävät, jotka kouluttavat malleja priorisoimaan ohjeita niiden luotettavuustason mukaan, parantavat useita reaalimaailman turvallisuusominaisuuksia. Näihin tehtäviin koulutetut mallit reagoivat paremmin järjestelmäkehotteiden turvallisuusmäärityksiin (parantaen turvallisuuden ohjattavuutta) ja ovat vankempia työkalujen tuotoksiin upotettuja kehoteinjektiohyökkäyksiä vastaan.
Ristiriitojen käsittelemiseksi OpenAI:n mallit on koulutettu noudattamaan selkeää ohjehierarkiaa:
Järjestelmä > kehittäjä > käyttäjä > työkalu
Korkeamman prioriteetin ohjeisiin luotetaan enemmän. Mallin tulisi noudattaa alemman prioriteetin ohjeita vain silloin, kun ne eivät ole ristiriidassa korkeamman prioriteetin rajoitteiden kanssa. Nämä periaatteet on esitetty OpenAI:n mallimäärityksessä(avautuu uudessa ikkunassa).
Jos esimerkiksi järjestelmäviesti sisältää turvallisuuskäytännön ja käyttäjä pyytää mallia rikkomaan sitä, mallin tulisi kieltäytyä. Jos työkalun tuotos sisältää haitallisia ohjeita, mallin tulisi jättää ne huomiotta sen sijaan, että se käsittelisi niitä komentoina.
Tämän tekeminen oikein on perustavanlaatuista turvallisuuden, tietoturvan ja luotettavuuden kannalta.
Oikealla oleva malli noudattaa oikein kehittäjän ohjeita, joilla on korkeampi prioriteetti kuin käyttäjän ohjeilla, kun kaksi ohjetta on ristiriidassa keskenään.
Vahvistusoppiminen sopii luonnostaan ohjehierarkian opettamiseen. Voimme luoda keskusteluja ristiriitaisilla ohjeilla, kehottaa mallia vastaamaan ja palkita sitä, kun se noudattaa oikeita ohjeita.
Olemme tunnistaneet kolme sudenkuoppaa, jotka liittyvät kyseisen reseptin soveltamiseen naiivisti:
- Ohjeiden noudattamisen epäonnistumiset voivat olla myös ohjehierarkian epäonnistumisia: malli ei välttämättä onnistu ratkaisemaan ohjeristiriitaa – ei siksi, ettei se ymmärrä roolien hierarkiaa, vaan siksi, että ohjeet itsessään ovat liian monimutkaisia.
- Ohjeristiriidat voivat olla vivahteikkaita ja jopa subjektiivisia. Yleinen lähestymistapa on antaa erillisen LLM:n arvioijan määrittää palkkiot koulutettavalle LLM:lle, mutta arvioijatkin ovat erehtyväisiä.
- Mallit oppivat usein oikoteitä, jotka johtavat korkeaan palkkioon, mutta ovat käytännössä hyödyttömiä(avautuu uudessa ikkunassa). Klassinen esimerkki on ylikieltäytymiset: mallit voivat oppia maksimoimaan turvallisuuden kieltäytymällä jopa hyväntahtoisista pyynnöistä.
Suunnittelemme IH-Challengea, vahvistusoppimisen koulutusaineistoa, jotta voimme puuttua kuhunkin näistä sudenkuopista. Noudatamme seuraavia periaatteita:
- Tehtävät ovat: ohje-noudattaminen-yksinkertainen
- Ne ovat objektiivisesti luokiteltavissa olevia yksinkertaisella Python-komentosarjalla
- Ei ole olemassa mitään triviaaleja oikoteitä, jotka takaisivat korkean palkkion kaikissa tehtävissä.
Kukin IH-Challenge-tehtävä on käytännössä keskustelu, jossa on seuraavat viestit:
- Ohjeviesti korkean käyttöoikeustason roolilta, esim. “Vastaa vain Kyllä tai Ei”.
- Ohjeviesti alemman käyttöoikeustason roolilta, joka yrittää saada mallin rikkomaan korkeamman käyttöoikeustason viestissä annettuja ohjeita.
Koulutettava malli luo seuraavan viestin. Kirjoitamme tehtävät/ympäristöt siten, että on mahdollista tarkistaa ohjelmallisesti, täyttääkö mallin vastaus ylemmän tason rajoitteen.
Koulutamme mallin IH‑Challenge-aineistolla ja tuotamme sisäisen mallin, jota kutsumme nimellä GPT‑5 Mini-R, seuraavin parannuksin:
- Suoriutuu paremmin ohjehierarkian vertailuarvoissa
- Parannettu suorituskyky yleistyy poissulkemis- ja vastakkaisohjehierarkiatesteihin
- Säilyttää yleisen hyödyllisyyden romahtamatta liialliseen kieltäytymiseen
Tämä tekee lähestymistavasta erityisen vakuuttavan turvallisuuden kannalta: kouluttamalla malleja suoraan ratkaisemaan ohjeiden ristiriidat oikein IH-Challenge-tehtävissä saamme IH-parannuksia, jotka yleistyvät uusiin hyökkäyksiin ja uusiin tilanteisiin.
Kestävyys akateemisissa vertailuarvoissa
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalfin salasana (järjestelmä–käyttäjä) | 0,99 | 0,99 (+0) |
Gandalfin salasana (kehittäjä–käyttäjä) | 0,98 | 1,00 (+0,02) |
TensorTrust (järjestelmä–käyttäjä) | 0,86 | 0,94 (+0,08) |
TensorTrust (kehittäjä–käyttäjä) | 0,76 | 0,91 (+0,15) |
Oikeat suojatoimet (häiriötekijät) | 0,88 | 0,95 (+0,07) |
Oikeat suojatoimet (käsin kirjoitettu) | 0,82 | 0,89 (+0,07) |
Järjestelmä IFEval | 0,92 | 0,96 (+0,04) |
Kestävyys sisäisissä vertailuarvoissa
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
Ohjattu rajoitusten kiertäminen (järjestelmä–käyttäjä) | 0,96 | 0,99 (+0,03) |
Ohjattu rajoitusten kiertäminen (kehittäjä–käyttäjä) | 0,97 | 0,99 (+0,02) |
Järjestelmän <> käyttäjän ristiriita | 0,84 | 0,95 (+0,11) |
Järjestelmän <> kehittäjän ristiriita | 0,86 | 0,86 (+0) |
Kehittäjän <> käyttäjän ristiriita | 0,83 | 0,95 (+0,12) |
Ei toiminnallisuuden heikennyksiä
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-haaste (liiallinen kieltäytyminen) | 0,79 | 1,00 (+0,21) |
TensorTrust (liiallinen kieltäytyminen) | 0,91 | 0,90 (-0,01) |
GPQA-diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chatin voittosuhde vs. o1 | 0,71 | 0,66 (-0,05) |
Preferenssipisteet | 0,46 | 0,40 (-0,06) |
Vahvempi ohjehierarkia tarjoaa useita turvallisuusetuja samanaikaisesti, mukaan lukien turvallisuuden ohjattavuus ja kehoteinjektion vankkuus.
Arvioimme turvallisuuden ohjattavuutta lisäämällä järjestelmäkehotteeseen kategoriakohtaisia turvallisuusmäärityksiä ja mittaamalla käyttäytymistä OpenAI:n turvallisuuden tuotantovertailuarvoilla (joukko turvallisuuden kannalta arkaluonteisia keskusteluja, jotka edustavat ChatGPT:tä tuotantokäytössä).
IH-koulutettu malli osoittaa jatkuvaa parannusta: turvallisuusspesifikaation ollessa läsnä se saavuttaa korkeammat hylkäys- ja turvallisen suorittamisen asteet kielletyissä kategorioissa, mikä osoittaa, että vahvempi ohjehierarkian mukainen toiminta parantaa sen kykyä ratkaista ristiriitoja, kun vaaralliset pyynnöt tulevat alemman prioriteetin ohjeista. Merkillepantavaa on, että tämä parannus ei tule vastaavasti laskemaan hyödyllisyysastetta (eli siitä ei tule vähemmän "hyödyllinen" yksinkertaisesti kieltäytymällä kokonaisuudessaan enemmän).


Esimerkki siitä, miten IH-koulutettu malli vastustaa kehoteinjektioita, joihin GPT‑5 Mini (lähtötaso) lankeaa.
Ohjehierarkia on myös keskeinen tekijä kehoteinjektion vastustamisessa, kun haitallisia ohjeita on upotettu työkalujen tuotoksiin. Arvioimme IH-koulutettua mallia kahdella kehoteinjektiovertailuarvolla: akateemisella vertailuarvolla CyberSecEval 2 ja OpenAI:n sisäisellä kehoteinjektiovertailuarvolla, joka koostuu hyökkäyksistä, kuten sellaisesta, joka esiteltiin ChatGPT Atlasin vanhemmassa versiossa.
Lähtötasoon verrattuna IH-koulutettu GPT‑5 Mini-R -malli parantaa kehoteinjektion vankkuutta molemmissa vertailuarvoissa ja parantaa merkittävästi suorituskykyä sisäisessä staattisessa kehoteinjektioarvioinnissamme näissä kokeissa.
Kun mallit muuttuvat agenttimaisemmiksi – kutsuvat työkaluja, lukevat epäluotettavia asiakirjoja ja tekevät toimia maailmassa – kyvystä priorisoida luotettavat ohjeet johdonmukaisesti epäluotettaviin nähden tulee keskeinen turvallisuusominaisuus.
Tämä työ osoittaa, että useita IH-vankkuuskoulutuksen sudenkuoppia voidaan voittaa suunnittelemalla koulutusympäristöjä, jotka käsittelevät näitä sudenkuoppia. Vaikka IH-Challenge-aineistomme vaikuttaa yksinkertaiselta, IH:n käyttäytymismallit, jotka oppivat näistä ympäristöistä, yleistyvät realistisemmiksi, usein ei-objektiivisesti luokiteltavissa oleviksi vertailuarvoiksi.
Ohjehierarkian vahvistaminen ei ainoastaan paranna luotettavuutta, vaan avaa samalla useita turvallisuus- ja tietoturvahyötyjä – perusta, josta tulee yhä tärkeämpi tekoälyjärjestelmien kehittyessä kyvykkäämmiksi ja itsenäisemmiksi.
Tukeaksemme alan jatkotutkimusta julkaisemme IH-Challenge-aineiston täällä(avautuu uudessa ikkunassa).


