Bedre innholdsinformasjon for et tryggere og mer transparent KI-økosystem
Hjelper folk med å forstå opprinnelsen til KI-generert innhold gjennom innholdsreferanser, SynthID og et tidlig offentlig verifiseringsverktøy.
Folk bruker OpenAIs verktøy hver dag til å lage og redigere bilder og lyd på måter som gjør kommunikasjonen mer uttrykksfull, nyttig og tilgjengelig. Etter hvert som disse verktøyene blir en del av hvordan folk utvikler, er kreative og deler, er det viktig at folk kan forstå og bekrefte hvor innholdet kommer fra, slik at de kan tolke dem med større trygghet. Opprinnelsestegn kan være til hjelp ved å gi brukerne informasjon om hvor innholdet kommer fra, hvordan det ble laget eller redigert, og om det er hva det gir seg ut for å være.
I dag styrker vi vår tilnærming til innholdsopprinnelse gjennom en flerlags, økosystemdrevet modell for å bygge tillit på nett. Vi gjør det enklere for andre verktøy og plattformer å gjenkjenne opprinnelsestegn gjennom C2PA-samsvar, ved å legge til robust SynthID-vannmerking i bilder på tvers av plattformer gjennom et samarbeid med Google, og ved å dele en forhåndsvisning av et verktøy publikum kan bruke for å sjekke om bilder kommer fra OpenAI.
Sammen bygger disse oppdateringene videre på vårt tidligere arbeid med å støtte åpne standarder, gjøre det enklere å identifisere innhold generert av OpenAI og samarbeide på tvers av bransjen for å fremme et mer pålitelig informasjonsøkosystem.
OpenAI har arbeidet med utvikling og innføring av opprinnelsesstandarder siden 2024, da vi begynte å legge til innholdsreferanser i bilder generert av DALL·E 3(åpnes i et nytt vindu) og senere i ImageGen(åpnes i et nytt vindu) og Sora(åpnes i et nytt vindu). Vi ble også med i styringskomiteen til Coalition for Content Provenance and Authenticity (C2PA); den tverrindustrielle gruppen bak den åpne tekniske standarden for innholdsopprinnelse. C2PAs tekniske tilnærming benytter metadata og kryptografiske signaturer for å sikre at informasjon om en mediefil følger med selve innholdet på en sikker måte. Denne informasjonen inneholder kontekst som hjelper journalister med å vurdere kilden, plattformer med å ta integritetsbeslutninger, og folk med å forstå det de ser på nettet.
Vi har nylig gjort OpenAI til et C2PA Conforming Generator Product(åpnes i et nytt vindu). Ved å bli C2PA-samsvarende gir vi plattformer en pålitelig måte å lese, bevare og videreformidle opprinnelsesinformasjonen vi knytter til innholdet vårt. Dette er viktig fordi opprinnelsesinformasjon bare fungerer hvis den overlever utover den første plattformen der innhold opprettes, og standardoverholdelse gjør dette mulig.
C2PA-metadata er et viktig grunnlag for opprinnelsesinformasjon. Det bidrar til at innhold inneholder informasjon om hvor det kom fra, hvordan det ble laget eller redigert og hvem som bekreftet denne informasjonen. Men metadata er ikke feilfritt. Den kan fjernes, gå tapt ved opplastinger og nedlastinger eller ødelegges av endringer som filformatbytter, størrelsesendring eller skjermbilder.
For å gjøre opprinnelsesinformasjonen mer robust bruker vi en flerlags tilnærming og integrerer vannmerking gjennom Google DeepMinds SynthID(åpnes i et nytt vindu), med utgangspunkt i bilder generert via ChatGPT, Codex eller OpenAI API. SynthID bygger inn et usynlig vannmerkingslag som utfyller C2PA-metodene basert på metadata.
Vi har jobbet mot dette en stund. Vi har brukt synlige vannmerker i Sora og et lydvannmerke i Voice Engine, og vi har testet og forsket på nøyaktighet og pålitelighet over tid. gjennom utrulling.
Disse to systemene forsterker hverandre. C2PA bidrar til at innhold inneholder detaljert kontekst; SynthID bidrar til å bevare et signal når metadata går tapt. Vannmerking kan være mer robust gjennom bearbeiding som skjermbilder, mens metadata kan gi mer informasjon enn kun et vannmerke. Sammen gjør de opprinnelsesinformasjon mer robust enn hvert lag ville vært alene.
Pålitelige metadata og vannmerker som motstår de fleste endringer kan gjøre opprinnelsestegn mer robuste. Men folk trenger en måte å oppdage disse tegnene på. Vi forhåndsviser nå et offentlig verifiseringsverktøy som vil hjelpe folk med å verifisere om et opplastet bilde ble generert i ChatGPT, OpenAI API eller Codex, ved å sjekke om det inneholder opprinnelsestegn, inkludert innholdsreferanser og SynthID.
Vi mener innholdsopprinnelse bør være enklere for folk å verifisere og tolke, og at verktøyet vårt kan hjelpe folk med å være med på å besvare spørsmålet: «Ble dette generert med KI?» ved å integrere flere tegn. Dette bygger på erfaringer fra den første forskningsforhåndsvisningen av vår bildegjenkjenningsklassifikator i 2024 og gjør det mulig for folk å pålitelig oppdage om et SynthID-vannmerke fra OpenAI er til stede i mediet, samt vise C2PA-metadata når de finnes.

Ingen påvisningsmetode er feilfri, så vi går forsiktig frem i tilfeller der påvisning mislykkes. Hvis det for eksempel ikke oppdages metadata eller vannmerke, vil verktøyet ikke trekke en endelig konklusjon om hvorvidt bildet ble generert med OpenAIs verktøy, siden opprinnelsestegn i noen tilfeller kan fjernes.
Ved lansering er verktøyet begrenset til innhold generert av OpenAI. I løpet av de kommende månedene tar vi sikte på å støtte tverrindustrielle initiativer for å gjøre verifisering mulig på tvers av plattformer. Over tid forventer vi også å støtte flere typer innhold som folk kan finne på nett.
Ingen enkelt opprinnelsesmetode er nok alene. Vi mener en effektiv tilnærming innebærer en kombinasjon av felles standarder, robuste vannmerkingstegn og offentlig verifisering. Ved å bygge videre på vårt langvarige engasjement for innholdsreferanser, sikre samsvar med C2PA, ta i bruk SynthID og forhåndsvise offentlige verifiseringsverktøy, håper vi på sikt å bidra til et mer interoperabelt økosystem for opprinnelsesinformasjon.


