Unaprjeđenje podrijetla sadržaja za sigurniji i transparentniji AI ekosustav
Pomažemo ljudima razumjeti podrijetlo AI-generiranog sadržaja uz Content Credentials, SynthID i rani javni alat za provjeru.
Ljudi svakodnevno koriste OpenAI-jeve alate za stvaranje i uređivanje slika i zvuka na načine koji komunikaciju čine izražajnijom, korisnijom i pristupačnijom. Kako ti alati postaju dio načina na koji ljudi stvaraju, zamišljaju i dijele, važno je da mogu razumjeti i provjeriti odakle medijski sadržaj dolazi kako bi ga mogli tumačiti s više sigurnosti. Signali podrijetla mogu pomoći tako što ljudima daju kontekst o tome odakle sadržaj dolazi, kako je stvoren ili uređen i je li ono za što se predstavlja.
Danas jačamo svoj pristup podrijetlu sadržaja višeslojnim modelom izgradnje povjerenja na internetu, vođenim ekosustavom. Naše signale podrijetla činimo lakšima za prepoznavanje drugim alatima i platformama kroz usklađenost s C2PA-om, dodajemo trajno međusistemsko označavanje slika vodenim žigom SynthID u partnerstvu s Googleom te dijelimo pregled alata koji javnost može koristiti za provjeru jesu li slike došle iz OpenAI-ja.
Zajedno se ta ažuriranja nadovezuju na naš raniji rad kako bismo podržali otvorene standarde, olakšali prepoznavanje sadržaja koji je generirao OpenAI i surađivali u cijeloj industriji na podršci pouzdanijem informacijskom ekosustavu.
OpenAI sudjeluje u razvoju i usvajanju standarda podrijetla od 2024., kada smo počeli dodavati Content Credentials slikama koje generira DALL·E 3(otvara se u novom prozoru), a kasnije i ImageGen(otvara se u novom prozoru) i Sora(otvara se u novom prozoru). Također smo se pridružili Upravnom odboru Coalition for Content Provenance and Authenticity (C2PA), međusektorske skupine koja stoji iza otvorenog tehničkog standarda za podrijetlo sadržaja. Tehnički pristup C2PA-a upotrebljava metapodatke i kriptografske potpise kako bi informacije o pojedinom medijskom sadržaju sigurno putovale zajedno sa samim sadržajem. Te informacije uključuju kontekst koji pomaže novinarima pri procjeni izvora, platformama pri donošenju odluka o integritetu i ljudima koji pokušavaju razumjeti što vide na internetu.
Nedavno smo poduzeli korak kojim je OpenAI postao C2PA Conforming Generator Product(otvara se u novom prozoru). Time što smo postali usklađeni s C2PA-om, platformama pružamo pouzdan način za čitanje, očuvanje i prosljeđivanje informacija o podrijetlu koje prilažemo svom sadržaju. To je važno jer podrijetlo funkcionira samo ako opstane i izvan prve platforme na kojoj je sadržaj stvoren, a usklađenost to omogućuje.
C2PA metapodaci važan su temelj za podrijetlo. Pomažu sadržaju da nosi informacije o tome odakle dolazi, kako je stvoren ili uređen i tko je potpisao te informacije. No metapodaci nisu nepogrešivi. Mogu se ukloniti, izgubiti pri prijenosima i preuzimanjima ili oštetiti transformacijama poput promjene formata datoteke, promjene veličine ili snimki zaslona.
Kako bismo podrijetlo učinili otpornijim, primjenjujemo višeslojni pristup i uvodimo označavanje vodenim žigom putem Google DeepMindova SynthID-a(otvara se u novom prozoru), počevši od slika generiranih putem ChatGPT‑a, Codexa ili OpenAI API-ja. SynthID ugrađuje nevidljivi sloj vodenog žiga koji nadopunjuje pristupe temeljene na C2PA metapodacima.
Na tome radimo već neko vrijeme. Koristili smo vidljive vodene žigove u Sori i audio vodeni žig u Voice Engineu te smo s vremenom nastavili testirati i istraživati točnost i pouzdanost. kroz primjenu.
Ta se dva sustava međusobno nadopunjuju. C2PA pomaže sadržaju nositi detaljan kontekst; SynthID pomaže očuvati signal kada metapodaci ne opstanu. Označavanje vodenim žigom može biti trajnije kroz transformacije poput snimki zaslona, dok metapodaci mogu pružiti više informacija nego sam vodeni žig. Zajedno podrijetlo čine otpornijim nego što bi to bio bilo koji od tih slojeva sam za sebe.
Pouzdani metapodaci i vodeni žigovi koji odolijevaju većini izmjena mogu signale podrijetla učiniti trajnijima. No ljudima je potreban način za otkrivanje tih signala. Sada predstavljamo pregled javnog alata za provjeru koji će ljudima pomoći provjeriti je li prenesena slika generirana u ChatGPT‑u, OpenAI API-ju ili Codexu, provjerom sadrži li signale podrijetla, uključujući Content Credentials i SynthID.
Vjerujemo da bi ljudima trebalo biti lakše provjeriti i tumačiti podrijetlo te da naš alat integriranjem više signala može pomoći ljudima da sudjeluju u odgovoru na pitanje: „Je li ovo generirano umjetnom inteligencijom?” To se nadovezuje na spoznaje iz početnog istraživačkog pregleda našeg klasifikatora za otkrivanje slika iz 2024. i omogućuje ljudima da pouzdano otkriju je li u medijskom sadržaju prisutan vodeni žig SynthID koji potječe od OpenAI-ja, kao i da prikažu C2PA metapodatke kada se pronađu.

Nijedna metoda otkrivanja nije nepogrešiva, pa u slučajevima kada otkrivanje ne uspije primjenjujemo oprezan pristup. Ako se, primjerice, ne otkriju ni metapodaci ni vodeni žig, alat neće donijeti konačan zaključak o tome je li slika generirana OpenAI-jevim alatima jer se signali podrijetla u nekim slučajevima mogu ukloniti.
Pri pokretanju je alat ograničen na sadržaj koji je generirao OpenAI. U nadolazećim mjesecima cilj nam je podržati međusektorske napore kako bi provjera bila moguća na svim platformama. S vremenom očekujemo i podršku za više vrsta sadržaja s kojima se ljudi mogu susresti na internetu.
Nijedna pojedinačna tehnika podrijetla sama po sebi nije dovoljna. Vjerujemo da snažan pristup objedinjuje zajedničke standarde, trajne signale vodenih žigova i javnu provjeru. Nadovezujući se na našu dugogodišnju podršku za Content Credentials, usklađivanje s C2PA-om, usvajanje SynthID-a i predstavljanje javnih alata za provjeru, nadamo se da ćemo dugoročno pridonijeti interoperabilnijem ekosustavu podrijetla.


