Posúvanie pôvodu obsahu vpred pre bezpečnejší a transparentnejší ekosystém AI
Pomáhame ľuďom pochopiť pôvod obsahu vytvoreného AI prostredníctvom Content Credentials, SynthID a ranej verejnej ukážky overovacieho nástroja.
Ľudia používajú nástroje OpenAI každý deň na vytváranie a úpravu obrázkov a zvuku spôsobmi, ktoré robia komunikáciu expresívnejšou, užitočnejšou a prístupnejšou. Keďže sa tieto nástroje stávajú súčasťou toho, ako ľudia tvoria, predstavujú si a zdieľajú, je dôležité, aby ľudia mohli pochopiť a overiť, odkiaľ médiá pochádzajú, aby ich mohli interpretovať s väčšou istotou. Signály pôvodu môžu pomôcť tým, že ľuďom poskytnú kontext o tom, odkiaľ obsah pochádza, ako bol vytvorený alebo upravený a či je tým, za čo sa vydáva.
Dnes posilňujeme náš prístup k pôvodu obsahu viacvrstvovým modelom budovania dôvery online, založeným na ekosystéme. Naše signály pôvodu uľahčujeme rozpoznávať pre ďalšie nástroje a platformy prostredníctvom zhody s C2PA, pridávame odolné vodoznaky SynthID naprieč platformami do obrázkov v partnerstve so spoločnosťou Google a zdieľame ukážku nástroja, ktorý môže verejnosť použiť na overenie, či obrázky pochádzajú od OpenAI.
Tieto aktualizácie spoločne nadväzujú na našu predchádzajúcu prácu na podpore otvorených štandardov, uľahčujú identifikáciu obsahu vytvoreného OpenAI a podporujú spoluprácu v celom odvetví na dôveryhodnejšom informačnom ekosystéme.
OpenAI sa podieľa na vývoji a prijímaní štandardov pôvodu od roku 2024, keď sme začali pridávať Content Credentials k obrázkom vytvoreným pomocou DALL·E 3(otvorí sa v novom okne) a neskôr aj k ImageGen(otvorí sa v novom okne) a Sora(otvorí sa v novom okne). Pripojili sme sa aj k riadiacemu výboru Coalition for Content Provenance and Authenticity (C2PA), medziodvetvovej skupiny stojacej za otvoreným technickým štandardom pre pôvod obsahu. Technický prístup C2PA využíva metadáta a kryptografické podpisy, aby pomohol informáciám o konkrétnom médiu bezpečne putovať spolu so samotným obsahom. Tieto informácie zahŕňajú kontext, ktorý pomáha novinárom hodnotiacim zdroj, platformám prijímajúcim rozhodnutia o integrite a ľuďom, ktorí sa snažia pochopiť, čo online vidia.
Nedávno sme urobili krok k tomu, aby sa OpenAI stalo produktom generátora v zhode s C2PA(otvorí sa v novom okne). Tým, že sme dosiahli zhodu s C2PA, dávame platformám dôveryhodný spôsob, ako čítať, zachovať a ďalej odovzdávať informácie o pôvode, ktoré pripájame k nášmu obsahu. Je to dôležité, pretože pôvod funguje len vtedy, ak pretrvá aj za hranicami prvej platformy, na ktorej je obsah vytvorený, a zhoda to umožňuje.
Metadáta C2PA sú dôležitým základom pôvodu. Pomáhajú obsahu niesť informácie o tom, odkiaľ pochádza, ako bol vytvorený alebo upravený a kto tieto informácie podpísal. Metadáta však nie sú neomylné. Môžu byť odstránené, stratené pri nahrávaní a sťahovaní alebo narušené úpravami, ako sú zmeny formátu súboru, zmena veľkosti či snímky obrazovky.
Aby bol pôvod odolnejší, volíme viacvrstvový prístup a začleňujeme vodoznaky prostredníctvom SynthID od Google DeepMind(otvorí sa v novom okne), počnúc obrázkami vytvorenými cez ChatGPT, Codex alebo OpenAI API. SynthID vkladá neviditeľnú vrstvu vodoznaku, ktorá dopĺňa prístupy založené na metadátach C2PA.
Na tomto sme už nejaký čas pracovali. V Sora sme používali viditeľné vodoznaky a vo Voice Engine zvukový vodoznak a priebežne sme pokračovali v testovaní a výskume presnosti a spoľahlivosti. prostredníctvom nasadenia.
Tieto dva systémy sa navzájom posilňujú. C2PA pomáha obsahu niesť podrobný kontext; SynthID pomáha zachovať signál, keď metadáta nepretrvajú. Vodoznaky môžu byť odolnejšie voči úpravám, ako sú snímky obrazovky, zatiaľ čo metadáta môžu poskytnúť viac informácií než samotný vodoznak. Spolu robia pôvod odolnejším, než by bola ktorákoľvek z týchto vrstiev samostatne.
Dôveryhodné metadáta a vodoznaky, ktoré odolávajú väčšine úprav, môžu zvýšiť trvácnosť signálov pôvodu. Ľudia však potrebujú spôsob, ako tieto signály odhaliť. Teraz predstavujeme ukážku verejného overovacieho nástroja, ktorý ľuďom pomôže overiť, či bol nahraný obrázok vytvorený v ChatGPT, cez OpenAI API alebo v Codexe, kontrolou prítomnosti signálov pôvodu vrátane Content Credentials a SynthID.
Veríme, že pôvod by mal byť pre ľudí jednoduchšie overiteľný a interpretovateľný a že náš nástroj môže ľuďom pomôcť zohrávať úlohu pri odpovedi na otázku: „Bolo to vytvorené pomocou umelej inteligencie?“ prostredníctvom integrácie viacerých signálov. To nadväzuje na poznatky z úvodnej výskumnej ukážky nášho klasifikátora detekcie obrázkov v roku 2024 a umožňuje ľuďom spoľahlivo zistiť, či sa v médiu nachádza vodoznak SynthID pochádzajúci od OpenAI, a zároveň zobraziť metadáta C2PA, keď sa nájdu.

Žiadna metóda detekcie nie je neomylná, preto v prípadoch, keď detekcia zlyhá, volíme opatrný prístup. Ak sa napríklad nezistia žiadne metadáta ani vodoznak, nástroj neurobí jednoznačný záver o tom, či bol obrázok vytvorený pomocou nástrojov OpenAI, keďže signály pôvodu môžu byť v niektorých prípadoch odstránené.
Pri spustení je nástroj obmedzený na obsah vytvorený OpenAI. V nasledujúcich mesiacoch chceme podporiť medziodvetvové úsilie, aby bolo overovanie možné naprieč platformami. Postupom času tiež očakávame podporu ďalších typov obsahu, s ktorými sa ľudia môžu online stretnúť.
Žiadna jednotlivá technika pôvodu sama osebe nestačí. Veríme, že silný prístup spája spoločné štandardy, odolné signály vodoznakov a verejné overovanie. Tým, že nadväzujeme na našu dlhodobú podporu Content Credentials, dosahujeme zhodu s C2PA, prijímame SynthID a predstavujeme ukážku verejných overovacích nástrojov, dúfame, že z dlhodobého hľadiska prispejeme k interoperabilnejšiemu ekosystému pôvodu.


