9 de desembre del 2024

Fitxa del model de Sora

S'està carregant…

Introducció

Visió general de Sora

Sora és el model de generació de vídeo d’OpenAI, dissenyat per rebre entrades de text, imatge i vídeo i generar un vídeo nou com a resultat. Els usuaris poden crear vídeos de fins a 1080p de resolució (màxim 20 segons) en diversos formats, generar contingut nou a partir de text o millorar, remesclar i barrejar els seus propis recursos. Els usuaris podran explorar els feeds Featured i Recent, que mostren creacions de la comunitat i ofereixen inspiració per a idees noves. Sora es basa en els aprenentatges de DALL·E i dels models GPT, i està dissenyat per oferir a les persones eines ampliades per a la narració i l’expressió creativa.

Sora és un model de difusió, que genera un vídeo començant amb un vídeo base que sembla soroll estàtic i el transforma gradualment eliminant el soroll al llarg de molts passos. En donar al model visió anticipada de molts fotogrames alhora, hem resolt el difícil problema d’assegurar que un subjecte es mantingui igual fins i tot quan desapareix temporalment del camp de visió. Igual que els models GPT, Sora utilitza una arquitectura del transformador, cosa que permet un rendiment d’escalat superior.

Sora utilitza la tècnica de recaptioning de DALL·E 3, que consisteix a generar subtítols molt descriptius per a les dades visuals d’entrenament. Com a resultat, el model és capaç de seguir amb més fidelitat les instruccions de text de l’usuari en el vídeo generat.

A més de poder generar un vídeo únicament a partir d’instruccions de text, el model pot prendre una imatge fixa existent i generar-ne un vídeo, animant-ne el contingut amb precisió i atenció als petits detalls. El model també pot prendre un vídeo existent i ampliar-lo o omplir-ne els fotogrames que falten⁠. Sora serveix de base per a models que poden entendre i simular el món real, una capacitat que creiem que serà una fita important per assolir l’AGI.

Les capacitats de Sora també poden introduir riscos nous, com ara el possible ús indegut de la semblança o la generació de contingut de vídeo enganyós o explícit. Per desplegar Sora de manera segura en un producte, ens hem basat en els aprenentatges del treball de seguretat del desplegament de DALL·E a ChatGPT i a l’API, així com en les mitigacions de seguretat d’altres productes d’OpenAI com ChatGPT. Aquesta fitxa del model descriu la pila de mitigacions resultant, els esforços externs d’equip vermell, les avaluacions i la recerca en curs per perfeccionar encara més aquestes salvaguardes.

Dades del model

Tal com descrivim al nostre informe tècnic⁠¹ de febrer de 2024, Sora s’inspira en els models de llenguatge extensos que adquireixen capacitats generalistes entrenant-se amb dades a escala d’internet. L’èxit del paradigma LLM es deu en part a l’ús de segments que unifiquen elegantment diverses modalitats de text —codi, matemàtiques i diverses llengües naturals. Amb Sora, vam considerar com els models generatius de dades visuals poden heretar aquests avantatges. Mentre que els LLM tenen segments de text, Sora té pegats visuals. Ja s’ha demostrat anteriorment que els pegats són una representació efectiva per als models de dades visuals. Vam comprovar que els pegats són una representació altament escalable i efectiva per entrenar models generatius amb diversos tipus de vídeos i imatges. A grans trets, convertim els vídeos en pegats comprimint primer els vídeos en un espai latent de dimensió inferior i, posteriorment, descomponent la representació en pegats espaciotemporals.

Sora es va entrenar amb conjunts de dades diversos, incloent-hi una barreja de dades disponibles públicament, dades propietàries a les quals es va accedir mitjançant col·laboracions i conjunts de dades personalitzats desenvolupats internament. Aquests consisteixen en:

Una selecció de dades disponibles públicament, recollides principalment de conjunts de dades d’aprenentatge automàtic estàndard del sector i de rastreigs web.
Dades propietàries procedents de col·laboracions de dades. Establim col·laboracions per accedir a dades no disponibles públicament. Per exemple, vam col·laborar amb Shutterstock⁠ Pond5 en la creació i el lliurament d’imatges generades per IA. També col·laborem per encarregar i crear conjunts de dades adequats a les nostres necessitats.
Dades humanes: comentaris de formadors d’IA, d’equips vermells i d’empleats.

Filtratge de preentrenament i preprocessament de dades

A més de les mitigacions implementades després de l’etapa de preentrenament, les mitigacions de filtratge de preentrenament poden proporcionar una capa addicional de defensa que, juntament amb altres mitigacions de seguretat, ajuda a excloure dades no desitjades i perjudicials dels nostres conjunts de dades. Per això, abans de l’entrenament, tots els conjunts de dades passen per aquest procés de filtratge, que elimina el contingut més explícit, violent o sensible (per exemple, alguns símbols d’odi), i representa una ampliació dels mètodes utilitzats per filtrar les dades amb què vam entrenar els nostres altres models, inclosos DALL·E 2 i DALL·E 3.

Identificació de riscos i preparació del desplegament

Vam dur a terme un procés sòlid per comprendre tant el possible ús indegut com els usos creatius del món real, amb l’objectiu d’ajudar a definir el disseny i les mitigacions de seguretat de Sora. Després de l’anunci de Sora el febrer de 2024, vam treballar amb centenars d’artistes visuals, dissenyadors i cineastes de més de 60 països per obtenir comentaris sobre com avançar el model perquè fos el més útil possible per als professionals creatius. També vam elaborar diverses avaluacions internament i amb equips vermells externs per descobrir i avaluar riscos i millorar de manera iterativa les nostres mitigacions de seguretat i de risc.

La nostra pila de seguretat per a Sora es basa en aquests aprenentatges i en les mitigacions de seguretat existents que emprem en altres models i productes com DALL·E i ChatGPT, així com en mitigacions fetes a mida específiques per al nostre producte de vídeo. Com que es tracta d’una eina potent, estem adoptant un enfocament iteratiu de la seguretat, especialment en àrees on el context és important o on preveiem riscos nous relacionats amb el vídeo. Alguns exemples del nostre enfocament iteratiu són restringir l’accés a usuaris de 18 anys o més, limitar l’ús de pujades de semblances/cares i aplicar llindars de moderació més conservadors en les indicacions i les pujades que inclouen menors en el moment del llançament. Volem continuar aprenent com la gent fa servir Sora i iterar per equilibrar de la millor manera la seguretat i el màxim potencial creatiu per als nostres usuaris.

Equip vermell extern

OpenAI va treballar amb participants externs d’equip vermell situats en nou països diferents per provar Sora, identificar debilitats en les mitigacions de seguretat i aportar comentaris sobre els riscos associats a les noves capacitats del producte Sora. L’equip vermell va tenir accés al producte Sora amb diverses iteracions de mitigacions de seguretat i nivells de maduresa del sistema des del setembre fins al desembre de 2024, i va provar més de 15.000 generacions. Aquest esforç d’equip vermell es basa en el treball fet a principis de 2024, quan es va provar un model de Sora sense mitigacions de producció.

Els equips vermells van explorar riscos potencials nous del model de Sora i de les eines del producte, i van provar les mitigacions de seguretat a mesura que es desenvolupaven i milloraven. Aquestes campanyes d’equip vermell van cobrir diversos tipus de contingut infractor i no permès (contingut sexual i eròtic, violència i gore, autolesió, contingut il·legal, informació errònia i desinformació, etc.), tàctiques adversàries (tant d’indicacions com d’ús d’eines/funcions) per eludir les mitigacions de seguretat, així com la manera com aquestes eines podrien explotar-se per degradar progressivament les eines de moderació i les salvaguardes. Els equips vermells també van aportar comentaris sobre la seva percepció de Sora en àrees com el biaix i el rendiment general.

Vam explorar la generació de text a vídeo utilitzant tant indicacions senzilles com tàctiques d’indicacions adversàries en totes les categories de contingut esmentades. La capacitat de pujada de mitjans es va provar amb una gran varietat d’imatges i vídeos, incloent-hi persones públiques, i amb una àmplia varietat de categories de contingut per comprovar la capacitat de generar contingut infractor. També vam provar diversos usos i combinacions de les eines de modificació (storyboards, recut, remix i blend) per avaluar-ne la utilitat per generar contingut prohibit.

Els equips vermells van identificar observacions destacables tant per a tipus específics de contingut prohibit com per a tàctiques adversàries generals. Per exemple, van trobar que l’ús d’indicacions de text amb situacions mèdiques o amb entorns de ciència-ficció/fantasia degradava les salvaguardes contra la generació de contingut eròtic i sexual fins que es van implementar mitigacions addicionals. Els equips vermells van utilitzar tàctiques adversàries per eludir elements de la pila de seguretat, incloses indicacions suggeridores i l’ús de metàfores per aprofitar la capacitat d’inferència del model. Després de molts intents, van poder identificar tendències d’indicacions i paraules que activaven les salvaguardes, i provar diferents formulacions i termes per evitar les negatives. Finalment, els equips vermells seleccionaven la generació més preocupant per utilitzar-la com a mitjà llavor per continuar desenvolupant contingut infractor que no es podia crear amb tècniques d’una sola indicació. Les tècniques de jailbreak de vegades van resultar efectives per degradar les polítiques de seguretat, cosa que també ens va permetre perfeccionar aquestes proteccions.

Els equips vermells també van provar pujades de mitjans i les eines de Sora (storyboards, recut, remix i blend) tant amb imatges disponibles públicament com amb mitjans generats per IA. Això va revelar llacunes en el filtratge d’entrada i de sortida que calia reforçar abans del llançament de Sora, i va ajudar a afinar les proteccions per a les pujades de mitjans, incloses les que contenen persones. Les proves també van posar de manifest la necessitat d’un filtratge amb classificadors més potent per mitigar el risc que pujades de mitjans no infractors es modifiquin en contingut eròtic, violent o deepfake prohibit.

Els comentaris i les dades generades pels equips vermells van permetre crear capes addicionals de mitigacions de seguretat i millores en les avaluacions de seguretat existents, que es descriuen a les seccions sobre àrees de risc específiques i mitigacions⁠. Aquests esforços van permetre ajustar encara més el nostre filtratge d’indicacions, les llistes de bloqueig i els llindars dels classificadors per garantir que el model compleixi els objectius de seguretat.

Aprenentatges de l’accés anticipat per a artistes

Durant els últims nou mesos, vam observar els comentaris dels usuaris en més de 500.000 sol·licituds al model provinents de més de 300 usuaris de més de 60 països. Aquestes dades van informar millores en el comportament del model i en l’adhesió del model als protocols de seguretat. Per exemple, els comentaris dels artistes ens van ajudar a entendre les limitacions que una marca d’aigua visible té en els seus fluxos de treball, cosa que va informar la nostra decisió de permetre als usuaris de pagament descarregar fitxers de vídeo sense la marca d’aigua visible, tot i continuar incrustant dades C2PA.

Aquest programa d’accés anticipat també ens va ensenyar que, si Sora ha de servir com una eina ampliada per a la narració i l’expressió creativa, caldria oferir als artistes més flexibilitat en algunes àrees sensibles que tractaríem de manera diferent en una eina d’ús general com ChatGPT. Esperem que artistes, cineastes independents, estudis i altres organitzacions de la indústria de l’entreteniment utilitzin Sora com una part crucial dels seus processos de desenvolupament. Al mateix temps, identificar tant casos d’ús positius com possibles usos indeguts ens va permetre determinar àrees on calien mitigacions més restrictives a nivell de producte per mitigar el risc de dany o d’ús indegut.

Avaluacions

Vam desenvolupar avaluacions internes centrades en àrees clau, com ara la nuesa, el contingut electoral enganyós, l’autolesió i la violència. Aquestes avaluacions es van dissenyar per donar suport al perfeccionament de les mitigacions i ajudar a informar els nostres llindars de moderació. El marc d’avaluació combina indicacions d’entrada donades al model de generació de vídeo amb classificadors d’entrada i sortida aplicats a indicacions transformades o als vídeos finals produïts.

Les indicacions d’entrada d’aquestes avaluacions provenien de tres canals principals: dades recollides durant la fase alfa inicial (tal com s’indica a la secció 3.2), exemples adversaris proporcionats pels provadors d’equip vermell (esmentats a la secció 3.1) i dades sintètiques generades amb GPT‑4. Les dades de la fase alfa van aportar informació sobre escenaris d’ús del món real, les contribucions de l’equip vermell van ajudar a descobrir contingut adversari i casos límit, i les dades sintètiques van permetre ampliar els conjunts d’avaluació en àrees com el contingut suggeridor no desitjat, on els exemples naturals són escassos.

Preparació

El marc de preparació està dissenyat per avaluar si les capacitats dels models d’avantguarda introdueixen riscos significatius en quatre categories monitorades: persuasió, ciberseguretat, CBRN (químic, biològic, radiològic i nuclear) i autonomia del model. No tenim proves que Sora comporti cap risc significatiu pel que fa a la ciberseguretat, el CBRN o l’autonomia del model. Aquests riscos estan estretament vinculats a models que interactuen amb sistemes informàtics, coneixement científic o presa de decisions autònoma, tots ells fora de l’abast actual de Sora com a eina de generació de vídeo.

Les capacitats de generació de vídeo de Sora podrien comportar un risc potencial derivat de la persuasió, com ara riscos de suplantació d’identitat, desinformació o enginyeria social. Per abordar aquests riscos, hem desenvolupat un conjunt de mitigacions que es descriuen a les seccions següents. Aquestes inclouen mitigacions destinades a evitar la generació de semblances de figures públiques conegudes. A més, atès que el context i el coneixement de si un vídeo és real o generat per IA poden ser claus a l’hora de determinar com de persuasiu és un vídeo generat, ens hem centrat a construir un enfocament de procedència multicapa, incloent-hi metadades, marques d’aigua i empremtes digitals.

Pila de mitigacions de Sora

A més dels riscos específics i les mitigacions identificats a continuació, les decisions preses en l’entrenament, el disseny del producte i les polítiques de Sora ajuden a mitigar de manera àmplia el risc de resultats perjudicials o no desitjats. Aquests elements es poden organitzar, a grans trets, en mitigacions tècniques a nivell de sistema i model, així com en polítiques de producte i educació de l’usuari.

Mitigacions del sistema i del model

A continuació detallem les principals formes de mitigacions de seguretat que tenim implantades abans que es mostri a l’usuari el resultat que ha sol·licitat:

Moderació de text i imatge mitjançant un classificador de moderació multimodal

El nostre classificador de moderació multimodal que impulsa la nostra API externa de Moderation s’aplica per identificar indicacions de text, imatge o vídeo que puguin infringir les nostres polítiques d’ús, tant a l’entrada com a la sortida. Les indicacions infractores detectades pel sistema comportaran una negativa. Més informació sobre la nostra API de moderació multimodal aquí⁠.²

Filtratge personalitzat amb LLM

Un avantatge de la tecnologia de generació de vídeo és la capacitat de dur a terme comprovacions de moderació asíncrones sense afegir latència a l’experiència global de l’usuari. Com que la generació de vídeo triga inherentment uns quants segons a processar-se, aquesta finestra de temps es pot aprofitar per executar comprovacions de moderació orientades a la precisió. Hem personalitzat el nostre propi GPT per aconseguir una alta precisió en la moderació d’alguns temes específics, com ara la identificació de contingut de tercers i de contingut enganyós.

Els filtres són multimodals: tant les pujades d’imatges/vídeos, com les indicacions de text i les sortides, s’inclouen en el context de cada crida de LLM. Això ens permet detectar combinacions infractores entre imatge i text.

Classificadors de sortida d’imatges

Per abordar directament el contingut potencialment perjudicial a les sortides, Sora utilitza classificadors de sortida, inclosos filtres especialitzats per a contingut NSFW, menors, violència i possible ús indegut de la semblança. Sora pot bloquejar vídeos abans que es comparteixin amb l’usuari si s’activen aquests classificadors.

Llistes de bloqueig

Mantenim llistes de bloqueig textuals en diverses categories, informades pel nostre treball anterior amb DALL·E 2 i DALL·E 3, pel descobriment proactiu de riscos i pels resultats dels primers usuaris.

Polítiques de producte

A més de les proteccions que hem incorporat al model i al sistema per impedir la generació de contingut infractor, també estem adoptant mesures addicionals per reduir el risc d’ús indegut. Actualment, només oferim Sora a usuaris de 18 anys o més i apliquem filtres de moderació al contingut que es mostra als feeds Explore i Featured.

També comuniquem clarament les directrius de les polítiques mitjançant educació dins del producte i informació disponible públicament sobre:

L’ús de la semblança d’una altra persona sense el seu permís, i la prohibició de representar menors reals;
La creació de contingut il·legal o de contingut que infringeixi drets de propietat intel·lectual;
La generació de contingut explícit i perjudicial, com ara imatges íntimes no consentides, contingut utilitzat per intimidar, assetjar o difamar, o contingut destinat a promoure la violència, l’odi o el patiment d’altres persones; i
La creació i distribució de contingut utilitzat per defraudar, estafar o enganyar altres persones.

Algunes d’aquestes formes d’ús indegut s’aborden mitjançant les nostres mitigacions del model i del sistema, però d’altres depenen més del context: una escena d’una protesta es pot utilitzar per a finalitats creatives legítimes, però la mateixa escena presentada com un esdeveniment actual real també es podria compartir com a desinformació si es combina amb altres afirmacions.

Sora està dissenyat per donar a les persones la capacitat d’expressar una àmplia gamma d’idees i punts de vista creatius. No és pràctic ni aconsellable prevenir totes les formes de contingut problemàtic segons el context.

Oferim a les persones la possibilitat de denunciar⁠ vídeos de Sora que considerin que poden infringir les nostres directrius, mentre aprofitem l’automatització i la revisió humana per monitorar activament els patrons d’ús. Hem establert mecanismes d’aplicació per retirar vídeos infractors i penalitzar els usuaris. Quan els usuaris infringeixen les nostres directrius, els ho notificarem i els oferirem l’oportunitat d’explicar-nos què consideren just. Tenim la intenció de fer un seguiment de l’eficàcia d’aquestes mitigacions i perfeccionar-les amb el temps.

Àrees de risc específiques i mitigacions

Més enllà de les mesures generals de seguretat anteriors, les primeres proves i avaluacions van ajudar a identificar diverses àrees d’especial atenció en seguretat.

Seguretat infantil

OpenAI està profundament compromesa a abordar⁠³ els riscos de seguretat infantil, i prioritzem la prevenció, la detecció i la notificació de contingut de Child Sexual Abuse Material⁠(s'obre en una finestra nova) (CSAM) a tots els nostres productes, inclòs Sora. Els esforços d’OpenAI en l’àmbit de la seguretat infantil inclouen obtenir els nostres conjunts de dades de manera responsable per protegir-los del CSAM, col·laborar amb el National Center for Missing & Exploited Children (NCMEC) per prevenir l’abús sexual infantil i protegir els menors, fer equip vermell d’acord amb les recomanacions de Thorn i en compliment de les restriccions legals, i un escaneig sòlid de CSAM en totes les entrades i sortides. Això inclou l’escaneig dels usuaris propis i de tercers (API i Enterprise), tret que els clients compleixin criteris rigorosos per eliminar l’escaneig de CSAM. Per evitar la generació de CSAM, hem construït una pila de seguretat sòlida, aprofitant mitigacions del sistema que fem servir en altres productes com ChatGPT i DALL·E⁴ així com algunes palanques addicionals que hem desenvolupat específicament per a Sora.

Classificadors d’entrada

Per a la seguretat infantil, aprofitem 3 mitigacions d’entrada diferents en l’entrada de text, imatge i vídeo:

Per a totes les pujades d’imatges i vídeos, ens integrem amb Safer, desenvolupat per Thorn, per detectar coincidències amb CSAM conegut. Les coincidències confirmades es rebutgen i es notifiquen a NCMEC. A més, utilitzem el classificador de CSAM de Thorn per identificar contingut de CSAM potencialment nou i sense hash.
Aprofitem un classificador de moderació multimodal per detectar i moderar qualsevol contingut sexual que impliqui menors mitjançant l’entrada de text, imatge i vídeo.
Per a Sora, hem desenvolupat un classificador per analitzar text i imatges i predir si s’hi representa una persona menor de 18 anys o si el subtítol adjunt fa referència a un menor. Rebutgem les sol·licituds d’imatge a vídeo que continguin persones menors de 18 anys. Si es determina que el text a vídeo és de menors de 18 anys, apliquem llindars molt més estrictes per a la moderació del contingut sexual, violent o d’autolesió.

A continuació es mostra la nostra avaluació del classificador de menors de 18 anys per a humans. Avaluem el nostre classificador per rebutjar persones realistes menors de 18 anys en un conjunt de dades que conté prop de 5000 imatges de les categories [infant | adult] i [realista | fictici]. La nostra posició de política és rebutjar infants realistes, alhora que permetem imatges fictícies, incloses les d’estil animat, dibuix o esbós, sempre que no siguin sexuals. Hem adoptat un enfocament prudent respecte al contingut que implica menors i continuarem avaluant el nostre enfocament a mesura que aprenguem més a través de l’ús del producte i trobem l’equilibri adequat entre permetre l’expressió creativa i la seguretat.

Actualment, els nostres classificadors són molt precisos, però de vegades poden marcar per error imatges d’adults o d’infants no realistes. A més, reconeixem que els estudis i la bibliografia existent destaquen el potencial dels models de predicció d’edat per presentar biaixos racials. Per exemple, aquests models poden infraestimar sistemàticament l’edat de persones de determinats grups racials.⁵ Ens comprometem a millorar el rendiment del nostre classificador, minimitzar els falsos positius i aprofundir en la nostra comprensió dels possibles biaixos durant els propers mesos.

	Expected outcome	n_samples	count (is_child)	count (not_child)	Evaluated metrics
Realistic Child	Classify images as “is child”	1589	1555	34	Accuracy: 97.86%
Realistic Adult	Classify images as “not child”	1370	36	1334	Accuracy: 99.28%
Fictitious Adult	Classify images as “not child”	965	7	958	Accuracy: 97.37%
Fictitious Child	Classify images as “not child”	1050	323	727	Accuracy: 69.24%
Total		4974	1921	3053	Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Sortida

Com s’ha esmentat més amunt, un cop identifiquem una referència a menors en l’entrada de text amb el nostre classificador de menors de 18 anys, apliquem llindars estrictes per a la moderació del contingut sexual, violent o d’autolesió a la sortida. A continuació es mostren els dos classificadors de sortida que utilitzem per aconseguir-ho:

Classificador de moderació multimodal que analitza sortides de vídeo no segures i rebutja sol·licituds que poden ser especialment sensibles
També aprofitem el nostre classificador d’imatges existent de DALL·E per analitzar infraccions relacionades amb la seguretat infantil.

Els nostres classificadors de sortida analitzen 2 fotogrames per segon i, quan determinen que un vídeo no és segur, en bloquegem qualsevol sortida.

A més dels nostres classificadors i de la moderació automatitzada, comptarem amb revisió humana com a capa addicional de protecció contra possibles infraccions de la seguretat infantil.

Política de producte

Les nostres polítiques prohibeixen l’ús de Sora per generar contingut sexual que impliqui menors. Les infraccions de les nostres polítiques de seguretat infantil poden comportar la retirada del contingut i la suspensió de l’usuari.

Nuesa i contingut suggeridor

Una de les àrees de risc emergents associades a les capacitats de generació de vídeo amb IA és la possible creació de contingut NSFW (Not Safe for Work) o NCII (Non-Consensual Intimate Imagery). Igual que en l’enfocament de DALL·E, Sora utilitza una estratègia de moderació multinivell per bloquejar el contingut explícit. Aquesta inclou transformacions d’indicacions, classificadors de sortida d’imatges i llistes de bloqueig, que contribueixen a un sistema que restringeix el contingut suggeridor, especialment per a resultats adequats a l’edat. Els llindars dels nostres classificadors són més estrictes per a les pujades d’imatges que per a les indicacions basades en text.

Els vídeos mostrats a la secció Explore es filtren encara més amb llindars reforçats per oferir una experiència de visualització adequada per a un públic ampli.

A continuació es mostren els resultats de les nostres avaluacions sobre nuesa i contingut suggeridor, destinades a avaluar l’eficàcia de la mitigació multicapa entre entrades i sortides. A partir de les conclusions, hem ajustat els nostres llindars i hem aplicat una moderació més estricta a les imatges pujades que inclouen persones.

Categoria	*Precisió (a l’entrada)**	*Precisió (a la sortida, és a dir, E2E)**
Nuesa i contingut suggeridor	97.25%	97.59%

Explicació de l’avaluació:

N = nombre total de mostres infractores (~200 per categoria)
I = nombre total de mostres infractores que han superat les comprovacions de moderació d’entrada
O = nombre total de mostres infractores que han superat les comprovacions de moderació de sortida

Precisió a l’entrada = (N - I) / N
Precisió a la sortida (E2E) = (N - O) / N

Política de producte

Les nostres polítiques prohibeixen l’ús de Sora per generar contingut sexual explícit, incloses imatges íntimes no consentides. Les infraccions d’aquestes polítiques poden comportar la retirada del contingut i la penalització de l’usuari.

Contingut enganyós

Ús indegut de la semblança i deepfakes perjudicials

El monitor de moderació de Sora per a indicacions basades en la semblança està pensat per assenyalar contingut deepfake potencialment perjudicial, amb la intenció que els vídeos que impliquen persones reconeixibles es revisin de prop. El filtre d’ús indegut de la semblança assenyala també les indicacions que intenten modificar o representar persones de maneres potencialment perjudicials o enganyoses. Les transformacions generals d’indicacions de Sora redueixen encara més el risc que Sora generi la semblança no desitjada d’una persona privada a partir d’una indicació que contingui el nom d’algú.

Contingut enganyós

Els classificadors d’entrada i sortida de Sora tenen com a objectiu evitar la generació de contingut enganyós relacionat amb eleccions que representi activitat fraudulenta, poc ètica o il·legal d’una altra manera. Les mètriques d’avaluació de Sora inclouen classificadors per assenyalar tècniques d’estil o de filtre que podrien produir vídeos enganyosos en el context electoral, reduint així el risc d’un ús indegut al món real.

A continuació es mostren les avaluacions del nostre filtre LLM de contingut electoral enganyós, centrat a ajudar a identificar casos en què pot haver-hi intenció de crear contingut prohibit a través d’una varietat d’entrades (per exemple, text i vídeo). El nostre sistema també analitza 1 fotograma per segon del vídeo de sortida per avaluar possibles infraccions a la sortida.

Classificador	Recall	Precisió	Resultat quan s’assenyala
Contingut electoral enganyós	98.23%	88.80%	Bloquejar la generació de la sortida

N=~500, basat en indicacions de dades sintètiques

Inversions en procedència

Atès que molts riscos associats a Sora, com ara el contingut deepfake perjudicial, depenen molt del context, hem prioritzat la millora de les nostres eines de procedència. Reconeixem que no hi ha una única solució per a la procedència, però ens comprometem a millorar l’ecosistema de procedència i a ajudar a aportar context i transparència al contingut creat amb Sora.

Per a la disponibilitat general, les nostres eines de seguretat de procedència inclouran:

Metadades C2PA en tots els recursos (origen verificable, estàndard del sector)
Marques d’aigua visibles animades de Sora per defecte (transparència per als espectadors que això és «IA»)
Eina interna de cerca inversa de vídeo, per ajudar els membres de l’equip Intelligence & Investigation d’OpenAI a avaluar amb alta confiança si el contingut ha estat creat per Sora

Política de producte

Les nostres polítiques prohibeixen l’ús de Sora per defraudar, estafar o enganyar altres persones, inclosa la creació i difusió de desinformació. També prohibeixen l’ús de la semblança d’una altra persona sense el seu permís. Les infraccions d’aquestes polítiques poden comportar la retirada del contingut i la penalització de l’usuari.

Estils d’artistes

Quan un usuari utilitza el nom d’un artista viu en una indicació, el model pot generar un vídeo que s’assembli d’alguna manera a l’estil de les obres de l’artista. Hi ha una llarga tradició creativa de construir a partir dels estils d’altres artistes, però entenem que alguns creadors puguin tenir inquietuds. Hem optat per adoptar un enfocament conservador amb aquesta versió de Sora mentre aprenem més sobre com la comunitat creativa fa servir Sora. Per abordar-ho, hem afegit reescriptures d’indicacions dissenyades per activar-se quan un usuari intenta generar un vídeo amb l’estil d’un artista viu.

Com en els nostres altres productes, l’Editor de Sora fa servir un LLM per reescriure el text enviat i facilitar una formulació d’indicacions més eficaç per a Sora. Aquest procés afavoreix el compliment de les nostres directrius, inclosa l’eliminació de noms de figures públiques, l’ancoratge de persones amb atributs específics i la descripció d’objectes de marca de manera genèrica. Mantenim llistes de bloqueig textuals en diverses categories, informades pel nostre treball anterior amb DALL·E 2 i DALL·E 3, pel descobriment proactiu de riscos i pels resultats de l’equip vermell i dels primers usuaris.

Treball futur

OpenAI empra una estratègia de desplegament iteratiu per garantir un llançament responsable i eficaç dels seus productes. Aquest enfocament combina desplegaments per fases, proves contínues i monitoratge continu amb comentaris dels usuaris i dades del món real per perfeccionar i millorar amb el temps el nostre rendiment i les nostres mitigacions de seguretat. A continuació presentem una sèrie de tasques que tenim previst dur a terme com a part del nostre desplegament iteratiu de Sora.

Pilot de semblança

La capacitat de generar un vídeo utilitzant com a «llavor» una foto o un vídeo pujats d’una persona real és una via de possible ús indegut davant de la qual estem adoptant un enfocament especialment gradual per aprendre dels primers patrons d’ús. Els primers comentaris dels artistes indiquen que és una eina creativa potent que valoren, però, atès el potencial d’abús, inicialment no la posarem a disposició de tots els usuaris. En canvi, d’acord amb la nostra pràctica de desplegament iteratiu, la capacitat de pujar imatges o vídeos de persones estarà disponible per a un subconjunt d’usuaris i establirem un monitoratge actiu i exhaustiu per entendre el valor que té per a la comunitat de Sora i ajustar el nostre enfocament de seguretat a mesura que n’aprenguem. En aquesta prova no es permetran pujades que continguin imatges de menors.

Iniciatives de procedència i transparència

Les futures iteracions de Sora continuaran reforçant la traçabilitat mitjançant la recerca sobre eines de cerca inversa d’embeddings i la implementació continuada de mesures de transparència com C2PA. Ens fa il·lusió explorar possibles col·laboracions amb ONG i organitzacions de recerca per fer créixer i millorar l’ecosistema de procedència i provar la nostra eina interna d’imatge inversa per a Sora.

Ampliant la representació en els nostres resultats

Ens comprometem a reduir els possibles biaixos dels resultats mitjançant millores de les indicacions, bucles de retroalimentació i la identificació contínua de mitigacions eficaces, tot reconeixent que les sobrecorreccions poden ser igualment perjudicials. Reconeixem reptes com el biaix d’imatge corporal i la representació demogràfica, i continuarem perfeccionant el nostre enfocament per garantir resultats equilibrats i inclusius.

Seguretat, polítiques i alineació ètica contínues

OpenAI té previst mantenir avaluacions contínues de Sora i esforços per millorar encara més l’adhesió de Sora a les polítiques i els estàndards de seguretat d’OpenAI. També es preveuen millores addicionals en àrees com la seguretat de la semblança i el contingut enganyós, guiades per les millors pràctiques en evolució i pels comentaris dels usuaris.

Agraïments

Gràcies a tots els equips interns d’OpenAI, inclosos Comms, Comms Design, Afers globals, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems i User Ops, el suport dels quals va ser fonamental per ajudar a desenvolupar i implementar les mitigacions de seguretat de Sora, així com per les seves contribucions a aquesta fitxa del model.

Agraïm al nostre grup d’artistes Alpha i als nostres experts d’equip vermell que ens proporcionessin comentaris, ajudessin a provar els nostres models en les primeres etapes de desenvolupament i contribuïssin a les nostres avaluacions i anàlisis de riscos. La participació en el procés de proves no implica un aval dels plans de desplegament d’OpenAI ni de les polítiques d’OpenAI.

Persones d’equip vermell (ordre alfabètic): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
Organitzacions d’equip vermell: ScaleAI

Autors

OpenAI

Referències

1
OpenAI. Models de generació de vídeo com a simuladors del món.⁠
2
OpenAI. (s. d.). Actualització de l’API de Moderation amb el nostre nou model de Moderation multimodal⁠. 2024
3
OpenAI. (s. d.). Seguretat infantil: adopció dels principis SBD⁠. OpenAI. Recuperat el 6 de desembre de 2024
4
OpenAI. fitxa del model de DALL·E 3⁠. 2023.
5
Panić, N., Marjanović, M., & Bezdan, T. (2024). Abordar el biaix demogràfic en models d’estimació de l’edat mitjançant una composició optimitzada del conjunt de dades⁠(s'obre en una finestra nova). Mathematics, 12(15), 2358.