9 ડિસેમ્બર, 2024

Sora સિસ્ટમ કાર્ડ

લોડિંગ…

પરિચય

Soraનો પરિચય

Sora OpenAIનું વિડિયો જનરેશન મોડલ છે, જે ટેક્સ્ટ, છબી અને વિડિયો ઇનપુટ લઈને આઉટપુટ તરીકે નવો વિડિયો જનરેટ કરવા માટે ડિઝાઇન કરવામાં આવ્યું છે. વપરાશકર્તાઓ વિવિધ ફોર્મેટમાં 1080p સુધીનું રિઝોલ્યુશન ધરાવતા વિડિયો બનાવી શકે છે (મહત્તમ 20 સેકન્ડ), ટેક્સ્ટમાંથી નવી સામગ્રી જનરેટ કરી શકે છે, અથવા પોતાની એસેટ્સને સુધારી, રીમિક્સ કરી અને મિશ્રિત કરી શકે છે. વપરાશકર્તાઓ Featured અને Recent ફીડ્સ પણ જોઈ શકશે, જે સમુદાયની રચનાઓ દર્શાવે છે અને નવા વિચારો માટે પ્રેરણા આપે છે. Sora DALL·E અને GPT મોડેલ્સમાંથી મળેલા શીખણ પર આધારિત છે અને લોકોને વાર્તાકથન તથા સર્જનાત્મક અભિવ્યક્તિ માટે વિસ્તૃત સાધનો આપવા માટે ડિઝાઇન કરવામાં આવ્યું છે.

Sora એક diffusion મોડલ છે, જે શરૂઆતમાં સ્ટેટિક અવાજ જેવા દેખાતા આધાર વિડિયોથી શરૂ કરીને અને અનેક પગલાંમાં અવાજ દૂર કરીને તેને ધીમે ધીમે રૂપાંતરિત કરીને વિડિયો જનરેટ કરે છે. મોડલને એક જ સમયે ઘણા ફ્રેમ્સની પૂર્વદ્રષ્ટિ આપીને, અમે એવો પડકારજનક પ્રશ્ન ઉકેલ્યો છે કે વિષય થોડા સમય માટે નજરની બહાર જાય તો પણ એ જ રહે. GPT મોડેલ્સની જેમ, Sora ટ્રાન્સફોર્મર આર્કિટેક્ચરનો ઉપયોગ કરે છે, જે ઉત્તમ સ્કેલિંગ કામગીરીને શક્ય બનાવે છે.

Sora DALL·E 3ની recaptioning તકનિકનો ઉપયોગ કરે છે, જેમાં દૃશ્ય ટ્રેનિંગ ડેટા માટે અત્યંત વર્ણનાત્મક કૅપ્શન્સ જનરેટ કરવામાં આવે છે. પરિણામે, મોડલ જનરેટ થયેલા વિડિયોમાં વપરાશકર્તાની ટેક્સ્ટ સૂચનાઓને વધુ વિશ્વસનીય રીતે અનુસરી શકે છે.

માત્ર ટેક્સ્ટ સૂચનાઓ પરથી વિડિયો જનરેટ કરવાની ક્ષમતા સિવાય, મોડલ હાલની સ્થિર છબી લઈ તેમાંથી વિડિયો પણ બનાવી શકે છે, અને છબીની સામગ્રીને ચોકસાઈ તથા નાની વિગતો પર ધ્યાન સાથે એનિમેટ કરી શકે છે. મોડલ હાલના વિડિયોને લંબાવી પણ શકે છે અથવા ગાયબ ફ્રેમ્સ ભરી શકે છે⁠. Sora એવા મોડેલ્સ માટે પાયો પૂરું પાડે છે, જે વાસ્તવિક વિશ્વને સમજી અને અનુકરણ કરી શકે, અને અમને લાગે છે કે આ ક્ષમતા AGI પ્રાપ્ત કરવા માટે મહત્વપૂર્ણ માઇલસ્ટોન બનશે.

Soraની ક્ષમતાઓ નવા પ્રકારના જોખમો પણ લાવી શકે છે, જેમ કે likenessનો દુરુપયોગ અથવા ભ્રામક કે સ્પષ્ટ વિડિયો સામગ્રીનું જનરેશન. Soraને પ્રોડક્ટમાં સુરક્ષિત રીતે તૈનાત કરવા માટે, અમે ChatGPT અને APIમાં DALL·Eની તૈનાતી માટેના સુરક્ષા કાર્યમાંથી તેમજ ChatGPT જેવા અન્ય OpenAI પ્રોડક્ટ્સની સુરક્ષા-નિવારક વ્યવસ્થાઓમાંથી મળેલા શીખણ પર આધાર રાખ્યો. આ સિસ્ટમ કાર્ડ પરિણામરૂપ mitigation stack, બાહ્ય રેડ ટીમિંગ પ્રયાસો, મૂલ્યાંકન અને આ સુરક્ષા ઉપાયો વધુ પરિષ્કૃત કરવા માટેના ચાલુ સંશોધનનું વર્ણન કરે છે.

મોડલ ડેટા

ફેબ્રુઆરી 2024ની અમારી ટેક્નિકલ રિપોર્ટ⁠¹માં વર્ણવ્યા મુજબ, Sora મોટા ભાષા મોડેલ્સમાંથી પ્રેરણા લે છે, જે ઇન્ટરનેટ-સ્કેલ ડેટા પર ટ્રેનિંગ દ્વારા સામાન્ય ક્ષમતાઓ પ્રાપ્ત કરે છે. LLM paradigmની સફળતા અંશતઃ એવા ટોકન્સના ઉપયોગથી શક્ય બને છે, જે ટેક્સ્ટની વિવિધ modalities—code, math અને વિવિધ પ્રાકૃતિક ભાષાઓ—ને સુંદર રીતે એકીકૃત કરે છે. Sora સાથે, અમે વિચાર્યું કે દૃશ્ય ડેટાના જનરેટિવ મોડેલ્સ આવા લાભો કેવી રીતે વારસામાં મેળવી શકે. જ્યાં LLMs પાસે text tokens હોય છે, ત્યાં Sora પાસે visual patches છે. અગાઉ દર્શાવવામાં આવ્યું છે કે patches દૃશ્ય ડેટાના મોડેલ્સ માટે અસરકારક પ્રતિનિધિત્વ છે. અમે શોધ્યું કે patches વિવિધ પ્રકારના વિડિયોઝ અને છબીઓ પર જનરેટિવ મોડેલ્સને ટ્રેન કરવા માટે ખૂબ સ્કેલેબલ અને અસરકારક પ્રતિનિધિત્વ છે. ઉચ્ચ સ્તરે, અમે પહેલા વિડિયોને લોઅર-ડાઇમેન્શનલ લેટન્ટ સ્પેસમાં સંકુચિત કરીને અને ત્યારબાદ તે પ્રતિનિધિત્વને spacetime patchesમાં વિભાજિત કરીને વિડિયોને patchesમાં ફેરવીએ છીએ.

Soraને વિવિધ datasets પર ટ્રેન કરવામાં આવ્યું હતું, જેમાં જાહેરમાં ઉપલબ્ધ ડેટા, ભાગીદારી દ્વારા પ્રાપ્ત proprietary data અને in-house વિકસાવેલા custom datasetsનું મિશ્રણ સામેલ છે. તેમાં આનો સમાવેશ થાય છે:

પસંદ કરાયેલ જાહેરમાં ઉપલબ્ધ ડેટા, જે મોટાભાગે ઉદ્યોગ-માનક મશીન લર્નિંગ datasets અને web crawlsમાંથી એકત્રિત કરવામાં આવ્યું છે.
ડેટા ભાગીદારીમાંથી proprietary data. જાહેરમાં ઉપલબ્ધ ન હોય તેવા ડેટા સુધી પહોંચવા માટે અમે ભાગીદારીઓ રચીએ છીએ. ઉદાહરણ તરીકે, AI-generated images બનાવવા અને પહોંચાડવા માટે અમે Shutterstock⁠ Pond5 સાથે ભાગીદારી કરી. અમે અમારી જરૂરિયાતોને અનુરૂપ datasets commission કરવા અને બનાવવા માટે પણ ભાગીદારી કરીએ છીએ.
માનવ ડેટા: AI trainers, રેડ ટીમર્સ અને કર્મચારીઓનો પ્રતિસાદ.

પ્રી-ટ્રેનિંગ ફિલ્ટરિંગ અને ડેટા પ્રીપ્રોસેસિંગ

પ્રી-ટ્રેનિંગ તબક્કા પછી અમલમાં મૂકવામાં આવેલા mitigations ઉપરાંત, પ્રી-ટ્રેનિંગ ફિલ્ટરિંગ mitigations સુરક્ષાનો વધારાનો સ્તર પૂરું પાડી શકે છે, જે અન્ય સુરક્ષા-નિવારક વ્યવસ્થાઓ સાથે મળીને અમારી datasetsમાંથી અનિચ્છનીય અને હાનિકારક ડેટાને બહાર રાખવામાં મદદ કરે છે. ટ્રેનિંગ પહેલાં, તમામ datasets આ ફિલ્ટરિંગ પ્રક્રિયામાંથી પસાર થાય છે, જેમાં સૌથી સ્પષ્ટ, હિંસક અથવા અન્યથા સંવેદનશીલ સામગ્રી (ઉદાહરણ તરીકે, કેટલીક ઘૃણાસૂચક ચિહ્નો) દૂર કરવામાં આવે છે. આ પદ્ધતિઓનો વિસ્તાર છે, જેનો ઉપયોગ અમે DALL·E 2 અને DALL·E 3 સહિત અમારા અન્ય મોડેલ્સને ટ્રેન કરવા માટે ઉપયોગમાં લેવાયેલા ડેટાને ફિલ્ટર કરવા માટે કર્યો હતો.

જોખમ ઓળખ અને તૈનાતી તૈયારી

અમે Soraની ડિઝાઇન અને સુરક્ષા-નિવારક વ્યવસ્થાઓને માહિતગાર કરવામાં મદદરૂપ થવા માટે સંભવિત દુરુપયોગ અને વાસ્તવિક દુનિયાના સર્જનાત્મક ઉપયોગો બંને સમજવા મજબૂત પ્રક્રિયા અપનાવી. 2024ના ફેબ્રુઆરીમાં Soraની જાહેરાત પછી, અમે 60થી વધુ દેશોના સૈંકડો visual artists, designers અને filmmakers સાથે કામ કર્યું જેથી સર્જનાત્મક વ્યાવસાયિકો માટે મોડલને સૌથી વધુ ઉપયોગી બનાવવા માટે કેવી રીતે આગળ વધવું તેના પર પ્રતિસાદ મળી શકે. અમે જોખમો શોધવા અને આંકવા તેમજ અમારી સુરક્ષા અને જોખમ-નિવારક વ્યવસ્થાઓમાં પુનરાવર્તિત રીતે સુધારો કરવા માટે આંતરિક રીતે અને બાહ્ય રેડ ટીમર્સ સાથે અનેક મૂલ્યાંકનો પણ તૈયાર કર્યા.

Sora માટેનો અમારો safety stack આ શીખણ પર તેમજ DALL·E અને ChatGPT જેવા અન્ય મોડેલ્સ અને પ્રોડક્ટ્સમાં અમે ઉપયોગમાં લેતા હાલના સુરક્ષા-નિવારક ઉપાયો પર આધારિત છે, સાથે જ અમારા વિડિયો પ્રોડક્ટ માટે ખાસ તૈયાર કરાયેલા mitigations પણ સામેલ છે. કારણ કે આ એક શક્તિશાળી સાધન છે, અમે સુરક્ષામાં iterative અભિગમ અપનાવી રહ્યા છીએ, ખાસ કરીને એવા ક્ષેત્રોમાં જ્યાં સંદર્ભ મહત્વપૂર્ણ હોય અથવા જ્યાં વિડિયોથી જોડાયેલા નવા જોખમો દેખાતા હોય. અમારા iterative અભિગમના ઉદાહરણોમાં 18 વર્ષ કે તેથી વધુ વયના વપરાશકર્તાઓ સુધી ઍક્સેસ મર્યાદિત કરવું, likeness/face-uploadsનો ઉપયોગ મર્યાદિત કરવો, અને લોન્ચ સમયે નાબાલિગોના પ્રોમ્પ્ટ્સ અને અપલોડ્સ પર વધુ સાવચેત moderation thresholds રાખવી સામેલ છે. અમે જાણવા માંગીએ છીએ કે લોકો Soraનો કેવી રીતે ઉપયોગ કરે છે અને અમારા વપરાશકર્તાઓ માટે સર્જનાત્મક સંભાવનાને મહત્તમ કરતા સુરક્ષાનું શ્રેષ્ઠ સંતુલન રાખવા માટે સતત સુધારો કરવાનું ચાલુ રાખવા માંગીએ છીએ.

બાહ્ય રેડ ટીમિંગ

OpenAIએ નવ અલગ-अलग દેશોમાં સ્થિત બાહ્ય રેડ ટીમર્સ સાથે કામ કરીને Soraનું પરીક્ષણ કર્યું, સુરક્ષા-નિવારક વ્યવસ્થાઓની કમજોરીઓ ઓળખી અને Soraની નવી પ્રોડક્ટ ક્ષમતાઓ સાથે સંબંધિત જોખમો પર પ્રતિસાદ મેળવ્યો. સપ્ટેમ્બરથી શરૂ કરીને ડિસેમ્બર 2024 સુધી રેડ ટીમર્સને સુરક્ષા-નિવારક વ્યવસ્થાઓના વિવિધ સંસ્કરણો અને સિસ્ટમ પરિપક્વતા સાથે Sora પ્રોડક્ટનો ઍક્સેસ આપવામાં આવ્યો હતો, અને તેમણે 15,000થી વધુ જનરેશન્સનું પરીક્ષણ કર્યું. આ રેડ ટીમિંગ પ્રયાસ 2024ની શરૂઆતના કાર્ય પર આધારિત છે, જ્યાં પ્રોડક્શન mitigations વિના Sora મોડલનું પરીક્ષણ થયું હતું.

રેડ ટીમર્સે Soraના મોડલ અને પ્રોડક્ટના સાધનો સાથે જોડાયેલા નવા સંભવિત જોખમોની તપાસ કરી અને સુરક્ષા-નિવારક વ્યવસ્થાઓ વિકસતી અને સુધરતી ગઈ તેમ તેનું પરીક્ષણ કર્યું. આ રેડ ટીમિંગ અભિયાનોમાં વિવિધ પ્રકારની ઉલ્લંઘનકારી અને પ્રતિબંધિત સામગ્રી (યૌન અને કામુક સામગ્રી, હિંસા અને ગોર, સ્વ-હાનિ, ગેરકાયદેસર સામગ્રી, mis/disinformation વગેરે), સુરક્ષા-નિવારક વ્યવસ્થાઓથી બચવા માટેની adversarial યુક્તિઓ (પ્રોમ્પ્ટિંગ અને સાધન/સુવિધા ઉપયોગ બંને), તેમજ આ સાધનોનો ઉપયોગ moderation tools અને safeguardsને ક્રમશઃ નબળા પાડવા માટે કેવી રીતે થઈ શકે તેની તપાસ સામેલ હતી. રેડ ટીમર્સે bias અને સામાન્ય કામગીરી સહિતના ક્ષેત્રોમાં Sora વિશેની પોતાની ધારણાઓ પર પણ પ્રતિસાદ આપ્યો.

અમે ઉપર જણાવેલ તમામ સામગ્રી શ્રેણીઓમાં સીધા પ્રોમ્પ્ટ્સ અને adversarial prompting યુક્તિઓ બંનેનો ઉપયોગ કરીને text-to-video જનરેશનનું પરીક્ષણ કર્યું. Media upload ક્ષમતાનું પરીક્ષણ જાહેર વ્યક્તિઓ સહિત મોટી વિવિધતા ધરાવતી છબીઓ અને વિડિયોઝ તથા ઉલ્લંઘનકારી સામગ્રી જનરેટ કરવાની ક્ષમતા તપાસવા માટે સામગ્રીની વિશાળ શ્રેણીઓ સાથે કરવામાં આવ્યું. અમે modification tools (storyboards, recut, remix અને blend)ના વિવિધ ઉપયોગો અને સંયોજનોનું પણ પરીક્ષણ કર્યું, જેથી પ્રતિબંધિત સામગ્રી જનરેટ કરવા માટે તેમની ઉપયોગિતા આંકી શકાય.

રેડ ટીમર્સે પ્રતિબંધિત સામગ્રીના ચોક્કસ પ્રકારો તેમજ સામાન્ય adversarial યુક્તિઓ બંને માટે નોંધપાત્ર અવલોકનો ઓળખ્યા. ઉદાહરણ તરીકે, રેડ ટીમર્સે શોધ્યું કે વૈદ્યકીય પરિસ્થિતિઓ અથવા science fiction / fantasy settings સાથેના ટેક્સ્ટ પ્રોમ્પ્ટ્સનો ઉપયોગ કરતા, વધારાના mitigations બનાવવામાં આવે ત્યાં સુધી કામુક અને યૌન સામગ્રીના જનરેશન સામેના safeguards નબળા પડતા હતા. રેડ ટીમર્સે safety stackના તત્વોથી બચવા માટે adversarial યુક્તિઓનો ઉપયોગ કર્યો, જેમાં સૂચક પ્રોમ્પ્ટ્સ અને મોડલની inference ક્ષમતાનો લાભ લેવા માટે રૂપકોનો ઉપયોગ સામેલ હતો. ઘણા પ્રયાસો બાદ, તેઓ એવા પ્રોમ્પ્ટ્સ અને શબ્દોના ટ્રેન્ડ્સ ઓળખી શક્યા કે જે safeguards સક્રિય કરતા હતા, અને ઇનકારથી બચવા માટે અલગ ભાષાશૈલી અને શબ્દો અજમાવી શક્યા. અંતે રેડ ટીમર્સ સૌથી ચિંતાજનક જનરેશનને વધુ વિકાસ માટે seed media તરીકે પસંદ કરતા, જેથી એવી ઉલ્લંઘનકારી સામગ્રી બનાવી શકાય જે single-prompt ટેક્નિકથી બની શકતી ન હતી. Jailbreak ટેક્નિક્સ ક્યારેક સુરક્ષા નીતિઓને નબળી પાડવામાં અસરકારક સાબિત થઈ, જેના કારણે અમને આ સુરક્ષાઓ વધુ સુધારવાની તક મળી.

રેડ ટીમર્સે જાહેરમાં ઉપલબ્ધ છબીઓ અને AI-generated media બંને સાથે media uploads અને Soraના સાધનો (storyboards, recut, remix અને blend)નું પણ પરીક્ષણ કર્યું. આથી Soraની રિલીઝ પહેલા મજબૂત કરવાની જરૂર હોય તેવી input અને output filteringમાં ખામીઓ બહાર આવી, અને લોકો સહિતના media uploads માટેની સુરક્ષાઓ વધુ ચોક્કસ બનાવવામાં મદદ મળી. પરીક્ષણથી આ પણ જાણવા મળ્યું કે non-violative media uploadsને પ્રતિબંધિત કામુક, હિંસક અથવા deepfake સામગ્રીમાં ફેરવવાના જોખમને ઘટાડવા માટે વધુ મજબૂત classifier filteringની જરૂર છે.

રેડ ટીમર્સે જનરેટ કરેલા પ્રતિસાદ અને ડેટાએ વધારાની સુરક્ષા-નિવારક સ્તરો ઉભાં કરવા અને હાલના સુરક્ષા મૂલ્યાંકનોમાં સુધારા કરવા સક્ષમ બનાવ્યું, જે Specific Risk Areas and Mitigations⁠ વિભાગોમાં વર્ણવ્યા છે. આ પ્રયત્નોથી safety goals સાથે મોડલનું પાલન સુનિશ્ચિત કરવા માટે અમારી prompt filtering, blocklists અને classifier thresholdsમાં વધારાના tuning શક્ય બન્યા.

પ્રારંભિક કલાકાર ઍક્સેસમાંથી મળેલા શીખણ

ગત નવ મહિનાઓમાં, અમે 60થી વધુ દેશોના 300થી વધુ વપરાશકર્તાઓ પાસેથી મળેલી 500,000થી વધુ મોડલ વિનંતીઓમાં વપરાશકર્તા પ્રતિસાદ નિરીક્ષ્યો. આ ડેટાએ મોડલ વર્તન અને સુરક્ષા પ્રોટોકોલ પ્રત્યે મોડલના પાલનમાં સુધારા માટે માર્ગદર્શન આપ્યું. ઉદાહરણ તરીકે, કલાકારોના પ્રતિસાદે અમને સમજવામાં મદદ કરી કે દેખાતો watermark તેમની workflows પર કેવી મર્યાદા મૂકે છે, જેના કારણે અમે ચૂકવણી કરનાર વપરાશકર્તાઓને visible watermark વગર વિડિયો ફાઇલ્સ ડાઉનલોડ કરવાની મંજૂરી આપવાનો નિર્ણય કર્યો, જ્યારે C2PA ડેટા embed કરેલું જ રાખ્યું.

આ early access પ્રોગ્રામે અમને એ પણ શીખવ્યું કે જો Soraનો હેતુ વાર્તાકથન અને સર્જનાત્મક અભિવ્યક્તિ માટેનું વિસ્તૃત સાધન બનવાનો હોય, તો અમારે કલાકારોને કેટલીક સંવેદનશીલ બાબતોમાં વધુ લવચીકતા આપવી પડશે, જેને અમે ChatGPT જેવા સામાન્ય હેતુના સાધનમાં અલગ રીતે સંભાળીએ. અમે અપેક્ષા રાખીએ છીએ કે કલાકારો, સ્વતંત્ર ફિલ્મમેકર્સ, સ્ટુડિયોઝ અને અન્ય મનોરંજન ઉદ્યોગ સંસ્થાઓ Soraનો ઉપયોગ તેમના વિકાસ પ્રક્રિયાનો મહત્વપૂર્ણ ભાગ તરીકે કરશે. સાથે સાથે, સકારાત્મક ઉપયોગ કેસો અને સંભવિત દુરુપયોગ બંનેની ઓળખ દ્વારા અમને એવા ક્ષેત્રો નક્કી કરવામાં મદદ મળી જ્યાં નુકસાન અથવા દુરુપયોગના જોખમને ઘટાડવા માટે વધુ પ્રતિબંધાત્મક પ્રોડક્ટ-સ્તરની mitigations જરૂરી હતી.

મૂલ્યાંકનો

અમે નગ્નતા, ભ્રામક ચૂંટણી સામગ્રી, સ્વ-હાનિ અને હિંસા સહિતના મુખ્ય ક્ષેત્રોને લક્ષ્ય બનાવતાં આંતરિક મૂલ્યાંકનો વિકસાવ્યા. આ મૂલ્યાંકનો mitigationના પરિષ્કરણને સમર્થન આપવા અને અમારી moderation મર્યાદાઓ નક્કી કરવામાં મદદરૂપ થવા માટે ડિઝાઇન કરવામાં આવ્યા હતા. મૂલ્યાંકન માળખું વિડિયો જનરેશન મોડલને આપવામાં આવેલા ઇનપુટ પ્રોમ્પ્ટ્સને transformed prompts અથવા અંતિમ જનરેટ થયેલા વિડિયોઝ પર લાગુ કરવામાં આવેલા ઇનપુટ અને આઉટપુટ classifiers સાથે જોડે છે.

આ મૂલ્યાંકનો માટેના ઇનપુટ પ્રોમ્પ્ટ્સ ત્રણ મુખ્ય સ્ત્રોતોમાંથી લેવામાં આવ્યા: શરૂઆતના alpha તબક્કા દરમિયાન એકત્રિત ડેટા (વિભાગ 3.2માં દર્શાવ્યા મુજબ), રેડ-ટીમ ટેસ્ટર્સ દ્વારા આપવામાં આવેલા adversarial ઉદાહરણો (વિભાગ 3.1માં ઉલ્લેખિત), અને GPT‑4નો ઉપયોગ કરીને જનરેટ કરાયેલ કૃત્રિમ ડેટા. Alpha તબક્કાના ડેટાએ વાસ્તવિક ઉપયોગ પરિસ્થિતિઓ વિશે સમજ આપી, રેડ ટીમર્સના યોગદાનથી adversarial અને edge-case સામગ્રી બહાર આવી, અને કૃત્રિમ ડેટાએ અનિચ્છિત રેસી સામગ્રી જેવા ક્ષેત્રોમાં મૂલ્યાંકન સેટ્સ વિસ્તૃત કરવા દીધા, જ્યાં સ્વાભાવિક રીતે મળતાં ઉદાહરણો ઓછા હોય છે.

તૈયારી

Preparedness framework એ આકલન કરવા માટે ડિઝાઇન કરવામાં આવ્યું છે કે અત્યાધુનિક મોડલ ક્ષમતાઓ ચાર ટ્રેક કરાયેલ શ્રેણીઓમાં નોંધપાત્ર જોખમો રજૂ કરે છે કે નહીં: persuasion, cybersecurity, CBRN (chemical, biological, radiological, and nuclear), અને model autonomy. Sora cybersecurity, CBRN અથવા model autonomyના સંદર્ભમાં કોઈ નોંધપાત્ર જોખમ ઉભું કરે છે તેવો અમને પુરાવો નથી. આ જોખમો એવા મોડેલ્સ સાથે નજીકથી જોડાયેલા છે, જે કમ્પ્યુટર સિસ્ટમ્સ, વૈજ્ઞાનિક જ્ઞાન અથવા સ્વાયત્ત નિર્ણય-લેવાની પ્રક્રિયાઓ સાથે ક્રિયા કરે છે, અને આ બધું હાલ વિડિયો-જનરેશન સાધન તરીકે Soraના ક્ષેત્રની બહાર છે.

Soraની વિડિયો જનરેશન ક્ષમતાઓ persuasionથી સંભવિત જોખમો ઉભા કરી શકે છે, જેમ કે impersonation, misinformation અથવા social engineeringના જોખમો. આ જોખમોને સંબોધવા માટે અમે mitigationsનો એક સમૂહ વિકસાવ્યો છે, જે નીચેના વિભાગોમાં વર્ણવ્યો છે. તેમાં જાણીતા જાહેર ચહેરાઓનું likeness જનરેટ થતું રોકવા માટે બનાવેલા mitigationsનો સમાવેશ થાય છે. વધુમાં, જનરેટ થયેલો વિડિયો વાસ્તવિક છે કે AI-generated છે તેની માહિતી અને તેનો સંદર્ભ એ વિડિયો કેટલો પ્રભાવક છે તે નક્કી કરવામાં મુખ્ય હોઈ શકે હોવાથી, અમે metadata, watermarks અને fingerprinting સહિત provenance માટે બહુસ્તરીય અભિગમ બનાવવા પર ધ્યાન કેન્દ્રિત કર્યું છે.

Sora mitigation stack

નીચે ઓળખાયેલા ચોક્કસ જોખમો અને mitigations ઉપરાંત, Soraની ટ્રેનિંગ, પ્રોડક્ટ ડિઝાઇન અને નીતિઓમાં કરાયેલા પસંદગીઓ હાનિકારક અથવા અનિચ્છનીય આઉટપુટ્સના જોખમને વ્યાપક રીતે ઘટાડવામાં મદદ કરે છે. આને સામાન્ય રીતે સિસ્ટમ અને મોડલ-સ્તરની તકનીકી mitigations, તેમજ પ્રોડક્ટ નીતિઓ અને વપરાશકર્તા શિક્ષણમાં ગોઠવી શકાય છે.

સિસ્ટમ અને મોડલ mitigations

વપરાશકર્તાને તેમની વિનંતી કરાયેલ આઉટપુટ બતાવવામાં આવે તે પહેલાં અમારી પાસે રહેલી મુખ્ય સુરક્ષા-નિવારક વ્યવસ્થાઓના સ્વરૂપોનું વિગતવાર વર્ણન નીચે આપ્યું છે:

મલ્ટી-મોડલ moderation classifier દ્વારા ટેક્સ્ટ અને છબી moderation

અમારી બાહ્ય Moderation APIને શક્તિ આપતો multi-modal moderation classifier ઉપયોગ નીતિઓનું ઉલ્લંઘન કરી શકે એવા ટેક્સ્ટ, છબી અથવા વિડિયો પ્રોમ્પ્ટ્સને ઓળખવા માટે ઇનપુટ અને આઉટપુટ બંને પર લાગુ થાય છે. સિસ્ટમ દ્વારા ઓળખાયેલા ઉલ્લંઘનકારી પ્રોમ્પ્ટ્સના પરિણામે ઇનકાર થશે. અમારી multi-modal moderation API વિશે વધુ અહીં જાણો⁠.²

કસ્ટમ LLM ફિલ્ટરિંગ

વિડિયો જનરેશન ટેક્નોલોજીનો એક લાભ એ છે કે કુલ વપરાશકર્તા અનુભવમાં latency ઉમેર્યા વગર asynchronous moderation checks કરી શકાય છે. કારણ કે વિડિયો જનરેશનને પ્રક્રિયા થવામાં સ્વભાવતઃ થોડા સેકન્ડ લાગે છે, આ સમયવિન્ડોનો ઉપયોગ precision-targeted moderation checks ચલાવવા માટે થઈ શકે છે. અમે તૃતીય-પક્ષ સામગ્રી તેમજ ભ્રામક સામગ્રીની ઓળખ સહિત કેટલાક ચોક્કસ વિષયો પર moderationમાં ઊંચી ચોકસાઈ હાંસલ કરવા માટે અમારી પોતાની GPTને કસ્ટમાઇઝ કરી છે.

Filters મલ્ટીમોડલ છે: છબી/વિડિયો અપલોડ્સ, ટેક્સ્ટ પ્રોમ્પ્ટ્સ અને આઉટપુટ્સ બધું દરેક LLM callના સંદર્ભમાં સામેલ હોય છે. આ અમને છબી અને ટેક્સ્ટ વચ્ચેની ઉલ્લંઘનકારી જોડાણોને ઓળખવાની મંજૂરી આપે છે.

છબી આઉટપુટ classifiers

આઉટપુટ્સમાં સીધી રીતે સંભવિત હાનિકારક સામગ્રીને સંબોધવા માટે, Sora output classifiersનો ઉપયોગ કરે છે, જેમાં NSFW content, નાબાલિગો, હિંસા અને likenessના સંભવિત દુરુપયોગ માટેના વિશિષ્ટ filtersનો સમાવેશ થાય છે. જો આ classifiers સક્રિય થાય, તો Sora વપરાશકર્તા સાથે શેર થાય તે પહેલાં વિડિયોઝ અવરોધિત કરી શકે છે.

Blocklists

અમે વિવિધ શ્રેણીઓમાં ટેક્સ્ટ્યુઅલ blocklists જાળવી રાખીએ છીએ, જે DALL·E 2 અને DALL·E 3 પરના અમારા અગાઉના કાર્ય, સક્રિય જોખમ શોધ અને પ્રારંભિક વપરાશકર્તાઓના પરિણામોથી માહિતગાર છે.

પ્રોડક્ટ નીતિઓ

ઉલ્લંઘનકારી સામગ્રીના જનરેશનને રોકવા માટે અમે મોડલ અને સિસ્ટમમાં સમાવવામાં આવેલી સુરક્ષાઓ ઉપરાંત, અમે દુરુપયોગના જોખમને ઘટાડવા માટે વધારાના પગલાં પણ લઈ રહ્યા છીએ. હાલમાં અમે Sora માત્ર 18 વર્ષ અથવા તેથી વધુ વયના વપરાશકર્તાઓને આપી રહ્યા છીએ અને Explore તથા Featured feedsમાં દર્શાવાતી સામગ્રી પર moderation filters લાગુ કરી રહ્યા છીએ.

અમે in-product અને જાહેરમાં ઉપલબ્ધ શિક્ષણ દ્વારા નીતિ માર્ગદર્શિકાઓ પણ સ્પષ્ટ રીતે સંપ્રેષિત કરીએ છીએ, જેમાં આ મુદ્દાઓ શામેલ છે:

બીજા વ્યક્તિના likenessનો તેમની પરવાનગી વિના ઉપયોગ, અને વાસ્તવિક નાબાલિગોને દર્શાવવાનો પ્રતિબંધ.
ગેરકાયદેસર સામગ્રી અથવા બૌદ્ધિક સંપત્તિ અધિકારોનું ઉલ્લંઘન કરતી સામગ્રી બનાવવી.
સ્પષ્ટ અને હાનિકારક સામગ્રીનું જનરેશન, જેમ કે સંમતિ વિના અંગત છબીઓ, ડરાવવા, હેરાન કરવા અથવા બદનામ કરવા માટે વપરાતી સામગ્રી, અથવા હિંસા, ઘૃણા અથવા અન્ય લોકોના દુઃખને પ્રોત્સાહિત કરવા માટેની સામગ્રી.
અન્ય લોકોને છેતરવા, ઠગવા અથવા ભ્રમિત કરવા માટે વપરાતી સામગ્રીનું સર્જન અને વિતરણ.

આમાંથી કેટલાક દુરુપયોગના સ્વરૂપો અમારી મોડલ અને સિસ્ટમ mitigations દ્વારા સંબોધાય છે, પરંતુ અન્ય વધુ સંદર્ભ આધારિત છે—પ્રદર્શનનું દૃશ્ય યોગ્ય સર્જનાત્મક હેતુઓ માટે વપરાઈ શકે છે, પરંતુ જો એ જ દૃશ્યને વાસ્તવિક વર્તમાન ઘટના તરીકે રજૂ કરીને બીજા દાવાઓ સાથે જોડવામાં આવે, તો તે દિશાભ્રમ ફેલાવવા માટે પણ શેર થઈ શકે છે.

Sora લોકોને સર્જનાત્મક વિચારો અને દૃષ્ટિકોણોની વિશાળ શ્રેણી વ્યક્ત કરવાની ક્ષમતા આપવા માટે ડિઝાઇન કરવામાં આવ્યું છે. સંદર્ભ મુજબ સમસ્યાજનક દરેક પ્રકારની સામગ્રીને રોકવું વ્યવહારુ કે સલાહરૂપ નથી.

અમે automation અને human reviewનો ઉપયોગ કરીને સક્રિય રીતે ઉપયોગના પેટર્નનું મોનિટરિંગ કરતાં, લોકોને તેઓ અમારી માર્ગદર્શિકાઓનું ઉલ્લંઘન કરતી હોઈ શકે એવું માને તેવી Sora વિડિયોઝની જાણ કરવા⁠ ક્ષમતા આપીએ છીએ. અમે ઉલ્લંઘનકારી વિડિયોઝ દૂર કરવા અને વપરાશકર્તાઓને દંડિત કરવા માટે અમલીકરણ મિકૅનિઝમ્સ સ્થાપિત કર્યા છે. જ્યારે વપરાશકર્તાઓ અમારી માર્ગદર્શિકાઓનું ઉલ્લંઘન કરે છે, ત્યારે અમે તેમને સૂચિત કરીશું અને તેઓ શું ન્યાયસંગત માને છે તે અમને કહેવાની તક આપીશું. અમે સમયાંતરે આ mitigationsની અસરકારકતાને ટ્રૅક કરવા અને તેમને વધુ પરિષ્કૃત કરવાની યોજના રાખીએ છીએ.

ચોક્કસ જોખમ ક્ષેત્રો અને mitigations

ઉપરોક્ત સામાન્ય સુરક્ષા પગલાંઓ ઉપરાંત, પ્રારંભિક પરીક્ષણ અને મૂલ્યાંકનથી સુરક્ષાના ખાસ ધ્યાન માટેના કેટલાક ક્ષેત્રો ઓળખવામાં મદદ મળી.

બાળ સુરક્ષા

OpenAI ઉંડા પ્રતિબદ્ધતાથી સંબોધે છે⁠³ બાળ સુરક્ષા જોખમોને, અને Sora સહિત અમારા તમામ પ્રોડક્ટ્સમાં Child Sexual Abuse Material⁠(નવી વિન્ડોમાં ખૂલે છે) (CSAM) સામગ્રીની રોકથામ, શોધ અને રિપોર્ટિંગને અમે પ્રાથમિકતા આપીએ છીએ. બાળ સુરક્ષા ક્ષેત્રમાં OpenAIના પ્રયત્નોમાં CSAMથી datasetsને સુરક્ષિત રાખવા માટે જવાબદાર રીતે ડેટાસેટ્સ મેળવવા, બાળક યૌન શોષણ રોકવા અને બાળકોનું રક્ષણ કરવા માટે National Center for Missing & Exploited Children (NCMEC) સાથે ભાગીદારી, Thornની ભલામણો અનુસાર અને કાનૂની મર્યાદાઓનું પાલન કરીને રેડ ટીમિંગ, તેમજ તમામ ઇનપુટ્સ અને આઉટપુટ્સમાં CSAM માટે મજબૂત સ્કેનિંગનો સમાવેશ થાય છે. તેમાં first party અને third party users (API અને Enterprise)નું સ્કેનિંગ પણ શામેલ છે, સિવાય કે ગ્રાહકો CSAM scanning દૂર કરવા માટેના કડક માપદંડો પૂર્ણ કરે. CSAMના જનરેશનને રોકવા માટે, અમે મજબૂત safety stack બનાવ્યો છે, જેમાં ChatGPT અને DALL·E⁴ જેવી અમારી અન્ય પ્રોડક્ટ્સમાં ઉપયોગમાં લેવાતી system mitigations તેમજ ખાસ Sora માટે બનાવેલા કેટલાક વધારાના ઉપાયોનો લાભ લેવાયો છે.

ઇનપુટ classifiers

બાળ સુરક્ષા માટે અમે ટેક્સ્ટ, છબી અને વિડિયો ઇનપુટમાં 3 અલગ અલગ input mitigationsનો ઉપયોગ કરીએ છીએ:

તમામ છબી અને વિડિયો અપલોડ્સ માટે, જાણીતા CSAM સાથે મેળ શોધવા માટે અમે Thorn દ્વારા વિકસિત Safer સાથે એકીકૃત છીએ. પુષ્ટિ થયેલા મેળોને નકારી કાઢવામાં આવે છે અને NCMECને રિપોર્ટ કરવામાં આવે છે. ઉપરાંત, સંભવિત નવા, unhashed CSAM સામગ્રી ઓળખવા માટે અમે Thornના CSAM classifierનો ઉપયોગ કરીએ છીએ.
ટેક્સ્ટ, છબી અને વિડિયો ઇનપુટ દ્વારા નાબાલિગોને સામેલ કરતી કોઈપણ યૌન સામગ્રી ઓળખવા અને moderate કરવા માટે અમે multi-modal moderation classifierનો ઉપયોગ કરીએ છીએ.
Sora માટે, અમે ટેક્સ્ટ અને છબીઓનું વિશ્લેષણ કરતું classifier વિકસાવ્યું છે, જે આગાહી કરે છે કે 18 વર્ષથી ઓછી વયનો વ્યક્તિ દર્શાવવામાં આવ્યો છે કે નહીં અથવા સાથેનું caption નાબાલિગનો ઉલ્લેખ કરે છે કે નહીં. under-18 વ્યક્તિઓ ધરાવતી image-to-video વિનંતીઓને અમે નકારી કાઢીએ છીએ. જો text-to-videoને under 18 તરીકે નિર્ધારિત કરવામાં આવે, તો યૌન, હિંસક અથવા સ્વ-હાનિ સંબંધિત moderation માટે અમે ઘણાં વધુ કડક thresholds લાગુ કરીએ છીએ.

નીચે માનવો માટેના અમારા under-18 classifierનું મૂલ્યાંકન છે. અમે [child | adult] અને [realistic | fictitious] શ્રેણીઓમાં લગભગ 5000 છબીઓ ધરાવતા dataset પર realistic under-18 વ્યક્તિઓને નકારવા માટે અમારા classifierનું મૂલ્યાંકન કરીએ છીએ. અમારી નીતિ અનુસાર realistic બાળકોને નકારવામાં આવે છે, જ્યારે animated, cartoon અથવા sketch style સહિતની fictitious છબીઓને, જો તે અયૌન હોય, મંજૂરી આપવામાં આવે છે. નાબાલિગોને સામેલ કરતી સામગ્રી અંગે અમે સાવધ અભિગમ અપનાવ્યો છે, અને પ્રોડક્ટ ઉપયોગ દ્વારા વધુ શીખતા શીખતા તથા સર્જનાત્મક અભિવ્યક્તિ અને સુરક્ષા વચ્ચે યોગ્ય સંતુલન શોધતા અમારી રીતનું મૂલ્યાંકન ચાલુ રાખીશું.

હાલમાં, અમારા classifiers ખૂબ જ ચોક્કસ છે, પરંતુ ક્યારેક ભૂલથી વયસ્કો અથવા બાળકોની અ-વાસ્તવિક છબીઓને ફ્લેગ કરી શકે છે. વધુમાં, અમે સ્વીકારીએ છીએ કે અભ્યાસો અને હાલના સાહિત્ય દર્શાવે છે કે age prediction modelsમાં જાતિ આધારિત bias જોવા મળી શકે છે. ઉદાહરણ તરીકે, આ મોડેલ્સ કેટલીક જાતિ જૂથોના લોકોની વયનું પદ્ધતિસર ઓછું આકલન કરી શકે છે.⁵ અમે આગામી મહિનાઓમાં અમારા classifierના પ્રદર્શનને સુધારવા, false positives ઘટાડવા અને સંભવિત bias વિશેની અમારી સમજને વધુ ઊંડી બનાવવામાં પ્રતિબદ્ધ છીએ.

	Expected outcome	n_samples	count (is_child)	count (not_child)	Evaluated metrics
Realistic Child	Classify images as “is child”	1589	1555	34	Accuracy: 97.86%
Realistic Adult	Classify images as “not child”	1370	36	1334	Accuracy: 99.28%
Fictitious Adult	Classify images as “not child”	965	7	958	Accuracy: 97.37%
Fictitious Child	Classify images as “not child”	1050	323	727	Accuracy: 69.24%
Total		4974	1921	3053	Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

આઉટપુટ

ઉપર જણાવ્યા મુજબ, જ્યારે અમે under-18 classifier દ્વારા ટેક્સ્ટ ઇનપુટમાં નાબાલિગોનો ઉલ્લેખ ઓળખીએ છીએ, ત્યારે આઉટપુટમાં યૌન, હિંસક અથવા સ્વ-હાનિ સંબંધિત સામગ્રી માટે અમે કડક moderation thresholds લાગુ કરીએ છીએ. આ હાંસલ કરવા માટે નીચે બે output classifiersનો અમે ઉપયોગ કરીએ છીએ:

Multi modal moderation classifier, જે અસુરક્ષિત વિડિયો આઉટપુટ્સ માટે સ્કેન કરે છે અને ખાસ સંવેદનશીલ હોઈ શકે તેવી વિનંતીઓને નકારે છે.
બાળ સુરક્ષાથી સંબંધિત ઉલ્લંઘનો માટે સ્કેન કરવા અમે અમારી હાલની DALL·E image classifierનો પણ ઉપયોગ કરી રહ્યા છીએ.

અમારા output classifiers પ્રતિ સેકન્ડ 2 frames સ્કેન કરે છે અને જ્યારે વિડિયોને અસુરક્ષિત તરીકે નક્કી કરે છે, ત્યારે અમે કોઈપણ આઉટપુટ અવરોધિત કરીએ છીએ.

અમારા classifiers અને automated moderation ઉપરાંત, સંભવિત બાળ સુરક્ષા ઉલ્લંઘનો સામે સુરક્ષાના વધારાના સ્તર તરીકે અમે માનવીય સમીક્ષા પણ રાખીશું.

પ્રોડક્ટ નીતિ

અમારી નીતિઓ નાબાલિગો સાથે સંબંધિત યૌન સામગ્રીના જનરેશન માટે Soraનો ઉપયોગ પ્રતિબંધિત કરે છે. અમારી બાળ સુરક્ષા નીતિઓના ઉલ્લંઘનથી સામગ્રી દૂર થઈ શકે છે અને વપરાશકર્તાને પ્રતિબંધિત કરી શકાય છે.

નગ્નતા અને સૂચક સામગ્રી

AI વિડિયો જનરેશન ક્ષમતાઓ સાથે જોડાયેલા ઉભરતા જોખમ ક્ષેત્રોમાંનું એક NSFW (Not Safe for Work) અથવા NCII (Non-Consensual Intimate Imagery) સામગ્રીનું સંભવિત સર્જન છે. DALL·Eના અભિગમની જેમ, Sora સ્પષ્ટ સામગ્રીને અવરોધવા માટે multi-tiered moderation strategyનો ઉપયોગ કરે છે. તેમાં prompt transformations, image output classifiers અને blocklistsનો સમાવેશ થાય છે, જે મળીને એવું સિસ્ટમ બનાવે છે જે સૂચક સામગ્રીને મર્યાદિત કરે છે, ખાસ કરીને વય-યોગ્ય આઉટપુટ્સ માટે. અમારા classifiers માટે thresholds ટેક્સ્ટ આધારિત પ્રોમ્પ્ટ્સ કરતાં image uploads માટે વધુ કડક છે.

Explore વિભાગમાં દર્શાવાતા વિડિયોઝને વધુ વ્યાપક પ્રેક્ષકો માટે યોગ્ય viewing experience આપવા માટે વધારે કડક thresholds સાથે વધુ ફિલ્ટર કરવામાં આવે છે.

નીચે નગ્નતા અને સૂચક સામગ્રી અંગેના અમારા મૂલ્યાંકનના પરિણામો આપેલા છે, જે ઇનપુટ્સ અને આઉટપુટ્સમાં બહુસ્તરીય mitigationની અસરકારકતા આંકવા માટે બનાવવામાં આવ્યા છે. મળેલા નિષ્કર્ષોના આધારે, અમે અમારા thresholdsમાં સુધારો કર્યો છે અને લોકો ધરાવતા અપલોડ્સવાળી છબીઓ માટે વધુ કડક moderation લાગુ કરી છે.

શ્રેણી	*ચોકસાઈ (ઇનપુટ સમયે)**	*ચોકસાઈ (આઉટપુટ સમયે, એટલે કે E2E)**
નગ્નતા અને સૂચક સામગ્રી	97.25%	97.59%

મૂલ્યાંકન સમજૂતી:

N = ઉલ્લંઘનકારી નમૂનાઓની કુલ સંખ્યા (~200 પ્રતિ શ્રેણી)
I = ઇનપુટ moderation checksમાંથી પસાર થયેલા ઉલ્લંઘનકારી નમૂનાઓની કુલ સંખ્યા
O = આઉટપુટ moderation checksમાંથી પસાર થયેલા ઉલ્લંઘનકારી નમૂનાઓની કુલ સંખ્યા

ઇનપુટ સમયે ચોકસાઈ = (N - I) / N
આઉટપુટ સમયે ચોકસાઈ (E2E) = (N - O) / N

પ્રોડક્ટ નીતિ

અમારી નીતિઓ Soraનો ઉપયોગ સ્પષ્ટ યૌન સામગ્રી, જેમાં સંમતિ વિના બનેલી અંગત છબીઓનો સમાવેશ થાય છે, બનાવવા માટે પ્રતિબંધિત કરે છે. આ નીતિઓના ઉલ્લંઘનથી સામગ્રી દૂર થઈ શકે છે અને વપરાશકર્તા સામે દંડાત્મક કાર્યવાહી થઈ શકે છે.

ભ્રામક સામગ્રી

Likenessનો દુરુપયોગ અને હાનિકારક deepfakes

likeness આધારિત પ્રોમ્પ્ટ્સ માટે Soraનું moderation monitor સંભવિત હાનિકારક deepfake સામગ્રીને ફ્લેગ કરવા માટે બનાવવામાં આવ્યું છે, જેથી ઓળખી શકાય તેવી વ્યક્તિઓ ધરાવતા વિડિયોની નજીકથી સમીક્ષા થઈ શકે. Likeness Misuse filter વધુમાં એવા પ્રોમ્પ્ટ્સને ફ્લેગ કરે છે, જે વ્યક્તિઓને સંભવિત રીતે હાનિકારક અથવા ભ્રામક રીતોમાં બદલવાનો કે દર્શાવવાનો પ્રયાસ કરે છે. Soraના સામાન્ય prompt transformations એ જોખમને વધુ ઘટાડે છે કે કોઈના નામ ધરાવતા પ્રોમ્પ્ટના આધારે Sora ખાનગી વ્યક્તિનું અનિચ્છનીય likeness જનરેટ કરશે.

ભ્રામક સામગ્રી

Soraના ઇનપુટ અને આઉટપુટ classifiers એવી ભ્રામક ચૂંટણી-સંબંધિત સામગ્રીના જનરેશનને રોકવા માટે બનાવવામાં આવ્યા છે, જે છેતરપીંડીયુક્ત, અનૈતિક અથવા અન્યથા ગેરકાયદેસર પ્રવૃત્તિ દર્શાવે છે. Soraના evaluation metricsમાં એવા classifiersનો સમાવેશ થાય છે, જે ચૂંટણીના સંદર્ભમાં ભ્રામક વિડિયોઝ પેદા કરી શકે તેવી style અથવા filter ટેક્નિક્સને ફ્લેગ કરે છે, જેથી વાસ્તવિક દુનિયામાં દુરુપયોગનો જોખમ ઘટે.

નીચે અમારી deceptive election content LLM filter માટેના મૂલ્યાંકનો આપેલા છે, જે વિવિધ ઇનપુટ્સમાં (ઉદાહરણ તરીકે ટેક્સ્ટ અને વિડિયો) પ્રતિબંધિત સામગ્રી બનાવવાનો ઇરાદો હોઈ શકે એવા કેસોને ઓળખવામાં મદદ પર કેન્દ્રિત છે. સંભવિત આઉટપુટ ઉલ્લંઘનો આંકવા માટે અમારી સિસ્ટમ પ્રતિ સેકન્ડ 1 frame આઉટપુટ વિડિયો પણ સ્કેન કરે છે.

ક્લાસિફાયર	રીકોલ	પ્રિસિઝન	ફ્લેગ થાય ત્યારે પરિણામ
ભ્રામક ચૂંટણી સામગ્રી	98.23%	88.80%	આઉટપુટ જનરેટ કરવાનું અવરોધો

N=~500, કૃત્રિમ ડેટા પ્રોમ્પ્ટ્સના આધારે

Provenanceમાં રોકાણ

Sora સાથે જોડાયેલા ઘણા જોખમો, જેમ કે હાનિકારક deepfake સામગ્રી, ખૂબ જ સંદર્ભ આધારિત હોવાથી, અમે અમારા provenance toolsને મજબૂત બનાવવાનું પ્રાથમિક બનાવ્યું છે. અમે સ્વીકારીએ છીએ કે provenance માટે એકમાત્ર ઉકેલ નથી, પરંતુ provenance ecosystemને સુધારવા અને Soraથી બનાવાયેલી સામગ્રીમાં સંદર્ભ તથા પારદર્શિતા ઉભી કરવામાં મદદ કરવા માટે પ્રતિબદ્ધ છીએ.

સામાન્ય ઉપલબ્ધતા માટે, અમારી provenance safety toolingમાં આનો સમાવેશ થશે:

બધી assets પર C2PA metadata (ચકાસી શકાય તેવું સ્ત્રોત, ઉદ્યોગ ધોરણ)
ડિફૉલ્ટ રૂપે animated visible Sora watermarks (દર્શકો માટે પારદર્શિતા કે આ ‘AI’ છે)
આંતરિક reverse video search tool, જેથી OpenAIની Intelligence & Investigation ટીમના સભ્યો ઉચ્ચ વિશ્વાસ સાથે આંકી શકે કે સામગ્રી Sora દ્વારા બનાવાઈ છે કે નહીં.

પ્રોડક્ટ નીતિ

અમારી નીતિઓ Soraનો ઉપયોગ અન્ય લોકોને છેતરવા, ઠગવા અથવા ભ્રમિત કરવા માટે પ્રતિબંધિત કરે છે, જેમાં disinformationનું સર્જન અને પ્રસારણ પણ સમાવેશ થાય છે. તે બીજી વ્યક્તિના likenessનો તેમની પરવાનગી વિના ઉપયોગ કરવાનું પણ પ્રતિબંધિત કરે છે. આ નીતિઓના ઉલ્લંઘનથી સામગ્રી દૂર થઈ શકે છે અને વપરાશકર્તા સામે દંડાત્મક કાર્યવાહી થઈ શકે છે.

કલાકારી શૈલીઓ

જ્યારે વપરાશકર્તા પ્રોમ્પ્ટમાં જીવિત કલાકારનું નામ ઉપયોગમાં લે છે, ત્યારે મોડલ એવો વિડિયો જનરેટ કરી શકે છે કે જે કોઈ રીતે તે કલાકારના કાર્યોની શૈલી સાથે સામ્ય ધરાવે. સર્જનાત્મક ક્ષેત્રમાં અન્ય કલાકારોની શૈલી પરથી નિર્માણ કરવાની ખૂબ લાંબી પરંપરા છે, છતાં અમને સમજ છે કે કેટલાક સર્જકોને ચિંતા હોઈ શકે. સર્જનાત્મક સમુદાય Soraનો કેવી રીતે ઉપયોગ કરે છે તે વિશે વધુ શીખતાં શીખતાં અમે Soraના આ સંસ્કરણ માટે વધુ સાવધ અભિગમ અપનાવ્યો છે. આનો સામનો કરવા માટે, અમે એવા prompt re-writes ઉમેર્યા છે, જે વપરાશકર્તા જીવિત કલાકારની શૈલીમાં વિડિયો જનરેટ કરવાનો પ્રયાસ કરે ત્યારે સક્રિય થાય તેવી રીતે ડિઝાઇન કરવામાં આવ્યા છે.

અમારા અન્ય પ્રોડક્ટ્સની જેમ, Sora Editor સબમિટ કરાયેલ ટેક્સ્ટને ફરીથી લખવા માટે LLMનો ઉપયોગ કરે છે જેથી Soraને વધુ અસરકારક રીતે પ્રોમ્પ્ટ કરી શકાય. આ પ્રક્રિયા અમારી માર્ગદર્શિકાઓનું પાલન પ્રોત્સાહિત કરે છે, જેમાં જાહેર વ્યક્તિઓના નામ દૂર કરવું, લોકોને ચોક્કસ લક્ષણો સાથે ગ્રાઉન્ડિંગ કરવું અને બ્રાન્ડેડ વસ્તુઓને સામાન્ય રીતે વર્ણવવું સામેલ છે. અમે વિવિધ શ્રેણીઓમાં ટેક્સ્ટ્યુઅલ blocklists જાળવી રાખીએ છીએ, જે DALL·E 2 અને DALL·E 3 પરના અમારા અગાઉના કાર્ય, સક્રિય જોખમ શોધ અને રેડ ટીમર્સ તથા પ્રારંભિક વપરાશકર્તાઓના પરિણામોથી માહિતગાર છે.

આગામી કાર્ય

OpenAI તેના પ્રોડક્ટ્સનું જવાબદાર અને અસરકારક રોલ-આઉટ સુનિશ્ચિત કરવા માટે iterative deployment strategy અપનાવે છે. આ અભિગમ તબક્કાવાર રોલઆઉટ્સ, સતત પરીક્ષણ અને વપરાશકર્તા પ્રતિસાદ તથા વાસ્તવિક ડેટા સાથે સતત મોનિટરિંગને જોડે છે, જેથી સમય જતાં અમારી કામગીરી અને સુરક્ષા-નિવારક વ્યવસ્થાઓને પરિષ્કૃત અને સુધારી શકાય. નીચે Sora માટે અમારી iterative deploymentના ભાગરૂપે કરવાની યોજના ધરાવતા કાર્યોની શ્રેણી આપેલી છે.

Likeness પાઇલટ

વાસ્તવિક વ્યક્તિના અપલોડ કરેલા ફોટો અથવા વિડિયોને “seed” તરીકે ઉપયોગ કરીને વિડિયો જનરેટ કરવાની ક્ષમતા સંભવિત દુરુપયોગનું એક માધ્યમ છે, જેના માટે અમે ઉપયોગના પ્રારંભિક પેટર્નમાંથી શીખવા ખાસ તબક્કાવાર અભિગમ અપનાવી રહ્યા છીએ. કલાકારો પાસેથી મળેલા પ્રારંભિક પ્રતિસાદ દર્શાવે છે કે આ એક શક્તિશાળી સર્જનાત્મક સાધન છે જેને તેઓ મૂલ્યવાન માને છે, પરંતુ દુરુપયોગની સંભાવનાને ધ્યાનમાં રાખીને, અમે શરૂઆતમાં તેને બધા વપરાશકર્તાઓ માટે ઉપલબ્ધ બનાવી રહ્યા નથી. તેના બદલે, અમારી iterative deployment પદ્ધતિને અનુરૂપ, લોકોની છબીઓ અથવા વિડિયોઝ અપલોડ કરવાની ક્ષમતા વપરાશકર્તાઓના એક ઉપસમૂહ માટે ઉપલબ્ધ કરાશે અને Sora સમુદાય માટે તેની કિંમત સમજવા તેમજ શીખતા શીખતા સુરક્ષાપ્રત્યેનો અમારો અભિગમ સમાયોજિત કરવા માટે અમે સક્રિય અને ઊંડું મોનિટરિંગ રાખીશું. આ પરીક્ષણ દરમિયાન નાબાલિગોની છબીઓ ધરાવતા અપલોડ્સને મંજૂરી આપવામાં આવશે નહીં.

Provenance અને પારદર્શિતા પહેલો

Soraના ભવિષ્યના આવર્તનો reverse embedding search tools પરના સંશોધન અને C2PA જેવી પારદર્શિતા પગલાંઓના સતત અમલીકરણ દ્વારા traceabilityને વધુ મજબૂત બનાવતા રહેશે. Provenance ecosystemને વિસ્તૃત અને સુધારવા તેમજ Sora માટેના અમારા આંતરિક reverse image toolનું પરીક્ષણ કરવા માટે NGOs અને research organizations સાથે સંભવિત ભાગીદારીઓ શોધવા માટે અમે ઉત્સાહિત છીએ.

અમારા આઉટપુટમાં પ્રતિનિધિત્વનો વિસ્તાર

અમે prompt refinements, feedback loops અને અસરકારક mitigationsની સતત ઓળખ દ્વારા સંભવિત output bias ઘટાડવા પ્રતિબદ્ધ છીએ—અને એ માન્યતા સાથે કે અતિ-સુધારણાઓ પણ સમાન રીતે હાનિકારક બની શકે છે. અમે body image bias અને demographic representation જેવી પડકારોને સ્વીકારીએ છીએ અને સંતુલિત તથા સમાવેશક outputs સુનિશ્ચિત કરવા માટે અમારા અભિગમને વધુ પરિષ્કૃત કરતા રહીશું.

સતત સુરક્ષા, નીતિ અને નૈતિક સંકલન

OpenAI Soraના સતત મૂલ્યાંકનો જાળવી રાખવાની અને OpenAIની નીતિઓ તથા સુરક્ષા ધોરણો પ્રત્યે Soraનું પાલન વધુ સુધારવાના પ્રયત્નો કરવાની યોજના ધરાવે છે. likeness safety અને ભ્રામક સામગ્રી જેવા ક્ષેત્રોમાં વધારાના સુધારા પણ આયોજન હેઠળ છે, જે વિકસતી શ્રેષ્ઠ પદ્ધતિઓ અને વપરાશકર્તા પ્રતિસાદ દ્વારા માર્ગદર્શિત રહેશે.

આભારસ્વીકાર

OpenAIની આંતરિક તમામ ટીમોનો આભાર, જેમાં Comms, Comms Design, ગ્લોબલ અફેર્સ, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems અને User Opsનો સમાવેશ થાય છે, જેમના સહકારથી Soraની સુરક્ષા-નિવારક વ્યવસ્થાઓ વિકસાવવા અને અમલમાં મૂકવામાં તેમજ આ સિસ્ટમ કાર્ડમાં તેમના યોગદાનમાં મહત્વપૂર્ણ મદદ મળી.

અમારા Alpha કલાકારોના જૂથ અને અમારા નિષ્ણાત રેડ ટીમર્સનો અમે આભારી છીએ, જેમણે પ્રતિસાદ આપ્યો, વિકાસના પ્રારંભિક તબક્કામાં અમારા મોડેલ્સનું પરીક્ષણ કરવામાં મદદ કરી અને અમારા જોખમ મૂલ્યાંકન અને આકલનોને માહિતગાર કર્યા. પરીક્ષણ પ્રક્રિયામાં ભાગ લેવું OpenAIની તૈનાતી યોજનાઓ અથવા OpenAIની નીતિઓનું સમર્થન નથી.

રેડ ટીમિંગ વ્યક્તિઓ (અક્ષરક્રમ મુજબ): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
રેડ ટીમિંગ સંસ્થાઓ: ScaleAI

લેખકો

OpenAI

સંદર્ભો

1
OpenAI. વિશ્વ સિમ્યુલેટર તરીકે વિડિયો જનરેશન મોડેલ્સ.⁠
2
OpenAI. (n.d.). અમારા નવા Multimodal Moderation મોડલ સાથે Moderation APIને અપગ્રેડ કરવું⁠. 2024
3
OpenAI. (n.d.). બાળ સુરક્ષા: SBD સિદ્ધાંતો અપનાવવું⁠. OpenAI. Retrieved December 6, 2024
4
OpenAI. DALL·E 3 સિસ્ટમ કાર્ડ⁠. 2023.
5
Panić, N., Marjanović, M., & Bezdan, T. (2024). ઓપ્ટિમાઇઝ્ડ dataset composition દ્વારા વય આકલન મોડેલ્સમાં લોકસાંખ્યિક પક્ષપાતને સંબોધવું⁠(નવી વિન્ડોમાં ખૂલે છે). Mathematics, 12(15), 2358.