ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

టెక్స్ట్ నుండి వీడియో సృష్టించడం

ఈ పేజీలో ఉన్న అన్ని వీడియోలు ఎలాంటి మార్పులు లేకుండా నేరుగా Sora ద్వారా రూపొందించబడ్డాయి.

లోడ్ అవుతోంది…

మేము AIకి కదలికలో ఉన్న భౌతిక ప్రపంచాన్ని అర్థం చేసుకోవడం మరియు సిమ్యులేట్ చేయడం నేర్పిస్తున్నాము, దీని లక్ష్యం నిజమైన ప్రపంచ ఇంటరాక్షన్ అవసరమైన సమస్యలను పరిష్కరించడానికి సహాయపడే మోడల్స్‌ను ట్రైన్ చేయడం.

మా టెక్స్ట్-టు-వీడియో మోడల్ Soraని పరిచయం చేస్తున్నాం. Sora ఒక నిమిషం వరకు ఉన్న వీడియోలను, దృశ్య నాణ్యతను మరియు యూజర్ సూచనలను పాటిస్తూ సృష్టించగలదు.

ఈ రోజు నుండి, హానులు లేదా ప్రమాదాలను అంచనా వేయడానికి కీలక ప్రాంతాలను పరిశీలించేందుకు Sora‌ను రెడ్ టీమర్లకు అందుబాటులోకి తీసుకువస్తున్నారు.సృజనాత్మక వృత్తిపరులకు అత్యంత ఉపయోగకరంగా మోడల్‌ను అభివృద్ధి చేసేందుకు ఫీడ్‌బ్యాక్ పొందడానికి, అనేక విజువల్ ఆర్టిస్ట్‌లు, డిజైనర్‌లు, ఫిల్మ్‌మేకర్‌లకు కూడా యాక్సెస్‌ని ఇస్తున్నాం.

OpenAI వెలుపల ఉన్న వ్యక్తులతో కలిసి పని చేయడం, ఫీడ్‌బ్యాక్ పొందడం ప్రారంభించడానికి మరియు ప్రజలకు భవిష్యత్తులో AI సామర్థ్యాలు ఏమిటో అర్థమయ్యేలా చేయడానికి, మేము మా రీసెర్చ్ పురోగతిని ముందుగా షేర్ చేస్తున్నాం.

Sora అనేక క్యారెక్టర్‌లు, ప్రత్యేకమైన మోషన్‌లు, అలాగే సబ్జెక్ట్ మరియు బ్యాక్‌గ్రౌండ్‌కు సంబంధించిన ఖచ్చితమైన వివరాలతో కూడిన క్లిష్టమైన సీన్లను కూడా రూపొందించగలదు.మోడల్‌కు యూజర్ ప్రాంప్ట్‌లో ఏం కోరాడో మాత్రమే కాదు, ఆ విషయాలు నిజ జీవితంలో ఎలా ఉంటాయో కూడా అర్థమవుతుంది.

ఈ మోడల్‌కి భాషపై లోతైన అవగాహన ఉంది, దాంతో ప్రాంప్ట్‌లను ఖచ్చితంగా అర్థం చేసుకుని, స్పష్టమైన భావోద్వేగాలను వ్యక్తం చేసే ఆకట్టుకునే క్యారెక్టర్లను సృష్టించగలదు. Sora ఒకే జనరేటెడ్ వీడియోలో అనేక షాట్స్ సృష్టించగలదు, అవి క్యారెక్టర్లను మరియు విజువల్ స్టైల్‌ను ఖచ్చితంగా కొనసాగిస్తాయి.

ప్రస్తుత మోడల్‌లో ఇంకా మెరుగుదలకు స్థలం ఉంది. సంక్లిష్టమైన సన్నివేశం యొక్క ఫిజిక్స్‌ను సిమ్యులేట్ చేయడంలో ఇది ఇబ్బంది పడవచ్చు, మరియు కారణం-ప్రభావం వంటి నిర్దిష్ట సందర్భాలను అర్థం చేసుకోకపోవచ్చు (ఉదాహరణకు: ఒక క్యారెక్టర్ కుకీని కొరుకుతున్న తర్వాత దానిపై గుర్తు కనిపించకపోవచ్చు). మోడల్ ప్రాంప్ట్‌లోని స్థల సంబంధిత వివరాలను కూడా గందరగోళం చేయవచ్చు, ఉదాహరణకు ఎడమను కుడితో వేరుచేయడం, లేదా కాలంతో పాటు జరిగే ఘటనల సరిగ్గా వివరాలను, ఉదాహరణకు ప్రత్యేక క్యామరా మార్గాలను సరిగ్గా వివరిస్తూ సమస్యను ఎదుర్కోవచ్చు.

సేఫ్టీ

Soraని OpenAI ప్రొడక్ట్స్‌లో అందుబాటులోకి తేవడానికి ముందుగా మేము అనేక ముఖ్యమైన సేఫ్టీ చర్యలు తీసుకుంటాము. మేము రెడ్ టీమర్స్‌తో — మిస్ఇన్ఫర్మేషన్, హేట్ఫుల్ కాంటెంట్, బైయాస్ వంటి రంగాల్లో డొమైన్ ఎక్స్‌పర్ట్స్‌తో — కలిసి పనిచేస్తున్నాం. వారు మోడల్‌ను ఎడ్వర్సేరియల్‌గా టెస్ట్ చేస్తారు.

మభ్యపెట్టే కంటెంట్‌ను గుర్తించడానికి సహాయపడే టూల్స్‌ను కూడా మేము రూపొందిస్తున్నాం, ఉదాహరణకు వీడియో Sora ద్వారా రూపొందించబడిందో లేదో చెప్పగల డిటెక్షన్ క్లాసిఫైయర్‌.OpenAI ప్రొడక్ట్‌లో మోడల్‌ను విడుదల చేసినప్పుడు భవిష్యత్తులో C2PA metadata(కొత్త విండోలో తెరుచుకుంటుంది)ను కూడా చేర్చాలని మా ప్లాన్.

మేము విస్తరణ కోసం సిద్ధం చేయడానికి కొత్త పద్ధతులను అభివృద్ధి చేయడంతో పాటు, DALL·E 3 ను ఉపయోగించే మా ప్రొడక్ట్‌ల కోసం మేము నిర్మించిన ఇప్పటికే ఉన్న భద్రతా పద్ధతులను(కొత్త విండోలో తెరుచుకుంటుంది) ఉపయోగిస్తున్నాము, ఇవి Sora కు కూడా వర్తిస్తాయి.

ఉదాహరణకు, ఒకసారి OpenAI ప్రొడక్ట్‌లో వాడినప్పుడు, మా టెక్స్ట్ క్లాసిఫైయర్ మా యూజేజ్ పాలిసీలకు విరుద్ధంగా ఉన్న టెక్స్ట్ ఇన్‌పుట్ ప్రాంప్ట్‌లను చెక్ చేసి తిరస్కరిస్తుంది — ఉదా: తీవ్ర హింస, సెక్సువల్ కాంటెంట్, హేట్ఫుల్ ఇమేజరీ, సెలబ్రిటీ లైక్నెస్, లేదా ఇతరుల IP కోసం చేసిన అభ్యర్థనలు. యూజర్‌కి చూపే ముందు ప్రతి జనరేటెడ్ వీడియో ఫ్రేమ్‌లను రివ్యూ చేయడానికి, మా యూజేజ్ పాలిసీలకు అనుగుణంగా ఉందని నిర్ధారించడానికి మేము రాబస్ట్ ఇమేజ్ క్లాసిఫైయర్‌లను కూడా అభివృద్ధి చేశాం.

ఈ కొత్త టెక్నాలజీకి సంబంధించి వారి ఆందోళనలు అర్థం చేసుకోవడానికి, సానుకూల యూజ్ కేసులను గుర్తించడానికి ప్రపంచవ్యాప్తంగా పాలిసీ మేకర్స్, ఎడ్యుకేటర్స్, ఆర్టిస్టులతో మేము మమేకమవుతాం. విస్తృతమైన రీసెర్చ్ మరియు టెస్టింగ్ చేసినప్పటికీ, ప్రజలు మా టెక్నాలజీని ఉపయోగించే అన్ని ప్రయోజనకరమైన మార్గాలను, లేదా దాన్ని దుర్వినియోగం చేసే అన్ని మార్గాలను మేము అంచనా వేయలేము. అందుకే, కాలక్రమేణా మరింత సురక్షితమైన AI సిస్టమ్స్ సృష్టించడం మరియు విడుదల చేయడంలో వాస్తవిక-ప్రపంచ వినియోగం నుండి నేర్చుకోవడం ఒక కీలకమైన అంశమని మేము నమ్ముతున్నాం.

రీసెర్చ్ టెక్నిక్స్

Sora ఒక డిఫ్యూజన్ మోడల్, ఇది మొదట స్టాటిక్ నాయిస్‌లా కనిపించే వీడియోతో ప్రారంభించి, అనేక స్టెప్‌లలో నాయిస్‌ను తీసేస్తూ నెమ్మదిగా నిజమైన వీడియోగా మార్చుతుంది.

Sora ఒకేసారి మొత్తం వీడియోలను సృష్టించగలదు లేదా ఇప్పటికే సృష్టించిన వీడియోలను పొడిగించగలదు. మోడల్‌కి ఒకేసారి అనేక ఫ్రేమ్‌ల ఫోర్‌సైట్ ఇవ్వడం ద్వారా, సబ్జెక్ట్ తాత్కాలికంగా ఫ్రేమ్ వెలుపలకి వెళ్లినా అది స్థిరంగా ఉండేలా చేసే సవాళ్లను మేము పరిష్కరించాం.

GPT మోడల్స్‌లాగే, Sora ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్‌ను ఉపయోగిస్తుంది, దీని వల్ల ఉన్నతమైన స్కేలింగ్ పనితీరు సాధ్యమవుతుంది.

వీడియోలు మరియు ఇమేజ్‌లను చిన్న డేటా యూనిట్‌ల సమూహాలుగా చూపిస్తాం. వీటిని ప్యాచ్‌లు అని అంటారు. ప్రతి ప్యాచ్, GPTలో ఉండే ఒక టోకెన్ లానే పనిచేస్తుంది.డేటాను చూపించే విధానాన్ని ఒకటిగా చేసుకోవడం వల్ల, వివిధ వ్యవధులు, రెసల్యూషన్‌లు, ఆస్పెక్ట్ రేషియోలను కవర్ చేసే విస్తృతమైన విజువల్ డేటాపై డిఫ్యూజన్ ట్రాన్స్‌ఫార్మర్‌లను ఇప్పటివరకు సాధ్యం కానంతగా ట్రైన్ చేయగలుగుతున్నాం.

Sora, DALL·E మరియు GPT మోడల్స్‌లోని గత రీసెర్చ్‌పై నిర్మించబడింది. ఇది DALL·E 3లోని రీక్యాప్షనింగ్ టెక్నిక్‌ని ఉపయోగిస్తుంది, ఇది విజువల్ ట్రైనింగ్ డేటాకు అత్యంత వివరణాత్మకమైన క్యాప్షన్‌లను సృష్టించడాన్ని కలిగి ఉంటుంది. దాని ఫలితంగా, జనరేటెడ్ వీడియోలో యూజర్ టెక్స్ట్ సూచనలను మోడల్ మరింత ఖచ్చితంగా అనుసరిస్తుంది.

టెక్స్ట్ ఇన్‌స్ట్రక్షన్‌లతోనే వీడియోను రూపొందించగల సామర్థ్యంతో పాటు, ఈ మోడల్ ఇప్పటికే ఉన్న స్టిల్ ఇమేజ్‌ను తీసుకుని దాని ఆధారంగా వీడియోను కూడా సృష్టించగలదు. ఇమేజ్‌లోని కంటెంట్‌ను చిన్న వివరాల వరకూ ఖచ్చితంగా యానిమేట్ చేస్తుంది.మోడల్ ఇప్పటికే ఉన్న వీడియోని తీసుకుని దాన్ని పొడిగించగలదు లేదా మిస్సింగ్ ఫ్రేమ్‌లను నింపగలదు. మా సాంకేతిక రిపోర్టులో మరింత తెలుసుకోండి.

రియల్ వరల్డ్‌ని అర్థం చేసుకుని సిమ్యులేట్ చేయగల మోడల్స్‌కి Sora ఒక ఫౌండేషన్‌గా పనిచేస్తుంది, ఈ సామర్థ్యం AGI సాధించడంలో ఒక ముఖ్యమైన మైలురాయిగా మేము నమ్ముతున్నాం.

లోడ్ అవుతోంది...