টেক্সট থেকে ভিডিও তৈরি করা

এই পেজের সব ভিডিও কোনো পরিবর্তন ছাড়াই সরাসরি Sora দিয়ে তৈরি করা হয়েছে.

লোডিং…

আমরা AI-কে শেখাচ্ছি চলমান বাস্তব পৃথিবীকে বোঝা ও সিমুলেট করতে, যাতে প্রশিক্ষিত করা মডেল মানুষকে বাস্তব-জগতের ইন্টারঅ্যাকশন দরকার এমন সমস্যার সমাধানে সাহায্য করতে পারে.

পরিচয় করিয়ে দিচ্ছি Sora, আমাদের টেক্সট-টু-ভিডিও মডেল. ভিজ্যুয়াল কোয়ালিটি বজায় রেখে এবং ইউজারের নির্দেশ মেনে Sora এক মিনিট পর্যন্ত দীর্ঘ ভিডিও জেনারেট করতে পারে.

নির্দেশ: এক স্টাইলিশ মহিলা উষ্ণ আভাযুক্ত নীয়ন আলো ও অ্যানিমেটেড শহুরে সাইনেজে ভরা টোকিওর এক রাস্তায় হাঁটছেন. তিনি কালো লেদার জ্যাকেট, লম্বা লাল পোশাক ও কালো বুট পরেছেন, আর হাতে আছে কালো পার্স. তিনি সানগ্লাস ও লাল লিপস্টিক পরেছেন. তিনি আত্মবিশ্বাসী ও স্বাভাবিক ভঙ্গিতে হাঁটছেন. রাস্তা ভেজা ও প্রতিফলিত, যা রঙিন আলোয় আয়নার মতো ইফেক্ট তৈরি করছে. চারপাশে অনেক পথচারী হাঁটছেন.

প্রম্পট: কয়েকটি বিশাল উলি ম্যামথ বরফে ঢাকা প্রান্তর পেরিয়ে আসছে, হাঁটার সময় তাদের লম্বা লোমশ লোম হালকা বাতাসে দুলছে. দূরে বরফে ঢাকা গাছপালা ও নাটকীয় বরফে আবৃত পাহাড় দেখা যাচ্ছে. দুপুর-বিকেলের আলো, হালকা মেঘ ও আকাশের ওপরে সূর্য এক উষ্ণ আভা তৈরি করছে. নিচু ক্যামেরা ভিউতে এই বড় লোমশ প্রাণীকে অসাধারণ ফটোগ্রাফি ও ডেপথ অফ ফিল্ডে ধরা হয়েছে.

প্রম্পট: একটি মুভি ট্রেলার যেখানে ৩০ বছর বয়সী মহাকাশচারীর অ্যাডভেঞ্চার দেখানো হয়েছে, যিনি লাল উলের বোনা মোটরসাইকেল হেলমেট পরেছেন. নীল আকাশ, লবণ মরুভূমি, সিনেমাটিক স্টাইল, ৩৫মিমি ফিল্মে শুট করা, উজ্জ্বল রঙে ভরা দৃশ্যপট.

নির্দেশ: ড্রোন ভিউ থেকে ধারণ করা বিগ সারের গারেই পয়েন্ট বিচের খাড়া ও রুক্ষ ক্লিফের সাথে ঢেউয়ের আছড়ে পড়ার দৃশ্য. আছড়ে পড়া নীল জল সাদা-চূড়াওয়ালা ঢেউ তৈরি করছে, আর অস্তগামী সূর্যের সোনালি আলো পাথুরে তট আলোকিত করছে. দূরে একটি ছোট দ্বীপে লাইটহাউস দাঁড়িয়ে আছে, আর ক্লিফের ধারে সবুজ ঝোপঝাড় ছেয়ে আছে. রাস্তা থেকে সমুদ্রসৈকত পর্যন্ত খাড়া পতন এক নাটকীয় দৃশ্য, যেখানে ক্লিফের ধার সমুদ্রের ওপর বেরিয়ে এসেছে. এই দৃশ্য উপকূলের কাঁচা সৌন্দর্য আর প্যাসিফিক কোস্ট হাইওয়ের রুক্ষ প্রাকৃতিক দৃশ্যপটকে তুলে ধরে.

প্রম্পট: অ্যানিমেটেড দৃশ্যে দেখা যাচ্ছে একটি ছোট লোমশ দানবের ক্লোজ-আপ, যে গলতে থাকা লাল মোমবাতির পাশে হাঁটু গেড়ে বসে আছে. আর্ট স্টাইলটি 3D ও রিয়ালিস্টিক, যেখানে লাইটিং ও টেক্সচারের ওপর জোর দেওয়া হয়েছে. ছবিটির মুড বিস্ময় ও কৌতূহলে ভরা, কারণ দানবটি বড় বড় চোখ আর খোলা মুখ নিয়ে শিখার দিকে তাকিয়ে আছে. তার ভঙ্গি ও অভিব্যক্তি এক ধরনের নিষ্পাপ ও খেলাধুলার আবহ প্রকাশ করছে, যেন সে প্রথমবারের মতো চারপাশের পৃথিবী আবিষ্কার করছে. উষ্ণ রঙ ও নাটকীয় লাইটিং ছবিটির আরামদায়ক পরিবেশকে আরও সমৃদ্ধ করেছে.

প্রম্পট: দৃষ্টিনন্দনভাবে তৈরি করা পেপারক্রাফটের এক কোরাল রিফের জগৎ, যা রঙিন মাছ ও সামুদ্রিক প্রাণীতে ভরা.

প্রম্পট: ভিক্টোরিয়া ক্রাউনড পিজনের এই ক্লোজ-আপ শটে তার দৃষ্টিনন্দন নীল পালক ও লাল বুকে দেখা যাচ্ছে. এর ঝুঁটি সূক্ষ্ম, লেসের মতো পালক দিয়ে তৈরি, আর চোখ গাঢ় লাল রঙের. পাখিটির মাথা হালকা কাত হয়ে আছে, যা তাকে রাজকীয় ও গৌরবময় চেহারার ভাব দিচ্ছে. পটভূমি ব্লার করা, ফলে নজর পড়ছে পাখিটির দৃষ্টিনন্দন উপস্থিতির দিকে.

প্রম্পট: ফটো-রিয়ালিস্টিক ক্লোজ-আপ ভিডিওতে দেখা যাচ্ছে দুইটি পাইরেট জাহাজ একে অপরের সঙ্গে লড়ছে, যখন তারা এক কাপ কফির ভেতর দিয়ে ভেসে যাচ্ছে.

প্রম্পট: আকাশে এক টুকরো মেঘের উপর বসে আছেন বিশের কোঠার এক তরুণ, তিনি বই পড়ছেন.

আজ Sora রেড টিমারদের জন্য উন্মুক্ত হচ্ছে, যাতে তারা ক্ষতি বা ঝুঁকির গুরুত্বপূর্ণ ক্ষেত্রগুলো মূল্যায়ন করতে পারে. আমরা আরও কিছু ভিজ্যুয়াল আর্টিস্ট, ডিজাইনার এবং চলচ্চিত্র নির্মাতাকে অ্যাক্সেস দিচ্ছি, যাতে তারা ফিডব্যাক দিতে পারেন কীভাবে মডেলটিকে ক্রিয়েটিভ প্রফেশনালদের জন্য সবচেয়ে সহায়ক করে তোলা যায়.

আমরা আমাদের গবেষণার অগ্রগতি আগেই শেয়ার করছি, যাতে OpenAI-এর বাইরের মানুষের সঙ্গে কাজ শুরু করা যায় এবং তাদের ফিডব্যাক নেওয়া যায়, আর জনসাধারণকেও বোঝানো যায় সামনে AI-এর কী ক্ষমতা আসছে.

প্রম্পট: গোল্ড রাশ সময়কার ক্যালিফোর্নিয়ার ঐতিহাসিক ফুটেজ.

প্রম্পট: এক গ্লাসের গোলকের ক্লোজ-আপ ভিউ, যার ভেতরে আছে একটি জেন গার্ডেন. গোলকের ভেতরে একটি ছোট বামন আছে, যে জেন গার্ডেনের বালি ঝাড়ছে আর তাতে নকশা তৈরি করছে.

প্রম্পট: 24 বছর বয়সী এক মহিলার চোখের এক্সট্রিম ক্লোজ-আপ, যেখানে তিনি মারাকেশে দাঁড়িয়ে আছেন ম্যাজিক আওয়ারের সময়. ৭০মিমি-তে শুট করা সিনেমাটিক ফিল্ম, ডেপথ অফ ফিল্ড, উজ্জ্বল রঙ ও সিনেমাটিক আবহে ধরা হয়েছে.

প্রম্পট: একটি কার্টুন ক্যাঙ্গারু ডিস্কো ডান্স করছে.

প্রম্পট: একটি সুন্দর হোমমেড ভিডিও যেখানে ২০৫৬ সালে নাইজেরিয়ার লাগোস শহরের মানুষদের দেখা যাচ্ছে. মোবাইল ফোন ক্যামেরায় শুট করা.

প্রম্পট: একটি পেট্রি ডিশে বাঁশের বন বেড়ে উঠছে, আর তার ভেতরে ছোট ছোট রেড পাণ্ডা ছুটোছুটি করছে.

প্রম্পট: ক্যামেরা ঘুরছে এক বড় স্তূপ ভিনটেজ টেলিভিশনের চারপাশে, যেখানে বিভিন্ন প্রোগ্রাম চলছে — 1950-এর দশকের সাই-ফাই মুভি, হরর মুভি, সংবাদ, স্ট্যাটিক, 1970-এর দশকের সিটকম ইত্যাদি. এই দৃশ্যটি নিউ ইয়র্কের একটি বড় মিউজিয়াম গ্যালারির ভেতরে সেট করা হয়েছে.

প্রম্পট: বড় বড় অভিব্যক্তিপূর্ণ চোখওয়ালা একটি ছোট, গোল, লোমশ প্রাণী 3D অ্যানিমেশনে ঘুরে বেড়াচ্ছে এক প্রাণবন্ত, জাদুকরী বনে. প্রাণীটি খরগোশ আর কাঠবিড়ালির মজার এক মিশ্রণ, যার নরম নীল লোম আর ঝুঁটি-ওয়ালা ডোরাকাটা লেজ রয়েছে. এটি ঝিকিমিকি করা একটি ঝরনার ধার ধরে লাফাচ্ছে, আর তার চোখ বিস্ময়ে বড় হয়ে আছে. বনটি ভরা জাদুকরী উপাদানে: এমন ফুল যা জ্বলে ওঠে আর রঙ পাল্টায়, গাছের পাতাগুলো বেগুনি ও রূপালি রঙের, আর ছোট ভাসমান আলো যা জোনাকির মতো. প্রাণীটি থেমে মজা করে খেলছে একদল ছোট, পরীর মতো সত্তার সঙ্গে, যারা মাশরুমের রিং ঘিরে নাচছে. প্রাণীটি বিস্ময়ে তাকিয়ে আছে এক বিশাল, জ্বলজ্বলে গাছের দিকে, যা বনটির হৃদয় বলে মনে হয়.

Sora একাধিক চরিত্র, নির্দিষ্ট ধরনের মুভমেন্ট এবং সাবজেক্ট ও ব্যাকগ্রাউন্ডের সঠিক ডিটেলসহ জটিল দৃশ্য জেনারেট করতে সক্ষম. মডেলটি শুধু ইউজার প্রম্পটে কী চেয়েছেন তাই নয়, সেই জিনিসগুলো বাস্তব জগতে কীভাবে বিদ্যমান তাও বোঝে.

প্রম্পট: ক্যামেরা একটি সাদা ভিনটেজ SUV-র পেছনে চলছে, যার কালো রুফ র্যাক আছে, আর সেটি দ্রুত গতিতে খাড়া পাহাড়ি ঢালের কাঁচা রাস্তায় উঠছে, চারপাশে পাইনের গাছ. এর টায়ার থেকে ধুলো উড়ছে, সূর্যের আলো SUV-তে পড়ে দৃশ্যটিকে উষ্ণ আভা দিচ্ছে. কাঁচা রাস্তা দূরে গিয়ে হালকা বাঁক নিচ্ছে, চারপাশে আর কোনো গাড়ি নেই. রাস্তার দুই পাশে রয়েছে রেডউড গাছ, মাঝে মাঝে সবুজের ছাপ ছড়ানো. গাড়িটিকে পেছন দিক থেকে দেখা যাচ্ছে, সহজেই বাঁক ঘুরছে, যেন এটি দুর্গম পথে এক রোমাঞ্চকর ড্রাইভে রয়েছে. কাঁচা রাস্তা ঘিরে রয়েছে খাড়া পাহাড় ও টিলা, ওপরে স্বচ্ছ নীল আকাশে ছড়ানো হালকা মেঘ.

প্রম্পট: টোকিও শহরতলি দিয়ে চলা একটি ট্রেনের জানালায় প্রতিফলন.

প্রম্পট: একটি ড্রোন ক্যামেরা আমালফি কোস্টের পাথুরে চূড়ায় নির্মিত এক সুন্দর ঐতিহাসিক গির্জার চারপাশে ঘুরছে. ভিউতে দেখা যাচ্ছে ঐতিহাসিক ও দৃষ্টিনন্দন আর্কিটেকচারাল ডিটেলস, ধাপওয়ালা পথ ও প্যাটিও. নিচে ঢেউ পাথরে আছড়ে পড়ছে, আর ভিউ উপকূলীয় জলরাশি ও আমালফি কোস্ট ইতালির পাহাড়ি প্রাকৃতিক দৃশ্যপটের দিগন্ত পর্যন্ত ছড়িয়ে আছে. দূরে কয়েকজন মানুষ হাঁটছেন ও নাটকীয় সমুদ্র দৃশ্যের প্যাটিও থেকে ভিস্তা উপভোগ করছেন. বিকেলের সূর্যের উষ্ণ আলো দৃশ্যে এক জাদুকরী ও রোমান্টিক অনুভূতি তৈরি করছে. ভিউটি দৃষ্টিনন্দন ফটোগ্রাফিতে ধরা পড়েছে.

প্রম্পট: এক বড় কমলা রঙের অক্টোপাসকে সমুদ্রতলের বালুকাময় ও পাথুরে ভূমির সঙ্গে মিশে গিয়ে বিশ্রাম নিতে দেখা যাচ্ছে. এর টেন্টাকলগুলো শরীরের চারপাশে ছড়ানো, আর চোখ বন্ধ. অক্টোপাসটি টের পাচ্ছে না যে এক কিং ক্র্যাব একটি পাথরের আড়াল থেকে তার দিকে এগিয়ে আসছে, তার কাঁচি তোলা আর আক্রমণের জন্য প্রস্তুত. ক্র্যাবটি বাদামি ও কাঁটাযুক্ত, লম্বা পা ও অ্যান্টেনা রয়েছে. দৃশ্যটি ওয়াইড অ্যাঙ্গেলে ধরা হয়েছে, যেখানে সমুদ্রের বিস্তৃতি ও গভীরতা ফুটে উঠছে. জল স্বচ্ছ ও নীল, আর সূর্যের রশ্মি ভেতর দিয়ে প্রবেশ করছে. শটটি শার্প ও ক্রিস্প, হাই ডায়নামিক রেঞ্জসহ. অক্টোপাস ও ক্র্যাব ফোকাসে, আর ব্যাকগ্রাউন্ড হালকা ব্লার করা, যা ডেপথ অফ ফিল্ড ইফেক্ট তৈরি করছে.

প্রম্পট: কাগজের প্লেনের এক ঝাঁক ঘন জঙ্গলের ভেতর দিয়ে উড়ে যাচ্ছে, গাছপালা এড়িয়ে উড়ছে যেন তারা পরিযায়ী পাখি.

প্রম্পট: এক বিড়াল তার ঘুমন্ত মালিককে জাগাচ্ছে নাশতা দাবি করে. মালিক বিড়ালটিকে উপেক্ষা করার চেষ্টা করেন, কিন্তু বিড়ালটি নতুন কৌশল নেয়, আর শেষে মালিক বালিশের নিচ থেকে গোপন ট্রীটস বের করে তাকে আরেকটু সময়ের জন্য সামলান.

প্রম্পট: কিনাবাটাঙ্গান নদীতে বোর্নিওর বন্যপ্রাণী

প্রম্পট: চাইনিজ লুনার নিউ ইয়ার উদযাপনের একটি ভিডিও, যেখানে চাইনিজ ড্রাগন রয়েছে.

মডেলটির ভাষা সম্পর্কে গভীর বোঝাপড়া রয়েছে, যা তাকে প্রম্পটগুলো সঠিকভাবে ব্যাখ্যা করতে এবং জীবন্ত আবেগ প্রকাশ করা আকর্ষণীয় চরিত্র তৈরি করতে সক্ষম করে. Sora একটি জেনারেট করা ভিডিও এর ভেতরে একাধিক শট তৈরি করতে পারে, যেখানে চরিত্র ও ভিজ্যুয়াল স্টাইল সঠিকভাবে একই থাকে.

প্রম্পট: বিভিন্ন স্টাইলে অনেক সুন্দর শিল্পকর্মসহ একটি আর্ট গ্যালারির ট্যুর.

প্রম্পট: সুন্দর, বরফে ঢাকা টোকিও শহর ব্যস্ততায় ভরা. ক্যামেরা ব্যস্ত শহরের রাস্তায় চলতে থাকে, কয়েকজন মানুষকে অনুসরণ করে যারা বরফমাখা সুন্দর আবহাওয়া উপভোগ করছেন আর কাছের স্টলে কেনাকাটা করছেন. মনোরম সাকুরার পাপড়ি তুষারকণার সঙ্গে বাতাসে উড়ছে.

প্রম্পট: এক স্টপ মোশন অ্যানিমেশনে দেখা যাচ্ছে শহরতলির একটি বাড়ির জানালার কিনারা থেকে একটি ফুল গজিয়ে উঠছে.

প্রম্পট: একটি সাইবারপাঙ্ক পরিবেশে এক রোবটের জীবনের গল্প.

প্রম্পট: ষাটের কোঠার এক দাড়িওয়ালা, ধূসর চুলের মানুষের এক্সট্রিম ক্লোজ-আপ. তিনি গভীর চিন্তায় নিমগ্ন, ক্যাফে প্যারিসে বসে মহাবিশ্বের ইতিহাস নিয়ে ভাবছেন. তার চোখ অফস্ক্রিনে হাঁটা মানুষদের দিকে নিবদ্ধ, আর তিনি প্রায় স্থির বসে আছেন. তিনি উল কোট স্যুট কোট ও বোতামওয়ালা শার্ট পরেছেন, মাথায় বাদামি বেরে আর চশমা পরে আছেন, যা তাকে একেবারেই অধ্যাপকের মতো দেখাচ্ছে. শেষে তিনি ঠোঁট বন্ধ রাখা হালকা হাসি দেন, যেন জীবনের রহস্যের উত্তর খুঁজে পেয়েছেন. লাইটিং অত্যন্ত সিনেমাটিক, সোনালি আলো আর প্যারিসের রাস্তা ও শহরের ব্যাকগ্রাউন্ডসহ, ডেপথ অফ ফিল্ড ও সিনেমাটিক 35mm ফিল্মে ধরা হয়েছে.

প্রম্পট: এক সুন্দর সিলুয়েট অ্যানিমেশনে দেখা যাচ্ছে এক নেকড়ে চাঁদের দিকে হাউল করছে, একাকী বোধ করছে, যতক্ষণ না সে তার দলে যোগ দেয়.

প্রম্পট: নিউ ইয়র্ক সিটি আটলান্টিসের মতো জলে ডুবে গেছে. মাছ, তিমি, সমুদ্র কচ্ছপ ও হাঙর নিউ ইয়র্কের রাস্তায় সাঁতার কাটছে.

প্রম্পট: একদল গোল্ডেন রিট্রিভার পাপি বরফে খেলছে. তাদের মাথা বরফের ভেতর থেকে বেরিয়ে আসছে, বরফে ঢাকা.

বর্তমান মডেলের এখনও উন্নতির সুযোগ রয়েছে. এটি জটিল দৃশ্যের ফিজিক্স সিমুলেট করতে সমস্যায় পড়তে পারে এবং কারণ-ফলাফলের নির্দিষ্ট উদাহরণ বুঝতে ব্যর্থ হতে পারে (যেমন: কোনো চরিত্র কামড়ালে কুকিতে চিহ্ন নাও দেখা যেতে পারে). মডেলটি নির্দেশে থাকা স্থানসংক্রান্ত বিবরণও গুলিয়ে ফেলতে পারে, যেমন বাম থেকে ডান পার্থক্য করা অথবা সময়ের সঙ্গে সঙ্গে ঘটে যাওয়া ঘটনাগুলোর সঠিক বর্ণনায় সমস্যা হতে পারে, যেমন নির্দিষ্ট ক্যামেরা ট্রাজেক্টরি.

প্রম্পট: একজন মানুষ দৌড়াচ্ছেন এমন স্টেপ-প্রিন্টিং দৃশ্য, সিনেমাটিক ফিল্মে 35mm-তে শুট করা.

দুর্বলতা: সোর‌া কখনও কখনও শারীরিকভাবে অসম্ভব মুভমেন্ট তৈরি করে.

প্রম্পট: পাঁচটি ধূসর নেকড়ে শাবক ঘাসে ঘেরা দূরবর্তী কঙ্কর-পাথরের রাস্তায় লাফাচ্ছে আর একে অপরকে তাড়া করছে. শাবকগুলো দৌড়াচ্ছে ও লাফাচ্ছে, একে অপরকে তাড়া করছে আর হালকা কামড় দিয়ে খেলছে.

দুর্বলতা: প্রাণী বা মানুষ হঠাৎ করেই উপস্থিত হতে পারে, বিশেষ করে যেখানে অনেক চরিত্র রয়েছে এমন দৃশ্যে.

প্রম্পট: বাস্কেটবল হুপে যায় তারপর বিস্ফোরিত হয়.

দুর্বলতা: অযথাযথ ফিজিক্যাল মডেলিং ও অস্বাভাবিক অবজেক্ট “মরফিং”-এর একটি উদাহরণ.

প্রম্পট: প্রত্নতত্ত্ববিদরা মরুভূমিতে একটি সাধারণ প্লাস্টিকের চেয়ার আবিষ্কার করেন, খনন ও যত্নসহকারে ঝাড়ামোছা করছেন.

দুর্বলতা: এই উদাহরণে, সোর‌া চেয়ারটিকে একটি দৃঢ় অবজেক্ট হিসেবে মডেল করতে ব্যর্থ হয়, ফলে অযথাযথ ফিজিক্যাল ইন্টারঅ্যাকশন ঘটে.

প্রম্পট: পরিপাটি আঁচড়ানো ধূসর চুলওয়ালা এক দাদি কাঠের ডাইনিং রুমের টেবিলে অসংখ্য মোমবাতি লাগানো এক রঙিন জন্মদিনের কেকের পেছনে দাঁড়িয়ে আছেন. তার মুখে খাঁটি আনন্দ ও খুশির অভিব্যক্তি, চোখে উজ্জ্বল খুশির আভা. তিনি সামনে ঝুঁকে হালকা ফুঁ দিয়ে মোমবাতিগুলো নেভান. কেকের ওপর গোলাপি ফ্রস্টিং ও স্প্রিঙ্কলস রয়েছে, আর মোমবাতিগুলো ঝিলমিল থেমে যায়. দাদি হালকা নীল ফুলেল নকশার ব্লাউজ পরেছেন. টেবিলে বসে থাকা কয়েকজন খুশি বন্ধু ও পরিবারের সদস্যকে দেখা যাচ্ছে উদযাপন করতে, যদিও তারা আউট অফ ফোকাস. দৃশ্যটি দৃষ্টিনন্দনভাবে ধরা হয়েছে, সিনেমাটিক, যেখানে দাদি ও ডাইনিং রুমের 3/4 ভিউ দেখা যাচ্ছে. উষ্ণ রঙের টোন ও নরম লাইটিং পরিবেশকে আরও সমৃদ্ধ করেছে..

দুর্বলতা: অবজেক্ট ও একাধিক চরিত্রের মধ্যে জটিল ইন্টারঅ্যাকশন সিমুলেট করা মডেলের জন্য প্রায়ই চ্যালেঞ্জিং হয়, যা কখনও কখনও হাস্যকর জেনারেশন তৈরি করে.

সেফটি

Sora OpenAI-এর প্রোডাক্টে উপলব্ধ করার আগে আমরা বেশ কিছু গুরুত্বপূর্ণ নিরাপত্তা পদক্ষেপ নেব. আমরা রেড টিমারদের সঙ্গে কাজ করছি — ভুল তথ্য, ঘৃণাসূচক কনটেন্ট, এবং পক্ষপাতের মতো ক্ষেত্রে ডোমেইন এক্সপার্ট যারা — মডেলটিকে প্রতিপক্ষের মতো পরীক্ষা করবেন.

আমরা এমন টুলও তৈরি করছি যা বিভ্রান্তিকর কনটেন্ট শনাক্ত করতে সাহায্য করবে, যেমন একটি ডিটেকশন ক্লাসিফায়ার যা বলতে পারবে কোনো ভিডিও Sora দিয়ে জেনারেট হয়েছে কি না. আমরা ভবিষ্যতে C2PA মেটাডেটা⁠(একটি নতুন উইন্ডোতে খোলে) অন্তর্ভুক্ত করার পরিকল্পনা করছি যদি আমরা মডেলটি একটি OpenAI পণ্যে স্থাপন করি.

মোতায়েনের জন্য প্রস্তুতি নেওয়ার জন্য আমরা নতুন কৌশলগুলি বিকাশ করার পাশাপাশি, আমরা আমাদের পণ্যগুলির জন্য তৈরি করা বিদ্যমান সুরক্ষা পদ্ধতিগুলি⁠(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করছি যা DALL·E 3 ব্যবহার করে এবং যা Sora-এর ক্ষেত্রেও প্রযোজ্য.

উদাহরণস্বরূপ, OpenAI-এর কোনো প্রোডাক্টে আমাদের টেক্সট ক্লাসিফায়ার ব্যবহার নীতির লঙ্ঘনকারী টেক্সট ইনপুট প্রম্পট চেক করে বাতিল করবে, যেমন যেগুলো চরম সহিংসতা, যৌন বিষয়ক কনটেন্ট, বিদ্বেষমূলক চিত্র, সেলিব্রিটির অনুকরণ বা অন্যের IP ব্যবহার করার অনুরোধ করে. আমরা শক্তিশালী ইমেজ ক্লাসিফায়ারও তৈরি করেছি, যা প্রতিটি জেনারেটেড ভিডিও এর ফ্রেম পর্যালোচনা করতে ব্যবহৃত হয়, যাতে ইউজারকে দেখানোর আগে তা আমাদের ব্যবহার নীতি মেনে চলে নিশ্চিত করা যায়.

আমরা বিশ্বের বিভিন্ন দেশ থেকে নীতিনির্ধারক, শিক্ষাবিদ এবং শিল্পীদের সঙ্গে সংলাপ চালাবো তাদের উদ্বেগ বোঝার জন্য এবং এই নতুন প্রযুক্তির জন্য ইতিবাচক ব্যবহার ক্ষেত্র চিহ্নিত করার জন্য. বিস্তৃত গবেষণা এবং পরীক্ষা সত্ত্বেও, আমরা ভবিষ্যদ্বাণী করতে পারি না যে সমস্ত উপকারী উপায় লোকেরা আমাদের প্রযুক্তি ব্যবহার করবে বা লোকেরা কীভাবে এটি অপব্যবহার করবে. এই কারণেই আমরা বিশ্বাস করি বাস্তব জগতের ব্যবহার থেকে শেখা সময়ের সঙ্গে আরও নিরাপদ AI সিস্টেম তৈরি ও প্রকাশের একটি গুরুত্বপূর্ণ উপাদান.

প্রম্পট: ক্যামেরা সরাসরি ইতালির বুরানো শহরের রঙিন ভবনগুলোর দিকে মুখ করে আছে. একটি আদুরে ডালমেশিয়ান গ্রাউন্ড ফ্লোরের একটি বিল্ডিংয়ের জানালা দিয়ে তাকিয়ে আছে. অনেক মানুষ ভবনের সামনে খালের ধারে রাস্তায় হাঁটছেন ও সাইকেল চালাচ্ছেন.

প্রম্পট: একটি আদুরে খুশি ওটার হলুদ লাইফজ্যাকেট পরে আত্মবিশ্বাসের সঙ্গে সার্ফবোর্ডে দাঁড়িয়ে আছে, সবুজ গ্রীষ্মমণ্ডলীয় দ্বীপের কাছে ফিরোজা রঙের জলে ভেসে চলছে. 3D ডিজিটাল রেন্ডার আর্ট স্টাইল.

প্রম্পট: একটি গিরগিটির ক্লোজ-আপ শটে তার দারুণ রঙ পাল্টানোর ক্ষমতা দেখা যাচ্ছে. ব্যাকগ্রাউন্ড ব্লার করা, ফলে নজর পড়ছে প্রাণীটির দৃষ্টিনন্দন উপস্থিতির দিকে.

প্রম্পট: একটি করগি ট্রপিকাল মাউই-তে নিজেকে ভ্লগ করছে.

প্রম্পট: একটি সাদা আর কমলা ট্যাবি বিড়ালকে আনন্দের সঙ্গে ঘন বাগানের ভেতর দিয়ে দৌড়াতে দেখা যাচ্ছে, যেন কিছু তাড়া করছে. দৌড়ে চলার সময় তার চোখ বড় বড় আর খুশিতে ভরা, হাঁটার সময় ডালপালা, ফুল আর পাতা স্ক্যান করছে. পথটি সরু, গাছপালার মাঝ দিয়ে যাচ্ছে. দৃশ্যটি গ্রাউন্ড-লেভেল অ্যাঙ্গেল থেকে ধরা হয়েছে, বিড়ালটিকে কাছে থেকে অনুসরণ করে, যা নিচু ও অন্তরঙ্গ ভিউ দেয়. ছবিটি সিনেমাটিক, উষ্ণ টোন আর দানাদার টেক্সচারসহ. ওপরে পাতাগাছের ফাঁক দিয়ে ছড়ানো দিনের আলো এক উষ্ণ কনট্রাস্ট তৈরি করছে, যা বিড়ালের কমলা লোমকে আরও উজ্জ্বল করছে. শটটি পরিষ্কার ও শার্প, অগভীর ডেপথ অফ ফিল্ডসহ.

প্রম্পট: ব্লু আওয়ারের সময় স্যান্টোরিনির এরিয়াল ভিউ, যেখানে সাদা সাইক্লাডিক ভবন ও নীল গম্বুজের দৃষ্টিনন্দন আর্কিটেকচার দেখা যাচ্ছে. ক্যালডেরার দৃশ্য শ্বাসরুদ্ধকর, আর লাইটিং এক সুন্দর, শান্ত পরিবেশ তৈরি করেছে.

প্রম্পট: টিল্টশিফটে দেখা যাচ্ছে এক কনস্ট্রাকশন সাইট, যা কর্মী, সরঞ্জাম ও ভারী যন্ত্রপাতিতে ভরা.

প্রম্পট: মানুষের আকৃতির এক বিশাল, সুউচ্চ মেঘ পৃথিবীর উপর ভাসছে. সেই মেঘমানব পৃথিবীর দিকে বজ্রপাত নিক্ষেপ করছে.

প্রম্পট: একটি স্যাময়েড আর একটি গোল্ডেন রিট্রিভার কুকুর মজা করে রাতে এক ভবিষ্যতধর্মী নিয়ন শহরে ছুটোছুটি করছে. আশেপাশের ভবন থেকে বেরোনো নিয়ন আলো তাদের লোমে ঝলমল করছে.

প্রম্পট: গ্লেনফিনান ভায়াডাক্ট স্কটল্যান্ড, UK-এর একটি ঐতিহাসিক রেলওয়ে ব্রিজ, যা মালাইগ ও ফোর্ট উইলিয়ামের মধ্যবর্তী ওয়েস্ট হাইল্যান্ড লাইনের উপর দিয়ে গেছে. এক চমকপ্রদ দৃশ্য, যখন একটি স্টিম ট্রেন সেতু ছেড়ে বেরিয়ে যাচ্ছে, আর্চে ঢাকা ভায়াডাক্টের উপর দিয়ে চলতে চলতে. প্রাকৃতিক দৃশ্য ভরা সবুজ গাছপালা ও পাথুরে পাহাড়ে, যা ট্রেন যাত্রার জন্য এক মনোরম ব্যাকড্রপ তৈরি করেছে. আকাশ নীল আর সূর্য ঝলমল করছে, যা এই মহিমান্বিত জায়গা ঘুরে দেখার জন্য এক সুন্দর দিন তৈরি করেছে.

রিসার্চ টেকনিকস

Sora একটি ডিফিউশন মডেল, যা একটি স্ট্যাটিক নয়েজের মতো দেখতে ভিডিও দিয়ে শুরু করে এবং ধীরে ধীরে বহু ধাপে নয়েজ সরিয়ে তা পরিবর্তন করে একটি ভিডিও তৈরি করে.

Sora একবারেই পুরো ভিডিও জেনারেট করতে পারে অথবা জেনারেটে করা ভিডিও এক্সটেন্ড করে আরও বড় করতে পারে. মডেলটিকে একসাথে অনেকগুলি ফ্রেমের দূরদর্শিতা প্রদান করে, আমরা একটি চ্যালেঞ্জিং সমস্যার সমাধান করেছি যেখানে নিশ্চিত করা যায় যেকোনো বিষয় সাময়িকভাবে দৃষ্টির বাইরে চলে গেলেও একই থাকে.

GPT মডেলের মতো, Sora একটি ট্রান্সফরমার আর্কিটেকচার ব্যবহার করে, যা উন্নত স্কেলিং পারফরম্যান্স সক্ষম করে.

আমরা ভিডিও এবং ছবিকে ছোট ছোট তথ্য ইউনিটের সংগ্রহ হিসেবে উপস্থাপন করি, যেগুলিকে প্যাচ বলা হয় এবং প্রতিটি প্যাচ GPT‑এর একটি টোকেনের মতো. ডেটা উপস্থাপনের পদ্ধতিকে একীভূত করে আমরা ডিফিউশন ট্রান্সফরমারকে আগের চেয়ে আরও বিস্তৃত ভিজ্যুয়াল ডেটার উপর প্রশিক্ষণ দিতে পারি, যা বিভিন্ন সময়কাল, রেজোলিউশন ও অ্যাসপেক্ট রেশিও জুড়ে বিস্তৃত.

DALL·E ও GPT মডেলের পূর্ববর্তী রিসার্চের উপর ভিত্তি করে Sora তৈরি. এটি DALL·E 3-এর রিক্যাপশনিং টেকনিক ব্যবহার করে, যেখানে ভিজ্যুয়াল ট্রেনিং ডেটার জন্য অত্যন্ত বর্ণনামূলক ক্যাপশন তৈরি করা হয়. ফলস্বরূপ, মডেলটি জেনারেট করা ভিডিওতে ইউজারের টেক্সট নির্দেশনা আরও বিশ্বস্তভাবে অনুসরণ করতে সক্ষম.

শুধু টেক্সট নির্দেশনা থেকে ভিডিও তৈরি করার পাশাপাশি, মডেলটি বিদ্যমান একটি স্থির চিত্রও নিয়ে সেটি থেকে ভিডিও তৈরি করতে পারে, ইমেজের বিষয়বস্তুকে যথাযথতা এবং ছোট ছোট বিবরণের প্রতি মনোযোগ দিয়ে অ্যানিমেট করে. মডেলটি বিদ্যমান ভিডিও নিয়েও সেটিকে এক্সটেন্ড করতে পারে বা মিসিং ফ্রেম পূরণ করতে পারে. আমাদের প্রযুক্তিগত প্রতিবেদনে আরও জানুন⁠.

Sora এমন মডেলগুলির ভিত্তি হিসাবে কাজ করে যা বাস্তব বিশ্ব বুঝতে এবং অনুকরণ করতে পারে, এমন একটি ক্ষমতা আমরা বিশ্বাস করি যে AGI অর্জনের জন্য একটি গুরুত্বপূর্ণ মাইলফলক হবে.

লোড হচ্ছে...