মূল কনটেন্টে যান
OpenAI

এই পেজের সব ভিডিও কোনো পরিবর্তন ছাড়াই সরাসরি Sora দিয়ে তৈরি করা হয়েছে.

লোডিং…

আমরা AI-কে শেখাচ্ছি চলমান বাস্তব পৃথিবীকে বোঝা ও সিমুলেট করতে, যাতে প্রশিক্ষিত করা মডেল মানুষকে বাস্তব-জগতের ইন্টারঅ্যাকশন দরকার এমন সমস্যার সমাধানে সাহায্য করতে পারে.

পরিচয় করিয়ে দিচ্ছি Sora, আমাদের টেক্সট-টু-ভিডিও মডেল. ভিজ্যুয়াল কোয়ালিটি বজায় রেখে এবং ইউজারের নির্দেশ মেনে Sora এক মিনিট পর্যন্ত দীর্ঘ ভিডিও জেনারেট করতে পারে.

আজ Sora রেড টিমারদের জন্য উন্মুক্ত হচ্ছে, যাতে তারা ক্ষতি বা ঝুঁকির গুরুত্বপূর্ণ ক্ষেত্রগুলো মূল্যায়ন করতে পারে. আমরা আরও কিছু ভিজ্যুয়াল আর্টিস্ট, ডিজাইনার এবং চলচ্চিত্র নির্মাতাকে অ্যাক্সেস দিচ্ছি, যাতে তারা ফিডব্যাক দিতে পারেন কীভাবে মডেলটিকে ক্রিয়েটিভ প্রফেশনালদের জন্য সবচেয়ে সহায়ক করে তোলা যায়.

আমরা আমাদের গবেষণার অগ্রগতি আগেই শেয়ার করছি, যাতে OpenAI-এর বাইরের মানুষের সঙ্গে কাজ শুরু করা যায় এবং তাদের ফিডব্যাক নেওয়া যায়, আর জনসাধারণকেও বোঝানো যায় সামনে AI-এর কী ক্ষমতা আসছে.

Sora একাধিক চরিত্র, নির্দিষ্ট ধরনের মুভমেন্ট এবং সাবজেক্ট ও ব্যাকগ্রাউন্ডের সঠিক ডিটেলসহ জটিল দৃশ্য জেনারেট করতে সক্ষম. মডেলটি শুধু ইউজার প্রম্পটে কী চেয়েছেন তাই নয়, সেই জিনিসগুলো বাস্তব জগতে কীভাবে বিদ্যমান তাও বোঝে.

মডেলটির ভাষা সম্পর্কে গভীর বোঝাপড়া রয়েছে, যা তাকে প্রম্পটগুলো সঠিকভাবে ব্যাখ্যা করতে এবং জীবন্ত আবেগ প্রকাশ করা আকর্ষণীয় চরিত্র তৈরি করতে সক্ষম করে. Sora একটি জেনারেট করা ভিডিও এর ভেতরে একাধিক শট তৈরি করতে পারে, যেখানে চরিত্র ও ভিজ্যুয়াল স্টাইল সঠিকভাবে একই থাকে.

বর্তমান মডেলের এখনও উন্নতির সুযোগ রয়েছে. এটি জটিল দৃশ্যের ফিজিক্স সিমুলেট করতে সমস্যায় পড়তে পারে এবং কারণ-ফলাফলের নির্দিষ্ট উদাহরণ বুঝতে ব্যর্থ হতে পারে (যেমন: কোনো চরিত্র কামড়ালে কুকিতে চিহ্ন নাও দেখা যেতে পারে). মডেলটি নির্দেশে থাকা স্থানসংক্রান্ত বিবরণও গুলিয়ে ফেলতে পারে, যেমন বাম থেকে ডান পার্থক্য করা অথবা সময়ের সঙ্গে সঙ্গে ঘটে যাওয়া ঘটনাগুলোর সঠিক বর্ণনায় সমস্যা হতে পারে, যেমন নির্দিষ্ট ক্যামেরা ট্রাজেক্টরি.

সেফটি

Sora OpenAI-এর প্রোডাক্টে উপলব্ধ করার আগে আমরা বেশ কিছু গুরুত্বপূর্ণ নিরাপত্তা পদক্ষেপ নেব. আমরা রেড টিমারদের সঙ্গে কাজ করছি — ভুল তথ্য, ঘৃণাসূচক কনটেন্ট, এবং পক্ষপাতের মতো ক্ষেত্রে ডোমেইন এক্সপার্ট যারা — মডেলটিকে প্রতিপক্ষের মতো পরীক্ষা করবেন.

আমরা এমন টুলও তৈরি করছি যা বিভ্রান্তিকর কনটেন্ট শনাক্ত করতে সাহায্য করবে, যেমন একটি ডিটেকশন ক্লাসিফায়ার যা বলতে পারবে কোনো ভিডিও Sora দিয়ে জেনারেট হয়েছে কি না. আমরা ভবিষ্যতে C2PA মেটাডেটা(একটি নতুন উইন্ডোতে খোলে) অন্তর্ভুক্ত করার পরিকল্পনা করছি যদি আমরা মডেলটি একটি OpenAI পণ্যে স্থাপন করি.

মোতায়েনের জন্য প্রস্তুতি নেওয়ার জন্য আমরা নতুন কৌশলগুলি বিকাশ করার পাশাপাশি, আমরা আমাদের পণ্যগুলির জন্য তৈরি করা বিদ্যমান সুরক্ষা পদ্ধতিগুলি(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করছি যা DALL·E 3 ব্যবহার করে এবং যা Sora-এর ক্ষেত্রেও প্রযোজ্য.

উদাহরণস্বরূপ, OpenAI-এর কোনো প্রোডাক্টে আমাদের টেক্সট ক্লাসিফায়ার ব্যবহার নীতির লঙ্ঘনকারী টেক্সট ইনপুট প্রম্পট চেক করে বাতিল করবে, যেমন যেগুলো চরম সহিংসতা, যৌন বিষয়ক কনটেন্ট, বিদ্বেষমূলক চিত্র, সেলিব্রিটির অনুকরণ বা অন্যের IP ব্যবহার করার অনুরোধ করে. আমরা শক্তিশালী ইমেজ ক্লাসিফায়ারও তৈরি করেছি, যা প্রতিটি জেনারেটেড ভিডিও এর ফ্রেম পর্যালোচনা করতে ব্যবহৃত হয়, যাতে ইউজারকে দেখানোর আগে তা আমাদের ব্যবহার নীতি মেনে চলে নিশ্চিত করা যায়.

আমরা বিশ্বের বিভিন্ন দেশ থেকে নীতিনির্ধারক, শিক্ষাবিদ এবং শিল্পীদের সঙ্গে সংলাপ চালাবো তাদের উদ্বেগ বোঝার জন্য এবং এই নতুন প্রযুক্তির জন্য ইতিবাচক ব্যবহার ক্ষেত্র চিহ্নিত করার জন্য. বিস্তৃত গবেষণা এবং পরীক্ষা সত্ত্বেও, আমরা ভবিষ্যদ্বাণী করতে পারি না যে সমস্ত উপকারী উপায় লোকেরা আমাদের প্রযুক্তি ব্যবহার করবে বা লোকেরা কীভাবে এটি অপব্যবহার করবে. এই কারণেই আমরা বিশ্বাস করি বাস্তব জগতের ব্যবহার থেকে শেখা সময়ের সঙ্গে আরও নিরাপদ AI সিস্টেম তৈরি ও প্রকাশের একটি গুরুত্বপূর্ণ উপাদান.

রিসার্চ টেকনিকস

Sora একটি ডিফিউশন মডেল, যা একটি স্ট্যাটিক নয়েজের মতো দেখতে ভিডিও দিয়ে শুরু করে এবং ধীরে ধীরে বহু ধাপে নয়েজ সরিয়ে তা পরিবর্তন করে একটি ভিডিও তৈরি করে.

Sora একবারেই পুরো ভিডিও জেনারেট করতে পারে অথবা জেনারেটে করা ভিডিও এক্সটেন্ড করে আরও বড় করতে পারে. মডেলটিকে একসাথে অনেকগুলি ফ্রেমের দূরদর্শিতা প্রদান করে, আমরা একটি চ্যালেঞ্জিং সমস্যার সমাধান করেছি যেখানে নিশ্চিত করা যায় যেকোনো বিষয় সাময়িকভাবে দৃষ্টির বাইরে চলে গেলেও একই থাকে.

GPT মডেলের মতো, Sora একটি ট্রান্সফরমার আর্কিটেকচার ব্যবহার করে, যা উন্নত স্কেলিং পারফরম্যান্স সক্ষম করে.

আমরা ভিডিও এবং ছবিকে ছোট ছোট তথ্য ইউনিটের সংগ্রহ হিসেবে উপস্থাপন করি, যেগুলিকে প্যাচ বলা হয় এবং প্রতিটি প্যাচ GPT‑এর একটি টোকেনের মতো. ডেটা উপস্থাপনের পদ্ধতিকে একীভূত করে আমরা ডিফিউশন ট্রান্সফরমারকে আগের চেয়ে আরও বিস্তৃত ভিজ্যুয়াল ডেটার উপর প্রশিক্ষণ দিতে পারি, যা বিভিন্ন সময়কাল, রেজোলিউশন ও অ্যাসপেক্ট রেশিও জুড়ে বিস্তৃত.

DALL·E ও GPT মডেলের পূর্ববর্তী রিসার্চের উপর ভিত্তি করে Sora তৈরি. এটি DALL·E 3-এর রিক্যাপশনিং টেকনিক ব্যবহার করে, যেখানে ভিজ্যুয়াল ট্রেনিং ডেটার জন্য অত্যন্ত বর্ণনামূলক ক্যাপশন তৈরি করা হয়. ফলস্বরূপ, মডেলটি জেনারেট করা ভিডিওতে ইউজারের টেক্সট নির্দেশনা আরও বিশ্বস্তভাবে অনুসরণ করতে সক্ষম.

শুধু টেক্সট নির্দেশনা থেকে ভিডিও তৈরি করার পাশাপাশি, মডেলটি বিদ্যমান একটি স্থির চিত্রও নিয়ে সেটি থেকে ভিডিও তৈরি করতে পারে, ইমেজের বিষয়বস্তুকে যথাযথতা এবং ছোট ছোট বিবরণের প্রতি মনোযোগ দিয়ে অ্যানিমেট করে. মডেলটি বিদ্যমান ভিডিও নিয়েও সেটিকে এক্সটেন্ড করতে পারে বা মিসিং ফ্রেম পূরণ করতে পারে. আমাদের প্রযুক্তিগত প্রতিবেদনে আরও জানুন.

Sora এমন মডেলগুলির ভিত্তি হিসাবে কাজ করে যা বাস্তব বিশ্ব বুঝতে এবং অনুকরণ করতে পারে, এমন একটি ক্ষমতা আমরা বিশ্বাস করি যে AGI অর্জনের জন্য একটি গুরুত্বপূর্ণ মাইলফলক হবে.

লোড হচ্ছে...