হ্যালো GPT‑4o
আমরা নিয়ে এসেছি GPT‑4, আমাদের নতুন ফ্ল্যাগশিপ মডেল যা রিয়েল-টাইমে অডিও, দৃশ্য ও টেক্সট এর রিজন করতে পারে.
13 মের ঘোষণার অনুমান.
GPT‑4o (“o” অর্থ “omni”) অনেক বেশি স্বাভাবিক মানব-কম্পিউটার ইন্টারঅ্যাকশনের পথে একটি ধাপ অগ্রগতি—এতে ইনপুট হিসেবে একত্রে টেক্সট, অডিও, ছবি ও ভিডিও যেকোনো কিছু গ্রহণ করে এবং আউটপুটে টেক্সট, অডিও এবং ছবির সমন্বয় করতে পারে. এটি 232 মিলিসেকেন্ডের অডিও ইনপুটে প্রতিউত্তর দিতে পারে, গড়ে 320 মিলিসেকেন্ড সময় নেয়, যা কথোপকথনে মানুষের সাড়া দেওয়ার সময়ের(একটি নতুন উইন্ডোতে খোলে) অনুরূপ. এটি ইংরেজি টেক্সট ও কোডে GPT‑4 টার্বো পারফরম্যান্সের মতো, ইংরেজি ছাড়াও অন্য ভাষার টেক্সটে উল্লেখযোগ্য জবাব দিতে পারে, এবং একই সাথে API-তে অনেক দ্রুত ও 50% সাশ্রয়ী. বিদ্যমান মডেলের তুলনায় GPT‑4o বিশেষ করে দৃশ্য ও অডিও বোধগম্যতায় বেশ উন্নত.
মডেলের সক্ষমতা
দুটি GPT‑4o ইন্টারঅ্যাক্ট করছে ও গান গাইছে।
ইন্টারভিউ এর প্রস্তুতি।
রক পেপার সিজরস।
বিদ্রূপ।
সাল ও ইমরান খানের সাথে গণিত।
দুটি GPT‑4o একত্রে সমন্বয় করছে।
ইশারা করুন ও স্প্যানিশ শিখুন।
মিটিং AI।
তাৎক্ষণিক অনুবাদ।
লালাবাই।
দ্রুত কথা বলা।
শুভ জন্মদিন।
কুকুর।
ড্যাড জোকস।
অ্যান্ডি, লন্ডনের BeMyEyes-এর সাথে GPT‑4o।
কাস্টমার সার্ভিস প্রুফ অফ কনসেপ্ট।
GPT‑4O এর আগে, 2.8 ল্যাটেন্সিতে ( GPT -3.5) এবং গড়ে 5.4 সেকেন্ড (GPT‑4) আপনি ChatGPT তে ভয়েস মোড ব্যবহার করতে পারতেন. এটি অর্জন করতে, ভয়েস মোড তিনটি পৃথক মডেলের একটি পাইপলাইন: একটি সাধারণ মডেল অডিওকে টেক্সটে ট্রান্সক্রাইব করে, GPT‑3.5 বা GPT‑4 টেক্সট গ্রহণ করে এবং টেক্সট ফলাফল প্রদান করে, এবং তৃতীয় একটি সাধারণ মডেল সেই টেক্সটকে আবার অডিওতে রূপান্তর করে. এই প্রক্রিয়ার অর্থ হলো, বুদ্ধিমত্তার প্রধান উৎস GPT‑4 অনেক তথ্য হারিয়ে ফেলে—এটি সরাসরি টোন, একাধিক বক্তা বা ব্যাকগ্রাউন্ডের নয়েজ শনাক্ত করতে পারে না, এবং হাসি, গান বা আবেগ প্রকাশ করতে পারে না.
GPT‑4o‑এ, আমরা টেক্সট, দৃশ্য এবং অডিও এর জন্য একটি একক নতুন মডেল এন্ড-টু-এন্ড ট্রেইন করেছি, এর অর্থ হল সমস্ত ইনপুট এবং আউটপুট একই নিউরাল নেটওয়ার্কে প্রক্রিয়াকরণ করা হয়. GPT‑4o আমাদের প্রথম মডেল যা এই সমস্ত মোডালিটি সমন্বয় করেছে, তাই আমরা এখনও মডেল কতটা কী করতে পারে এবং এর সীমাবদ্ধতা অন্বেষণ করে যাচ্ছি.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

প্রচলিত মানদন্ড অনুযায়ী, GPT‑4o টেক্সট, রিজনিং ও কোডিং ইন্টেলিজেন্সে GPT‑4 টার্বো-লেভেল পারফরম্যান্স প্রদর্শন করে, এবং মাল্টিলিঙ্গুয়াল, অডিও ও দৃশ্যেও সক্ষমতা প্রদর্শন করে.
টেক্সট মূল্যায়ন
এই 20টি ভাষাকে বিভিন্ন ভাষা পরিবারের মধ্যে নতুন টোকেনাইজারের কম্প্রেশন প্রতিনিধি হিসেবে বেছে নেওয়া হয়েছিল
গুজরাটি 4.4x কম টোকেন (145 থেকে 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
তেলুগু 3.5x কম টোকেন (159 থেকে 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
তামিল 3.3x কম টোকেন (116 থেকে 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
মারাঠি 2.9x কম টোকেন (96 থেকে 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
হিন্দি 2.9x কম টোকেন (90 থেকে 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
উর্দু 2.5x কম টোকেন (82 থেকে 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
আরবি 2.0x কম টোকেন (53 থেকে 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
ফারসি 1.9x কম টোকেন (৬১ থেকে ৩২) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
রুশ 1.7x কম টোকেন (39 থেকে 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
কোরিয়ান 1.7x কম টোকেন (45 থেকে 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
ভিয়েতনামিজ 1.5x কম টোকেন (46 থেকে 30 পর্যন্ত) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
চাইনিজ 1.4x কম টোকেন (34 থেকে 34) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
জাপানি 1.4x কম টোকেন (৩৭ থেকে ২৬) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
টার্কিশ 1.3x কম টোকেন (39 থেকে 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
ইতালিয়ান 1.2x কম টোকেন (34 থেকে 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
জার্মান 1.2x কম টোকেন (34 থেকে 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
স্প্যানিশ 1.1x কম টোকেন (29 থেকে 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
পর্তুগিজ 1.1x কম টোকেন (30 থেকে 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
ফরাসি 1.1x কম টোকেন (31 থেকে 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
ইংরেজি 1.1x কম টোকেন (27 থেকে 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
প্রশিক্ষণের তথ্য ফিল্টার করা এবং পোস্ট-ট্রেনিংয়ের মাধ্যমে মডেলের আচরণ সংশোধনের মতো কৌশলগুলির মাধ্যমে GPT‑4o‑এর ডিজাইন-ভিত্তিক নিরাপত্তা রয়েছে। ভয়েস আউটপুটে সুরক্ষার জন্য আমরা নতুন নিরাপত্তা সিস্টেমও তৈরি করেছি।
আমরা GPT‑4o আমাদের প্রস্তুতি ফ্রেমওয়ার্ক অনুযায়ী এবং আমাদের স্বেচ্ছা প্রতিশ্রুতি এর সাথে সামঞ্জস্য রেখে মূল্যায়ন করেছি। সাইবারনিরাপত্তা, CBRN, প্ররোচনা এবং মডেল অটোনমি বিষয়ে আমাদের মূল্যায়নে দেখা গেছে GPT‑4o এই সমস্ত ক্যাটেগরির কোনোটিতেই মিডিয়াম রিস্কের ওপরে স্কোর আসেনি। এই মূল্যায়নে মডেল ট্রেইনিং প্রক্রিয়ায় একটি অটোমেটেড ও মানব মূলায়ন পরিচালনা করা হয়েছে। মডেলের সক্ষমতা আরও উন্নত করতে, আমরা কাস্টম ফাইন-টিউনিং এবং প্রম্পট ব্যবহার করে মডেলের প্রাক-নিরাপত্তা-মিটিগেশন এবং পরবর্তী-নিরাপত্তা-মিটিগেশন উভয় সংস্করণই পরীক্ষা করেছি।
নতুন যুক্ত করা মডালিটি প্রবর্তিত বা বর্ধিত ঝুঁকিগুলি সনাক্ত করতে সামাজিক মনোবিজ্ঞান, পক্ষপাতমূলক এবং ন্যায্যতা এবং ভুল তথ্যের মতো ডোমেইনে 70+ বাহ্যিক বিশেষজ্ঞদের মাধ্যমে GPT‑4o কে বিস্তৃত পরিসরে বাহ্যিক রেড টিমিংয়ে যাচাই করা হয়েছে। GPT‑4o এর সাথে মিথস্ক্রিয়ার নিরাপত্তা বৃদ্ধিতে আমরা আমাদের নিরাপত্তা ব্যবস্থা তৈরি করতে এই শিক্ষাগুলি ব্যবহার করেছি। নতুন ঝুঁকি সনাক্ত হলে আমরা প্রশমনে কাজ চালিয়ে যাব।
আমরা স্বীকার করছি, GPT‑4o‑এর অডিও মোডালিটি নানা ধরনের নতুন ঝুঁকি তৈরি করে। আমরা আজ সবার জন্য টেক্সট ও ছবি ইনপুট এবং টেক্সট আউটপুট রিলিজ করছি। আগামী কয়েক সপ্তাহ এবং মাস জুড়ে, আমরা প্রযুক্তিগত অবকাঠামো, প্রশিক্ষণ-পরবর্তী ব্যবহারের সুবিধা এবং অন্যান্য পদ্ধতিগুলি প্রকাশের জন্য প্রয়োজনীয় সুরক্ষা নিয়ে কাজ করব। উদাহরণস্বরূপ, লঞ্চের সময়, অডিও আউটপুটগুলি নির্দিষ্ট কিছু ভয়েসের মধ্যে সীমাবদ্ধ থাকবে এবং আমাদের বিদ্যমান নিরাপত্তা নীতিগুলি মেনে চলবে। আমরা আসন্ন সিস্টেম কার্ডে GPT‑4o এর সম্পূর্ণ মডালিটি সম্পর্কে আরও বিস্তারিত তথ্য শেয়ার করব।
মডেলটি আমাদের টেস্টিং এবং পুনরাবৃত্তির মাধ্যমে, আমরা মডেলের সমস্ত পদ্ধতিতে বিদ্যমান বেশ কয়েকটি সীমাবদ্ধতা লক্ষ্য করেছি, যার মধ্যে কয়েকটি নীচে উল্লেক করা হয়েছে।
মডেলের সীমাবদ্ধতার উদাহরণ
GPT‑4 টার্বো এখনও GPT‑4 কে ছাড়িয়ে যায় কিনা এমন কাজগুলি সনাক্ত করতে আমরা ফিডব্যাক গ্রহণ করতে চাই, যেন আমরা মডেলটি উন্নত করতে পারি, আপনাকে ধন্যবাদ।
আপডেটকৃত 8 মে, 2024
আমাদের প্রস্তুতি ফ্রেমওয়ার্ক এর অংশ হিসেবে, আমরা নিয়মিত মূল্যায়ন করি এবং আমাদের মডেলগুলির জন্য স্কোরকার্ড আপডেট করি. শুধু সেই মডেলই প্রয়োগ হয় যাদের পোস্ট-মিটিগেশন স্কোর “মিডিয়াম” বা তার নিচে. একটি মডেলের সামগ্রিক রিস্ক লেভেল নির্ধারণ করা হয় যেকোনো ক্যাটেগরিতে সর্বোচ্চ রিস্ক লেভেল দ্বারা. বর্তমানে মিটিগেশন প্রচেষ্টার আগে ও পরে উভয় ক্ষেত্রেই GPT‑4o‑কে মিডিয়াম রিস্কে মূল্যায়ন করা হয়েছে.
GPT‑4o হলো ডিপ লার্নিংয়ের সীমা এগিয়ে নেওয়ার আমাদের সর্বশেষ পদক্ষেপ, এবার বাস্তব ব্যবহারের ক্ষেত্রে. গত দুই বছরে আমরা স্ট্যাকের প্রতিটি লেয়ারে কার্যকারিতা উন্নত করতে অনেক পরিশ্রম করেছি. এই গবেষণার প্রথম ফল হিসেবে আমরা GPT‑4 লেভেলের একটি মডেল আরও বড় আকারে নিয়ে আসতে পেরেছি. GPT‑4o‑এর সক্ষমতা ধাপে ধাপে বাড়বে (আজ থেকে বর্ধিত রেড টিম অ্যাকসেস শুরু হচ্ছে).
GPT‑4o‑এর টেক্সট ও ছবির সক্ষমতা আজ থেকেই ChatGPT‑তে রোল আউট শুরু হচ্ছে. আমরা GPT‑4o ফ্রি করছি, এবং প্লাস ব্যবহারকারীদের জন্য 5 গুণ বেশি মেসেজ লিমিট. আমরা আগামী কয়েক সপ্তাহের মধ্যে ChatGPT প্লাস-এ আলফা ভার্সনে GPT‑4o সহ ভয়েস মোডের একটি নতুন সংস্করণ চালু করব.
API-তে ডেভেলপাররা এখন টেক্সট ও দৃশ্য মডেল হিসেবে GPT‑4o‑এ অ্যাক্সেস করতে পারবেন. GPT‑4o 2x দ্রুততর, অর্ধেক দাম, এবং GPT‑4 টার্বো-এর তুলনায় 5x বেশি রেট লিমিট. আমরা আগামী কয়েক সপ্তাহে API-তে কিছু বিশ্বস্ত অংশীদারদের জন্য GPT‑4o‑এর নতুন অডিও ও ভিডিও সক্ষমতা সাপোর্ট লঞ্চ করার পরিকল্পনা করছি.