سلام GPT‑4o
ما GPT‑4o، مدل پرچمدار جدید خود را که میتواند صدا، تصویر و متن را به صورت بلادرنگ پردازش کند، معرفی میکنیم.
حدس زدن اعلامیه 13 مه.
GPT‑4o («o» برای «omni») گامی به سوی تعامل بسیار طبیعیتر انسان و کامپیوتر است - هر ترکیبی از متن، صدا، تصویر و ویدئو را به عنوان ورودی میپذیرد و هر ترکیبی از متن، صدا و تصویر را به عنوان خروجی تولید میکند. این دستگاه میتواند به ورودیهای صوتی در کمتر از 232 میلیثانیه پاسخ دهد، با میانگین 320 میلیثانیه، که شبیه به زمان پاسخ انسان(در یک پنجره جدید باز میشود) در یک مکالمه است. این با عملکرد GPT‑4 Turbo در متنهای انگلیسی و کد مطابقت دارد، با بهبود قابل توجهی در متنهای زبانهای غیرانگلیسی، و در عین حال در API بسیار سریعتر و ۵۰٪ ارزانتر است. GPT‑4o بهویژه درک بهتری از بینایی و صوت در مقایسه با مدلهای موجود دارد.
قابلیتهای مدل
دو GPT‑4 در حال تعامل و آواز خواندن.
آمادگی مصاحبه.
سنگ کاغذ قیچی.
طعنه و کنایه.
ریاضی با سال و عمران خان.
دو GPT‑4os در حال هماهنگ شدن هستند.
اشاره کنید و اسپانیایی یاد بگیرید.
ملاقات با AI.
ترجمه همزمان.
لالایی.
تندتر صحبت کردن.
تولدت مبارک.
سگ.
بابا شوخی میکند.
GPT‑4o با اندی، از BeMyEyes در لندن.
اثبات مفهوم خدمات مشتری.
قبل از GPT‑4o، میتوانستید از حالت صوتی برای صحبت با ChatGPT با تأخیر 2.8 ثانیه (GPT‑3.5) و به طور متوسط 5.4 ثانیه (GPT‑4) استفاده کنید. برای رسیدن به این هدف، حالت دستیار صوتی یک خط لوله از سه مدل جداگانه است: یک مدل ساده صدا را به متن تبدیل میکند، GPT‑3.5 یا GPT‑4 متن را میگیرد و متن را تولید میکند و مدل ساده سوم آن متن را به صدا برمیگرداند. این فرایند به این معناست که منبع اصلی هوش، GPT‑4، اطلاعات زیادی را از دست میدهد—نمیتواند بهطور مستقیم لحن، چندین گوینده یا صداهای پسزمینه را مشاهده کند و نمیتواند خنده، آواز یا ابراز احساسات را تولید کند.
با GPT‑4o، ما یک مدل جدید واحد را به صورت سرتاسری در متن، تصویر و صدا آموزش دادیم، به این معنی که تمام ورودیها و خروجیها توسط یک شبکه عصبی یکسان پردازش میشوند. چون GPT‑4o اولین مدل ماست که همه این قابلیتها را ترکیب میکند، ما هنوز فقط در حال کشف سطحی از آنچه مدل میتواند انجام دهد و محدودیتهای آن هستیم.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

همانطور که در معیارهای سنتی اندازهگیری میشود، GPT‑4o به عملکردی در سطح GPT‑4 Turbo در زمینه متن، استدلال و هوش کدگذاری دست مییابد، در حالی که در قابلیتهای چندزبانه، صوتی و تصویری، رکوردهای بالایی را ثبت میکند.
ارزیابی متن
این 20 زبان بهعنوان نمایندهای از فشردهسازی توکنایزر جدید در میان خانوادههای زبانی مختلف انتخاب شدند
گجراتی ۴.۴ برابر توکنهای کمتری (از ۱۴۵ به ۳۳) دارد | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
تلوگو ۳.۵ برابر کمتر توکن (از ۱۵۹ به ۴۵) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
تعداد توکنها در زبان تامیل ۳.۳ برابر کمتر شده است (از ۱۱۶ به ۳۵) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
2.9 Marathi برابر کمتر توکنها (از۹۶ به ۳۳) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
هندی ۲.۹ برابر توکن کمتری دارد (از ۹۰ به ۳۱) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
اردو ۲.۵ برابر کمتر توکن (از ۸۲ به ۳۳) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
عربی ۲.۰ برابر توکن کمتر (از ۵۳ به ۲۶) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
در زبان فارسی ۱.۹ برابر توکن کمتری (از ۶۱ به ۳۲) استفاده میشود | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
روسی ۱.۷ برابر توکنها کمتری (از ۳۹ به ۲۳) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
کرهای ۱.۷ برابر توکنها کمتری دارد (از ۴۵ به ۲۷) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
ویتنامی ١.۵ برابر توکن کمتری دارد (از ۴۶ به ٣٠) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
چینی ۱.۴ برابر توکنها کمتر (از ۳۴ به ۲۴) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
ژاپنی ۱.۴ برابر توکن کمتری (از ۳۷ به ۲۶) دارد | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
ترکی ۱.۳ برابر توکن کمتری دارد (از ۳۹ به ۳۰) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
ایتالیایی ۱.۲ برابر توکن کمتری دارد (از ۳۴ به ۲۸) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
آلمانی ۱.۲ برابر کمتر توکن (از ۳۴ به ۲۹) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
اسپانیایی ۱.۱ برابر توکنهای کمتری (از ۲۹ به ۲۶) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
پرتغالی ۱.۱ برابر کمتر توکن (از ۳۰ به ۲۷) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
فرانسوی ۱.۱ برابر توکن کمتر (از ۳۱ به ۲۸) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
انگلیسی ۱.۱ برابر توکن کمتر (از ۲۷ به ۲۴) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o بهطور ذاتی ایمنی را در تمامی روشها از طریق تکنیکهایی مانند فیلتر کردن دادههای آموزشی و اصلاح رفتار مدل پس از آموزش، در خود جای داده است. ما همچنین سیستمهای ایمنی جدیدی را برای ارائه گاردریل در خروجیهای دستیار صوتی ایجاد کردهایم.
ما GPT‑4o را بر اساس چارچوب آمادگی و در راستای تعهدات داوطلبانه خود ارزیابی کردهایم. ارزیابیهای ما از امنیت سایبری، CBRN، اقناع و خودمختاری مدل نشان میدهد که GPT‑4o در هیچیک از این دستهها امتیازی بالاتر از خطر متوسط ندارد. این ارزیابی شامل اجرای مجموعهای از ارزیابیهای خودکار و انسانی در طول فرآیند آموزش مدل بود. ما هر دو نسخه قبل از کاهش ایمنی و بعد از کاهش ایمنی مدل را با استفاده از تنظیم دقیق سفارشی و دستورات آزمایش کردیم تا قابلیتهای مدل را بهتر استخراج کنیم.
GPT‑4o همچنین تحت یک تیم قرمز خارجی گسترده با بیش از 70 متخصص خارجی در حوزههایی مانند روانشناسی اجتماعی، تعصب و انصاف و اطلاعات نادرست قرار گرفته است تا خطراتی را که توسط روشهای جدید اضافه شده ایجاد یا تقویت میشوند، شناسایی کند. ما از این آموختهها برای توسعه مداخلات ایمنی خود به منظور بهبود ایمنی تعامل با GPT‑4o استفاده کردیم. ما به کاهش خطرات جدید به محض کشف آنها ادامه خواهیم داد.
ما متوجه هستیم که قابلیتهای صوتی GPT‑4o خطرات جدیدی را به همراه دارند. امروز ما ورودیها و خروجیهای متن و تصویر را بهطور عمومی منتشر میکنیم. در هفتهها و ماههای آینده، ما روی زیرساختهای فنی، قابلیت استفاده از طریق آموزش پس از آموزش، و ایمنی لازم برای انتشار سایر روشها کار خواهیم کرد. به عنوان مثال، در زمان راهاندازی، خروجیهای صوتی به مجموعهای از دستیارهای صوتی از پیش تعیینشده محدود خواهند شد و از سیاستهای ایمنی موجود ما پیروی خواهند کرد. ما جزئیات بیشتری را درباره طیف کامل قابلیتهای GPT‑4o در کارت سیستم آینده به اشتراک خواهیم گذاشت.
در طی آزمایش و تکرار با مدل، چندین محدودیت را مشاهده کردهایم که در تمام جنبههای مدل وجود دارد و تعدادی از آنها در زیر نشان داده شدهاند.
نمونههایی از محدودیتهای مدل
ما از دریافت بازخورد برای شناسایی وظایفی که GPT‑4 Turbo هنوز در آنها از GPT‑4o بهتر عمل میکند، استقبال میکنیم تا بتوانیم به بهبود مدل ادامه دهیم، متشکرم.
بهروزرسانی شده در 8 مه 2024
به عنوان بخشی از چارچوب آمادگیمان، ارزیابیهای منظمی انجام میدهیم و کارتهای امتیازی مدلهایمان را بهروزرسانی میکنیم. فقط مدلهایی که امتیاز پس از کاهش آنها "متوسط" یا کمتر است، مستقر میشوند. سطح کلی ریسک یک مدل با بالاترین سطح ریسک در هر دسته تعیین میشود. در حال حاضر، GPT‑4o هم قبل و هم بعد از تلاشهای کاهش، در معرض خطر متوسط ارزیابی میشود.
GPT‑4o آخرین گام ما در گسترش مرزهای یادگیری عمیق است، این بار در جهت کاربرد عملی. ما در دو سال گذشته تلاش زیادی برای بهبود کارایی در هر لایه از پشته انجام دادیم. به عنوان اولین دستاورد این تحقیق، میتوانیم مدل سطح GPT‑4 را بهطور بسیار گستردهتری در دسترس قرار دهیم. قابلیتهای GPT‑4o به صورت تدریجی گسترش خواهند یافت (و از امروز دسترسی تیم قرمز به آن گسترش خواهد یافت).
قابلیتهای متن و تصویر GPT‑4o از امروز در ChatGPT شروع به کار کردهاند. ما GPT‑4o را در سطح رایگان و برای کاربران Plus با حداکثر 5 برابر محدودیت پیام بالاتر در دسترس قرار میدهیم. ما در هفتههای آینده نسخه جدیدی از حالت دستیار صوتی را با GPT‑4o در نسخه آلفا در ChatGPT Plus ارائه خواهیم کرد.
توسعهدهندگان همچنین اکنون میتوانند به GPT‑4o در API بهعنوان یک مدل متنی و دیداری دسترسی داشته باشند. GPT‑4o دو برابر سریعتر، نصف قیمت و دارای محدودیت نرخ پنج برابر بیشتر نسبت به GPT‑4 Turbo است. ما قصد داریم پشتیبانی از قابلیتهای صوتی و تصویری جدید GPT‑4o را برای گروه کوچکی از شرکای مورد اعتماد در API در هفتههای آینده ارائه کنیم.