۲۴ اردیبهشت ۱۴۰۳

سلام GPT‑4o

ما GPT‑4o، مدل پرچمدار جدید خود را که می‌تواند صدا، تصویر و متن را به صورت بلادرنگ پردازش کند، معرفی می‌کنیم.

مشارکت ها ChatGPT را امتحان کنید کارت سیستم GPT-4o

تمام ویدیوهای این صفحه با سرعت واقعی 1 برابر پخش می‌شوند.

حدس زدن اعلامیه 13 مه.

منابع بیشتر

در Playground امتحان کنید پخش زنده را دوباره تماشا کنید

در حال بارگذاری…

GPT‑4o («o» برای «omni») گامی به سوی تعامل بسیار طبیعی‌تر انسان و کامپیوتر است - هر ترکیبی از متن، صدا، تصویر و ویدئو را به عنوان ورودی می‌پذیرد و هر ترکیبی از متن، صدا و تصویر را به عنوان خروجی تولید می‌کند. این دستگاه می‌تواند به ورودی‌های صوتی در کمتر از 232 میلی‌ثانیه پاسخ دهد، با میانگین 320 میلی‌ثانیه، که شبیه به زمان پاسخ انسان⁠(در یک پنجره جدید باز می‌شود) در یک مکالمه است. این با عملکرد GPT‑4 Turbo در متن‌های انگلیسی و کد مطابقت دارد، با بهبود قابل توجهی در متن‌های زبان‌های غیرانگلیسی، و در عین حال در API بسیار سریع‌تر و ۵۰٪ ارزان‌تر است. GPT‑4o به‌ویژه درک بهتری از بینایی و صوت در مقایسه با مدل‌های موجود دارد.

قابلیت‌های مدل

دو GPT‑4 در حال تعامل و آواز خواندن.

آمادگی مصاحبه.

سنگ کاغذ قیچی.

طعنه و کنایه.

ریاضی با سال و عمران خان.

دو GPT‑4os در حال هماهنگ شدن هستند.

اشاره کنید و اسپانیایی یاد بگیرید.

ملاقات با AI.

ترجمه هم‌زمان.

لالایی.

تندتر صحبت کردن.

تولدت مبارک.

سگ.

بابا شوخی می‌کند.

GPT‑4o با اندی، از BeMyEyes در لندن.

اثبات مفهوم خدمات مشتری.

قبل از GPT‑4o، می‌توانستید از حالت صوتی⁠ برای صحبت با ChatGPT با تأخیر 2.8 ثانیه (GPT‑3.5) و به طور متوسط 5.4 ثانیه (GPT‑4) استفاده کنید. برای رسیدن به این هدف، حالت دستیار صوتی یک خط لوله از سه مدل جداگانه است: یک مدل ساده صدا را به متن تبدیل می‌کند، GPT‑3.5 یا GPT‑4 متن را می‌گیرد و متن را تولید می‌کند و مدل ساده سوم آن متن را به صدا برمی‌گرداند. این فرایند به این معناست که منبع اصلی هوش، GPT‑4، اطلاعات زیادی را از دست می‌دهد—نمی‌تواند به‌طور مستقیم لحن، چندین گوینده یا صداهای پس‌زمینه را مشاهده کند و نمی‌تواند خنده، آواز یا ابراز احساسات را تولید کند.

با GPT‑4o، ما یک مدل جدید واحد را به صورت سرتاسری در متن، تصویر و صدا آموزش دادیم، به این معنی که تمام ورودی‌ها و خروجی‌ها توسط یک شبکه عصبی یکسان پردازش می‌شوند. چون GPT‑4o اولین مدل ماست که همه این قابلیت‌ها را ترکیب می‌کند، ما هنوز فقط در حال کشف سطحی از آنچه مدل می‌تواند انجام دهد و محدودیت‌های آن هستیم.

بررسی قابلیت‌ها

نمونه را انتخاب کن:

ورودی

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

خروجی

ورودی

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

خروجی

ورودی

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

خروجی

ارزیابی‌های مدل

همانطور که در معیارهای سنتی اندازه‌گیری می‌شود، GPT‑4o به عملکردی در سطح GPT‑4 Turbo در زمینه متن، استدلال و هوش کدگذاری دست می‌یابد، در حالی که در قابلیت‌های چندزبانه، صوتی و تصویری، رکوردهای بالایی را ثبت می‌کند.

ارزیابی متن

توکن‌سازی زبان

این 20 زبان به‌عنوان نماینده‌ای از فشرده‌سازی توکنایزر جدید در میان خانواده‌های زبانی مختلف انتخاب شدند

گجراتی ۴.۴ برابر توکن‌های کمتری (از ۱۴۵ به ۳۳) دارد	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
تلوگو ۳.۵ برابر کمتر توکن (از ۱۵۹ به ۴۵)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
تعداد توکن‌ها در زبان تامیل ۳.۳ برابر کمتر شده است (از ۱۱۶ به ۳۵)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
2.9 Marathi برابر کمتر توکن‌ها (از۹۶ به ۳۳)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
هندی ۲.۹ برابر توکن کمتری دارد (از ۹۰ به ۳۱)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
اردو ۲.۵ برابر کمتر توکن (از ۸۲ به ۳۳)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
عربی ۲.۰ برابر توکن کمتر (از ۵۳ به ۲۶)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
در زبان فارسی ۱.۹ برابر توکن کمتری (از ۶۱ به ۳۲) استفاده می‌شود	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
روسی ۱.۷ برابر توکن‌ها کمتری (از ۳۹ به ۲۳)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
کره‌ای ۱.۷ برابر توکن‌ها کمتری دارد (از ۴۵ به ۲۷)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
ویتنامی ١.۵ برابر توکن کمتری دارد (از ۴۶ به ٣٠)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
چینی ۱.۴ برابر توکن‌ها کمتر (از ۳۴ به ۲۴)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
ژاپنی ۱.۴ برابر توکن کمتری (از ۳۷ به ۲۶) دارد	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
ترکی ۱.۳ برابر توکن کمتری دارد (از ۳۹ به ۳۰)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
ایتالیایی ۱.۲ برابر توکن کمتری دارد (از ۳۴ به ۲۸)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
آلمانی ۱.۲ برابر کمتر توکن (از ۳۴ به ۲۹)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
اسپانیایی ۱.۱ برابر توکن‌های کمتری (از ۲۹ به ۲۶)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
پرتغالی ۱.۱ برابر کمتر توکن (از ۳۰ به ۲۷)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
فرانسوی ۱.۱ برابر توکن کمتر (از ۳۱ به ۲۸)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
انگلیسی ۱.۱ برابر توکن کمتر (از ۲۷ به ۲۴)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

ایمنی و محدودیت‌های مدل

GPT‑4o به‌طور ذاتی ایمنی را در تمامی روش‌ها از طریق تکنیک‌هایی مانند فیلتر کردن داده‌های آموزشی و اصلاح رفتار مدل پس از آموزش، در خود جای داده است. ما همچنین سیستم‌های ایمنی جدیدی را برای ارائه گاردریل در خروجی‌های دستیار صوتی ایجاد کرده‌ایم.

ما GPT‑4o را بر اساس چارچوب آمادگی⁠ و در راستای تعهدات داوطلبانه⁠ خود ارزیابی کرده‌ایم. ارزیابی‌های ما از امنیت سایبری، CBRN، اقناع و خودمختاری مدل نشان می‌دهد که GPT‑4o در هیچ‌یک از این دسته‌ها امتیازی بالاتر از خطر متوسط ندارد. این ارزیابی شامل اجرای مجموعه‌ای از ارزیابی‌های خودکار و انسانی در طول فرآیند آموزش مدل بود. ما هر دو نسخه قبل از کاهش ایمنی و بعد از کاهش ایمنی مدل را با استفاده از تنظیم دقیق سفارشی و دستورات آزمایش کردیم تا قابلیت‌های مدل را بهتر استخراج کنیم.

GPT‑4o همچنین تحت یک تیم قرمز خارجی گسترده با بیش از 70 متخصص خارجی⁠ در حوزه‌هایی مانند روانشناسی اجتماعی، تعصب و انصاف و اطلاعات نادرست قرار گرفته است تا خطراتی را که توسط روش‌های جدید اضافه شده ایجاد یا تقویت می‌شوند، شناسایی کند. ما از این آموخته‌ها برای توسعه مداخلات ایمنی خود به منظور بهبود ایمنی تعامل با GPT‑4o استفاده کردیم. ما به کاهش خطرات جدید به محض کشف آنها ادامه خواهیم داد.

ما متوجه هستیم که قابلیت‌های صوتی GPT‑4o خطرات جدیدی را به همراه دارند. امروز ما ورودی‌ها و خروجی‌های متن و تصویر را به‌طور عمومی منتشر می‌کنیم. در هفته‌ها و ماه‌های آینده، ما روی زیرساخت‌های فنی، قابلیت استفاده از طریق آموزش پس از آموزش، و ایمنی لازم برای انتشار سایر روش‌ها کار خواهیم کرد. به عنوان مثال، در زمان راه‌اندازی، خروجی‌های صوتی به مجموعه‌ای از دستیارهای صوتی از پیش تعیین‌شده محدود خواهند شد و از سیاست‌های ایمنی موجود ما پیروی خواهند کرد. ما جزئیات بیشتری را درباره طیف کامل قابلیت‌های GPT‑4o در کارت سیستم آینده به اشتراک خواهیم گذاشت.

در طی آزمایش و تکرار با مدل، چندین محدودیت را مشاهده کرده‌ایم که در تمام جنبه‌های مدل وجود دارد و تعدادی از آنها در زیر نشان داده شده‌اند.

نمونه‌هایی از محدودیت‌های مدل

ما از دریافت بازخورد برای شناسایی وظایفی که GPT‑4 Turbo هنوز در آنها از GPT‑4o بهتر عمل می‌کند، استقبال می‌کنیم تا بتوانیم به بهبود مدل ادامه دهیم، متشکرم.

کارت امتیازی ریسک ChatGPT-4o

^{به‌روزرسانی شده در 8 مه 2024}

دسته ریسک پیگیری شده

سطح ریسک قبل از کاهش

سطح ریسک قبل از کاهش را با استفاده از بهترین تکنیک‌های شناخته‌شده استخراج قابلیت تعیین کنید

سطح ریسک پس از کاهش خطرات

سطح کلی ریسک را پس از اعمال کاهش‌ها با استفاده از بهترین تکنیک‌های شناخته‌شده برای استخراج قابلیت‌ها تعیین کنید

امنیت سایبری

کم

CBRN

کم

اقناع

متوسط

خودمختاری مدل

کم

به عنوان بخشی از چارچوب آمادگی⁠مان، ارزیابی‌های منظمی انجام می‌دهیم و کارت‌های امتیازی مدل‌هایمان را به‌روزرسانی می‌کنیم. فقط مدل‌هایی که امتیاز پس از کاهش آن‌ها "متوسط" یا کمتر است، مستقر می‌شوند. سطح کلی ریسک یک مدل با بالاترین سطح ریسک در هر دسته تعیین می‌شود. در حال حاضر، GPT‑4o هم قبل و هم بعد از تلاش‌های کاهش، در معرض خطر متوسط ارزیابی می‌شود.

در دسترس بودن مدل 1

GPT‑4o آخرین گام ما در گسترش مرزهای یادگیری عمیق است، این بار در جهت کاربرد عملی. ما در دو سال گذشته تلاش زیادی برای بهبود کارایی در هر لایه از پشته انجام دادیم. به عنوان اولین دستاورد این تحقیق، می‌توانیم مدل سطح GPT‑4 را به‌طور بسیار گسترده‌تری در دسترس قرار دهیم. قابلیت‌های GPT‑4o به صورت تدریجی گسترش خواهند یافت (و از امروز دسترسی تیم قرمز به آن گسترش خواهد یافت).

قابلیت‌های متن و تصویر GPT‑4o از امروز در ChatGPT شروع به کار کرده‌اند. ما GPT‑4o را در سطح رایگان و برای کاربران Plus با حداکثر 5 برابر محدودیت پیام بالاتر در دسترس قرار می‌دهیم. ما در هفته‌های آینده نسخه جدیدی از حالت دستیار صوتی را با GPT‑4o در نسخه آلفا در ChatGPT Plus ارائه خواهیم کرد.

توسعه‌دهندگان همچنین اکنون می‌توانند به GPT‑4o در API به‌عنوان یک مدل متنی و دیداری دسترسی داشته باشند. GPT‑4o دو برابر سریع‌تر، نصف قیمت و دارای محدودیت نرخ پنج برابر بیشتر نسبت به GPT‑4 Turbo است. ما قصد داریم پشتیبانی از قابلیت‌های صوتی و تصویری جدید GPT‑4o را برای گروه کوچکی از شرکای مورد اعتماد در API در هفته‌های آینده ارائه کنیم.

نویسنده‌ها

OpenAI

مشاهده مشارکت کنندگان

سلام GPT‑4o

قابلیت‌های مدل

بررسی قابلیت‌ها

ارزیابی‌های مدل

ارزیابی متن

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

توکن‌سازی زبان

ایمنی و محدودیت‌های مدل

کارت امتیازی ریسک ChatGPT-4o

در دسترس بودن مدل 1

نویسنده‌ها