GPT‑4o が登場
当社は、音声、視覚情報、テキストをリアルタイムで一括処理・出力できる新しいフラッグシップモデル、GPT‑4o を発表します。
5月13日の発表内容を推測する動画
GPT‑4o(「o」は「omni」の略称)は、より自然な人間とコンピューターのインタラクションに向けて前進する一歩となります。GPT‑4o は、テキスト、音声、画像、動画を組み合わせた入力を処理し、テキスト、音声、画像を組み合わせた出力を生成します。最短で232ミリ秒、平均で320ミリ秒の速さで音声入力に応答できます。この応答速度は、会話における人間の応答速度(新しいウィンドウで開く)とほぼ同じです。GPT‑4 Turbo に匹敵する英語テキストおよびコード生成性能を発揮します。また、英語以外の言語のテキストの性能も大幅に改良されています。さらに API は GPT‑4 Turbo よりもはるかに高速であるにも関わらず、料金は GPT‑4 Turbo の半額です。GPT‑4o は既存のモデルと比べ特に視覚情報と音声の理解力に優れています。
モデルの能力
連携して歌う2つの GPT‑4o
面接の準備
じゃんけん
冗談・皮肉
Sal Khan 氏の息子 Imran 君との数学
ハモる2つの GPT‑4o
物の名前をスペイン語で応える
ミーテングに参加する AI
リアルタイムで翻訳
子守歌
速く話す
誕生日を祝う
犬と交流
パパになる男性のおやじギャグ
ロンドンの街で BeMyEyes の Andy 氏をサポートする GPT‑4o
カスタマーサービスの概念実証
GPT‑4o が登場する前も、音声モードを使用して ChatGPT と会話をすることはできましたが、平均で GPT‑3.5 では2.8秒、GPT‑4 では5.4秒の遅延がありました。ChatGPT との会話を実現するため、音声モードは3つの個別のモデルのパイプラインで構成されています。1つ目のシンプルなモデルが音声をテキストに変換し、GPT‑3.5 または GPT‑4 がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に変換します。このプロセスでは、主な情報源である GPT‑4 が声のトーンや複数の話者、背景の雑音を直接確認できず、笑い声や歌声、感情表現を出力できません。すなわち GPT‑4 が多くの情報を失っているのです。
GPT‑4o では、テキスト、視覚情報、音声を対象にエンドツーエンドの処理を行う単一の新しいモデルを学習させました。つまり、同じニューラル ネットワークによって入力と出力が処理されるということです。GPT‑4o は、これらすべてのモダリティを組み合わせた当社初のモデルのため、このモデルができることやこのモデルの限界については今なお手探りの状態です。
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

従来の基準に従って測定した結果、GPT‑4o はテキスト、論理的思考、コード生成の点では GPT‑4 Turbo と同等の性能を発揮し、多言語、音声、視覚情報の能力では新たな最高水準を設定していることが明らかとなりました。
テキスト評価
以下の20言語がさまざまな言語ファミリーを網羅する新しいトークナイザーの圧縮能力を代表する言語として選ばれました
中国語:トークンが4.4倍減少(145から33へ) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
テルグ語:トークンが3.5倍減少(159から45へ) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
タミル語:トークンが3.3倍減少(116から35へ) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
マラーティー語:トークンが2.9倍減少(96から33へ) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
ヒンズー語:トークンが2.9倍減少(90から31へ) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
ウルドゥー語:トークンが2.5倍減少(82から33へ) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
アラビア語:トークンが2.0倍減少(53から26へ) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
ペルシャ語:トークンが1.9倍減少(61から32へ) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
ロシア語:トークンが1.7倍減少(39から23へ) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
韓国語:トークンが1.7倍減少(45から27へ) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
ベトナム語:トークンが1.5倍減少(46から30へ) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
中国語:トークンが1.4倍減少(34から24へ) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
日本語:トークンが1.4倍減少(37から26へ) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
トルコ語:トークンが1.3倍減少(39から30へ) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
イタリア語:トークンが1.2倍減少(34から28へ) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
ドイツ語:トークンが1.2倍減少(34から29へ) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
スペイン語:トークンが1.1倍減少(29から26へ) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
ポルトガル語:トークンが1.1倍減少(30から27へ) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
フランス語:トークンが1.1倍減少(31から28へ) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
英語:トークンが1.1倍減少(27から24へ) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o には、学習データへのフィルター適用や、学習後のモデルの動作の改良などの技術を通して、あらゆるモダリティを対象とした安全性が内蔵されています。また、音声出力にガードレールを提供するため、新たな安全システムも開発しました。
当社は、Preparedness Framework と自発的取り組みに従って GPT‑4o を評価しました。サイバーセキュリティ、CBRN、説得力、モデルの自律性の評価より、GPT‑4o がこれらすべてのカテゴリーで中程度のリスクを上回るスコアに到達していないことが明らかとなりました。この評価には、モデルの学習プロセスを通して自動で行われた評価と人間によって行われた評価が含まれました。モデルの能力をさらに良い形で発揮させるため、カスタム仕様のファインチューニングとプロンプトを使用して、安全性を軽減する前のバージョンと安全性を軽減した後のバージョンの両方をテストしました。
さらに新たに追加されたモダリティによってもたらされる、もしくは増幅されるリスクを特定するため、社会心理学、偏見、公正、誤情報といった領域を専門とする70人以上の外部専門家の協力を得て、GPT‑4o を対象に広範にわたるレッドチーミングを実施しました。これらの評価やテストの結果を利用し、当社は GPT‑4o とのインタラクションの安全性を改善するため、独自の安全性の介入策を構築しました。新たなリスクが生じた場合には、新たなリスクを軽減し続けます。
当社は GPT‑4o のモダリティのひとつである音声が新たにさまざまなリスクをもたらしていることを認識しています。本日、当社はテキストと画像の入力とテキストの出力を正式にリリースします。今後数週間および数ヶ月にわたり、当社は他のモダリティをリリースするために必要な技術基盤、学習後の使いやすさ、安全性に取り組む予定です。たとえば、ローンチ時点では、音声出力はプリセット音声からしか選択できず、当社の既存の安全性に関するポリシーを遵守します。まもなく発表予定の System Card で GPT‑4o のすべてのモダリティへの対応に関する詳細を共有予定させていただく予定です。
自社テストとモデルのバージョンを通して、当社はモデルのモダリティすべてにいくつかの制限が存在することを突き止めました。以下はその一例となります。
モデルの制限の例
引き続きモデルを改善するため、当社は GPT‑4 Turbo が GPT‑4o を上回るパフォーマンスを発揮するタスクを特定する上で役立つフィードバックをお伺いしたいと考えています。
更新日:2024年5月8日
Preparedness Framework の一環として当社は、自社モデルのスコアカードを定期的に評価し、アップデートしています。軽減後のスコアが「中程度」を下回るモデルのみが展開されます。モデルの総合的なリスクは、どのカテゴリーでも最高リスクレベルによって決まります。現在 GPT‑4o のリスクはリスク軽減の取り組み前も後も中程度と評価されています。
GPT‑4o は、ディープラーニングの境界を押し上げることを目的とした当社の取り組みを一歩先に―今回は実用的な使いやすさの面で―前進させるものです。この2年間、スタックのあらゆるレイヤーで効率を向上させるための取り組みに多くの労力を注いできました。この研究で最初に得られた成果として、当社は GPT‑4 レベルのモデルをこれまでよりもはるかに幅広いユーザーに提供できるようになりました。GPT‑4o の能力は、段階的に展開される予定です(レッドチームのアクセスの拡大は本日より開始されています)。
GPT‑4o のテキスト能力と画像能力は本日より ChatGPT で展開される予定です。無料のティアにも GPT‑4o を提供しており、Plus のユーザーのメッセージ上限は最大5倍となります。今後数週間以内に GPT‑4o と共に ChatGPT Plus のアルファ版で音声モードの新バージョンを展開する予定です。
また開発者はテキストモデルと視覚モデルとして API 内で GPT‑4o にアクセスできるようになりました。GPT‑4o は、GPT‑4 Turbo に比べ速度が2倍速く、コストが半分で、レート制限が5倍高いモデルです。今後数週間以内に、API で少人数のグループを対象に GPT‑4o の新しい音声および動画能力のサポートを提供する予定です。