メインコンテンツにスキップ

2023年9月25日

製品

ChatGPT は今、見て、聞いて、話すことができます

ChatGPT は今、見て、聞いて、話すことができます

現在、ChatGPT で新しい音声と画像の機能を公開し始めています。これらの機能は、音声での会話や話していることに関する画像の提示を可能にすることによって、より直感的なインターフェースを提供します。

音声と画像は、日常生活の中で ChatGPT を活用できる方法を増やしてくれます。旅行中に観光地の写真を撮影して、その写真の何が興味深いかについて生き生きとした会話をすることができます。自宅にいるときは、冷蔵庫や食糧庫の写真を撮影すれば、夕食の献立を考えるのに役立ちます(その後は詳しいレシピについて聞くこともできます)。夕食が済んだ後は、子供が算数の勉強をする際に、問題の写真を撮り、問題に丸を付け、子供とヒントを共有することによって、勉強のサポートをすることができます。

音声と画像の機能は、今後2週間の間に ChatGPT Plus と Enterprise のユーザーの間で利用できるようになります。音声は iOS と Android (設定でオプトイン)で利用可能になり、画像はすべてのプラットフォームで利用できるようになります。

話しかければ応える ChatGPT

これからは音声でアシスタントとの会話のやり取りができるようになります。外出先で会話をしたり、子供が寝る際のおとぎ話をリクエストしたり、夕食時の議論を決着させたりできます。

音声でアシスタントとの会話のやり取りをしてみましょう。

音声機能を使用するにはモバイルアプリで「設定Settings」から「新機能New Features」へ移動し、音声による会話にオプトインしてください。次に、ホーム画面の右上にあるヘッドホンボタンをタップし、5種類の音声からお好みのものを選択してください。

この新たな音声機能は新しいテキスト読み上げモデルに基づいているので、テキストのみや数秒のサンプル音声から実際に人が話しているような音声を生成することができます。利用できる5種類の音声は、プロの声優の協力を得て作り出されたものです。また、当社のオープンソース型音声認識システムである Whisper を利用することによって、話した内容をテキストに書き起こすこともできます。

読み込み中...

画像について会話

ChatGPT に1枚以上の画像を提示できるようになりました。グリルに火がつかない理由を調べて問題を解決したり、冷蔵庫の中を見せて献立をたてるのに役立てたり、仕事関連のデータの複雑なグラフを分析したりできます。モバイルアプリの描画ツールを使えば、画像内の特定の部分にフォーカスすることができます。

ChatGPT に複数の画像を提示しましょう。

この機能を使用するには、写真ボタンをタップして撮影をするか、画像を選択してください。iOS または Android を使用している場合は、まずプラスボタンをタップしてください。また、複数の画像について議論したり、描画ツールを使って GPT を導いたりすることもできます。

画像の理解は、マルチモーダルの GPT‐3.5 と GPT‐4 に基づいています。これらのモデルは、写真や、スクリーンショット、そしてテキストと画像を含む文書など、幅広い画像にその言語リーズニングスキルを応用しています。

徐々に画像と音声の機能を展開

OpenAI の目標は、安全かつ有益な汎用人工知能を構築することです。当社はツールを徐々に利用できるようにした方が良いと考えています。そうすることで、時間をかけながら改善を施したり、リスクの緩和策を洗練させたりできるので、将来的に誰もがより強力なシステムを利用できる準備を整えることができます。この戦略は音声と画像が関わる高度なモデルでは更に重要になります。

音声

この新たな音声テクノロジーは、わずか数秒の実際の音声からリアルな合成音声を作り出せるので、多くのクリエイティブでアクセシビリティにフォーカスした応用方法を生み出すことができます。ですが、こういった機能には新たなリスクも伴います。例えば、悪意のある人物が有名人のなりすましや詐欺などを行う可能性があります。

この理由から、当社はボイスチャットという1つの具体的なユースケースに絞ってこのテクノロジーを使用しています。ボイスチャットは、当社が提携している声優から直接協力を得て作成されています。また、同じような形で他の企業にも協力をしてもらっています。例えば、Spotify は音声翻訳(新しいウィンドウで開く)のテストをするためにこのテクノロジーを利用しています。この機能のおかげでポッドキャストの配信者が自分の声を使ってコンテンツを他の言語に翻訳できるので、より多くのリスナーに働きかけることができるようになっています。

画像の入力

また、画像ベースのモデルは、人々に関する錯覚やリスクの高い分野でこのモデルの画像解釈能力に頼ろうとすることなど、多岐にわたる新たな課題も生み出しています。当社は、幅広く展開する前に、過激主義や科学的習熟度などの分野におけるリスクについて、レッドチームと多様なアルファテスターのセットを使ってモデルをテストしました。この研究によって、いくつかの重要な情報に基づいた責任ある使用が可能になりました。

画像を有用かつ安全に

ChatGPT の他の機能と同様に、画像機能も利用者や利用者の日常生活をサポートすることが目的です。ユーザーが実際に見ているものを ChatGPT も見ることができれば最高のサポートをすることができます。 

このアプローチは、盲目や視力が低い人々のための無料のモバイルアプリである Be My Eyes を通じて直接的に得られた、利用方法や限界についての情報に基づいています。このアプリの利用者たちは、テレビのリモコンの設定の仕方を理解しようとしているときに、テレビの画面に誰かが映っているかなど、背景に人々が映っている画像についての一般的な会話に価値があると言っていました。

また、人々についての直接的な陳述の分析と実行をする ChatGPT の能力を著しく制限するために、技術的な措置も講じてきました。その理由は、ChatGPTは必ずしも正確なわけでななく、こういったシステムは個々人のプライバシーを尊重しなければならないからです。

現実世界での利用とフィードバックは、このツールを有益なものにしながらも、こういった安全対策をより良いものにしていくことに役立ちます。

モデルの限界に関する透明性

ユーザーは、例えば研究などの分野で特殊なトピックのために ChatGPT に頼るかもしれません。当社は ChatGPT のモデルの限界について明言しており、適切な検証を行わずにリスクが高い用途で利用しないように推奨しています。更に、このモデルは英語を書き起こすことについては優れていますが、他の言語でのパフォーマンスは芳しくなく、とりわけアルファベットを用いない言語ではパフォーマンスが良くありません。従って、非英語圏の利用者の皆様には、この目的で ChatGPT を使用しないように推奨しています。

画像入力のためのシステムカードでは、安全に対する当社のアプローチと、Be My Eyes に関する当社の取り組みについて更に詳しく知ることができます。

今後もアクセスを拡大

Plus と Enterprise のユーザーは、今後2週間の間に音声と画像を使った ChatGPT を体験することができるようになります。その後すぐに開発者を含む他の利用者の皆様にもこれらの機能を提供していく予定です。

著者

OpenAI

謝辞

音声モードの中核研究

Alec Radford、Tao Xu、Jong Wook Kim

画像展開の中核検証

Raul Puri、Jamie Kiros、Hyeonwoo Noh、Long Ouyang、Sandhini Agarwal

GPT-4V(ision)の技術的作業と著者を見る