メインコンテンツにスキップ
OpenAI

Be My Eyes

Be My Eyesは、視覚のアクセシビリティを一新するためGPT‑4を使用しています。

Be My Eyes
読み込んでいます...
BeMyEyes

2012年以降、Be My Eyesは2億5,000万人の盲目または低視力の人々で構成されるコミュニティのためのテクノロジーを開発しています。このデンマークのスタートアップは、商品の特定や空港の案内など何百もの日常的な作業を手助けするボランティアの人々と盲目または低視力の人々を繋いでいます。

GPT‑4の新しい視覚入力機能(調査プレビュー版)を活用し、Be My Eyesは自社アプリ内で人間のボランティアと同レベルのコンテキストを生成、理解するGPT‑4搭載Virtual Volunteer™の開発を開始しました。

Be My EyesのCEO、Michael Buckley氏は次のように話します。「アクセスしてからわずかな時間で、現在市場に出回っている画像をテキスト化するどの物体認識ツールよりもはるかに高い、前例のないパフォーマンスを目の当たりにしました。世界のアクセシビリティにもたらされるであろう影響は計り知れません。そう遠くない未来、盲目とロービジョンの人々で構成されるコミュニティは、数多くの視覚的解釈のニーズのためだけでなく、生活の中で自立度を上げるためにこれらのツールを活用するようになるでしょう」  

突然、誰かが送信した画像、例えば誰かの冷蔵庫の中の画像が、GTP-4のテクノロジーによって、冷蔵庫の中に入っている物が認識され、物の名前が特定されるだけでなく、これらの材料で作れる料理が推測、分析されます。この時、おいしい料理が作れるレシピを聞くことができます。ユースケースはほぼ無制限です。

Buckley氏は次のように話します。「これは現状を根本的に変えます。結局のところ、ユーザーは自分の希望やニーズが何であれ、ツールに再びプロンプトを入力すれば、実際に使える、有益で役立つ情報をほぼ瞬時に入手できます」

2月上旬、同社は少人数のグループを対象にGPT支援型アシスタントのベータ版テストを開始しました。結果は期待以上で、この機能は数週間以内にユーザー向けに公開される予定です。

Buckley氏は次のように話します。「私たちのコミュニティには驚くほど大きなポテンシャルがあります。Lucy Edwardsさんを含めベータ版のテストの対象者は、すでにこの機能をとても気に入っています」

Be My EyesのCTO、Jesper Hvirring Henriksen氏は、GPT‑4と他の言語モデルや機械学習モデルとの違いは、対話ができることと、GPT‑4のテクノロジーによって提供される極めて優れた分析能力だと説明します。「基本的な画像認識アプリケーションが伝えるのは、あなたの目の前にあるものが何かということだけです。麺料理に適切な食材が入っているか、あるいは地面の上の物体がボールなのか、それとも躓く危険のある物なのかについて理解を深めるためにディスカッションして伝えることはできません」

「GPT-4と他の言語モデルや機械学習モデルとの違いは、対話ができることと、GPT-4のテクノロジーによって提供される極めて優れた分析能力です」
Be My EyesのCTO Jesper Hvirring Henriksen氏

同社はすでに、あるユーザーが地図上で自分の現在地に関する詳細だけでなく、目的地まで安全に行く方法についてポイントごとの指示を入手でき、目に見える人にとってもおそらく不可能な作業である鉄道システムの操作を行うことができたという事例があります。

ただし、複雑な物理世界を横断するのはまた別の話です。視力が低下している人が画面上に表示されていることを理解するのは、視力に問題がない人の2倍難しいことなのです。ほぼすべての最新のオペレーティングシステムに内蔵されているスクリーンリーダーは、ウェブページの一部やデスクトップアプリケーションの一部を一行ごとまたはセクションごとに、一語一語読み上げます。ウェブ上でのコミュニケーションの中心である画像はさらに厄介です。 

しかしながらHenriksen氏は、数え切れないほど長時間にわたってウェブページの「重要」な部分を理解するためのトレーニングを行った後、ディープラーニングアルゴリズムによって関係が構築され、GPT‑4にウェブページを見せると、システムが読み上げる場所や要約すべき場所を認識できるようになったと言います。これは、オンラインニュースを読み上げるなど簡単な作業を簡単にするだけでなく、視覚補助が必要な人々に、ショッピングサイトやEコマースサイトなど、雑然としたウェブページの一部へのアクセスを提供します。GPT‑4は、視力に問題のない人が目を通す方法、すなわち、ささいな細部すべてに目を通すのではなく、重要なデータポイントを目で追う方法で検索結果を要約できるため、視覚の支援が必要な方がリアルタイムで適切に商品を購入できるよう支援できます。

Buckley氏は次のように指摘します。「これは人間にとって素晴らしい進歩ですが、大きな商機を示すものでもあります」

ビジネス向け ChatGPT について詳しく知りたい方は、チームにご相談ください