
単なるチャットにとどまらない文章とコードの作成のプロジェクトに ChatGPT で取り組むための新しいインターフェース「canvas」を紹介します。canvas は新しいウィンドウで開き、ChatGPT と連携してプロジェクトを進めることができます。この初期ベータでは、会話を通じてだけでなく、横並びでアイデアを創造し、改良するという新しい連携の方法が導入されています。
canvas は GPT‑4o で構築され、ベータではモデルピッカーで手動で選択できます。本日より、ChatGPT Plus および Team ユーザーに canvas をグローバルに展開します。Enterprise および Edu ユーザーは来週アクセスできるようになります。また、ベータ終了後、すべての ChatGPT 無料版ユーザーに canvas を提供する予定です。
ChatGPT は、文章とコードの作成に役立てるため毎日利用されています。チャットインターフェースは使いやすく、多くの作業に適していますが、編集と修正が必要なプロジェクトに取り組む場合には限界があります。キャンバスは、この種類の作業のための新しいインターフェースを提供します。
canvas によって、ChatGPT はあなたが達成しようとしていることの文脈をよりよく理解できます。ChatGPT に注目して欲しい部分を厳密に示すため、特定のセクションをハイライトできます。コピーエディターやコードレビュアーのように、プロジェクト全体を念頭に置いてインラインフィードバックと提案を行うことができます。
キャンバスでプロジェクトを管理できます。テキストやコードを直接編集できます。ショートカットのメニューがあり、ChatGPT に文章の長さの調整を指示したり、コードのデバッグを行ったり、その他の便利なアクションを素早く実行したりできます。canvas の戻るボタンを使用することで、作業の以前のバージョンを復元することもできます。
ChatGPT が役に立ちそうなシナリオを検出すると、canvas が自動的に開きます。また、プロンプトに「canvas を使用」を含めることで、canvas を開き、既存のプロジェクトに使用できます。
文章作成のショートカットの例を以下に示します。
- 編集の提案:ChatGPT がインライン提案とフィードバックを提供します。
- 長さの調整:文書の長さを編集して、短く、または長くします。
- 読者レベルの変更:幼稚園から大学院の間で読者レベルを調整します。
- 最終仕上げの追加:文法、明瞭さ、一貫性をチェックします。
- 絵文字の追加:強調と色のために適切な絵文字を追加します。
コーディングは反復的なプロセスであり、チャットでコードのすべての修正に従うのは難しい場合があります。canvas によって、ChatGPT の変更を追跡および理解しやすくなります。当社は、引き続きこのような編集の透明性を改善してきます。
コーディングのショートカットの例を以下に示します。
- コードのレビュー:ChatGPT がコードを改善するためのインライン提案を提供します。
- ログの追加:コードのデバッグと理解に役立つ print 文を挿入します。
- コメントの追加:コードを理解しやすくするためのコメントを追加します。
- バグの修正:問題のあるコードを検出し、書き換えて、エラーを解決します。
- 言語の変換:コードを JavaScript、TypeScript、Python、Java、C++、または PHP に変換します。
当社は GPT‑4o をクリエイティブパートナーとするための学習を行いました。このモデルは、キャンバスを開き、ターゲットを絞った編集を行い、完全に書き直すべきタイミングを知っています。また、より広い文脈を理解し、正確なフィードバックと提案を提供します。
これをサポートするため、当社の研究チームは以下のコア行動を開発しました。
- 文章とコードの作成のためのキャンバスのトリガー
- 多様なコンテンツタイプの生成
- ターゲットを絞った編集
- 文書の書き直し
- インライン批評の提供
当社は20回以上の自動化された内部評価で進捗を測定しました。当社は、OpenAI o1‑preview から出力のディスティルなどの新しい合成データ生成テクニックを使用して、モデルのコア行動の後学習を実行しました。このアプローチにより、人間が作成したデータに頼ることなく、文章作成の質と新しいユーザーとのインタラクションに迅速に対応できました。
キャンバスをトリガーするタイミングの定義が、重要な課題の1つでした。当社は、「コーヒー豆の歴史についてのブログ記事を書いてください」のようなプロンプトに対して canvas を開き、「夕食の新しいレシピを教えてください」のような一般的な Q&A タスクに対しては過剰なトリガーを避けるようにモデルの学習を行いました。文章作成タスクでは、(「正しい非トリガー」よりも)「正しいトリガー」の改善を優先し、プロンプト指示によるベースラインゼロショット GPT‑4o と比較して83%に達しました。
このようなベースラインの質は、使用される特定のプロンプトに大きく影響されることは注目に値します。ベースラインでは、プロンプトの違いによって、それぞれ異なる形でパフォーマンスが低下する可能性があります。たとえば、コードと文章の作成タスクの精度が均等ではないため、エラーの分布が異なり、最適ではないパフォーマンスが発生する可能性があります。コーディングに関しては、パワーユーザーを混乱させないために、意図的にトリガーに対するバイアスをモデルに適用しました。今後もユーザーからのフィードバックに基づき改良を続けていきます。
canvas の境界決定トリガー - 文章作成とコーディング
文章とコードの作成タスクでは、canvas の決定境界のトリガーの正確性を改善し、ベースラインゼロショット GPT‑4o と比較して、それぞれ 83% と 94% に達しました。
2つ目の課題は、canvas がトリガーされたときのモデルの編集行動の微調整でした。具体的には、ターゲットを絞った編集を行うタイミングと、コンテンツ全体を書き直すタイミングの決定です。当社は、ユーザーが明示的にインターフェースを通してテキストを選択した場合、ターゲットを絞った編集を実行し、それ以外の場合は書き直しを優先するようにモデルの学習を行いました。この行動は、モデルの改良に伴い進化し続けます。
canvas の編集境界 - 文章作成とコーディング
文章とコードの作成タスクについては、キャンバスのターゲットを絞った編集の改善を優先しました。キャンバスを使用した GPT‑4o は、ベースラインのプロンプトによる GPT‑4o よりもパフォーマンスが18%向上しています。
最後に、質の高いコメントを生成するためのモデルの学習には、慎重な反復が必要でした。徹底的な手動レビューで自動評価に簡単に適応可能な最初の2つのケースとは異なり、自動化された方法での品質の測定は特に困難です。そのため、コメントの質と精度を評価するために、人間の評価を用いた。当社の統合 canvas モデルは、プロンプト指示によるゼロショット GPT‑4o を精度で30%、品質で16%上回り、合成学習によって詳細な指示によるゼロショットプロンプトと比較して応答の品質と行動が大幅に向上することを示しています。
Canvas Suggested Comments
人による評価では、canvas のコメントの品質と正確性の機能性が評価されました。当社の canvas モデルは、プロンプト指示によるゼロショット GPT‑4o を精度で30%、品質で16%上回りました。
AI をより便利でアクセスしやすいものにするには、AI の扱い方を見直す必要があります。canvas は新しいアプローチであり、2年前の立ち上げ以来、ChatGPT のビジュアルインターフェースの初の大型アップデートです。
キャンバスは初期ベータ段階であり、今後、その機能を急速に改善する予定です。
著者
研究責任者
Karina Nguyen
中核研究
Kai Chen、Michael Wu、Tarun Gogineni
コアエンジニアリング、製品、デザイン
Alexi Christakis、Bryan Ashley、Bryant Jow、Chris Haugli、Daniel Levine、Eric Jiang、Gabriel Peal、Lee Byron、Lukas Gross、Matt Lim、Sara Culver、Thomas Dimson
貢献者
Andrew Gibiansky、Andrew Howell、Arianna McClain、David Li、Doug Li、Ilya Kostrikov、Katy Shi、Noah Deutsch、Randall Lin、Sara Culver、Sean Fitzgerald、Shuaiqi Xia、Spencer Papay、Thomas Shadwell、Valerie Qi、Xiaolin Hao、Yilei Qian
リーダーシップ補佐役
Akshay Nathan、Barret Zoph、Ian Silber、Joanne Jang、John Schulman、Kevin Weil、Mia Glaese、Mira Murati、Nick Turley、Sam Altman、Sulman Choudhry