メインコンテンツにスキップ
OpenAI

2025年7月1日

Genspark が GPT‑4.1と Realtime API を利用したコーディング不要のパーソナルエージェントをリリース

20人のチームがわずか45日で3,600万ドルの ARR を達成。

白い Genspark のロゴと輝く黒い砂と岩の背景
読み込んでいます...

Genspark(新しいウィンドウで開く) が提供するコーディングなしのカスタマイズ可能な AI エージェントである Super Agent は、電話をかける、プレゼンテーションを作成する、レシピから短い動画を作成するといった実社会の作業を自動化するのに役立ちます。

Super Agent は OpenAI のマルチモーダルモデルと Realtime API を使用してテキスト、画像、音声全体でタスクを可能にすることにより、ユーザーがコーディング不要の単純なプロンプトを使って複雑なワークフローを自動化できるようにします。このシステムはあっという間に拡大します。わずか45日で、強力なユーザー需要により Super Agent は3,600万ドルの ARR を達成しました。 

「OpenAI は最初から Genspark をサポートしてくれています。OpenAI の API は当社のモデルを動かすだけでなく、私たち20人のチームが、誰も実現可能だと思わなかったようなスピードで構築、リリース、スケールするのに役立ちました。」
Kay Zhu 氏、Genspark CTO 兼共同設立者

検索からエージェントへの進化

Genspark は当初、一般利用者や専門家が情報を合成および構造化するのを支援するように設計された AI 検索エンジンとしてリリースされました。しかし、2024年後半に、ユーザーの利用方法に変化が現れ始めました。ユーザーは単に回答が欲しいわけではなく、成果を求めていたのです。「この市場を要約して」と指示するのではなく、プレゼンテーション資料、動画スクリプト、フローアップのメールを求めていました。同時に、モデルの能力も急速に拡大していました。より長いコンテキストウィンドウ、強力な推論、新しいマルチモーダル API により、単なる情報検索ではなく、ワークフロー全体を自動化することが次第に可能になっていきました。

このユーザー需要の変化とモデルの対応状況を受け、Genspark は大きく舵を切りました。2025年4月、Genspark は検索から全方位型のエージェント AI へと進んだのです。

OpenAI のマルチモーダルモデルによりコーディング不要の自律型エージェントを構築

2025年4月、Genspark は Super Agent を発表しました。電話をかけたり、プレゼンテーションをデザインしたり、動画を生成したりできる、完全自律型のコーディング不要アシスタントです。その内部では、9つの特殊な大規模言語モデルと80を超える統合ツールがオーケストレーションされ、各タスクを最適なコンポーネントに動的に割り当てています。

このシステムの中心となるのが OpenAI のモデルです。GPT‑4.1が1M のトークンコンテキストウィンドウに従って強化された指示により研究と Structured Outputs を処理するため、エージェントは大きなドキュメントを切り捨てることなくすべて処理できます。ダウンストリームのツールにとって信頼できる構造の回答を生成するために厳密な JSON 出力が設計されている一方、プロンプトの自動キャッシュがレイテンシと API コストを削減するため、マルチステップのワークフローで特に威力を発揮します。画像生成については、このプラットフォームでは OpenAI API 経由で GPT‑image‑1 モデルを使用しています。

このシステムは完全にコーディング不要のため、ユーザーはコーディングについて何も考える必要はありません。ユーザーは「歯医者に電話して」、「このレポートを要約して」、「プレゼンテーション一式を作成して」など、必要なことを説明するだけで、Super Agent がすべて処理してくれます。

See how Super Agent creates AI-powered slides, sheets, and phone calls using simple prompts, no code required.

AI を使用して退職の連絡をする

Super Agent の最も話題になっている機能の1つが Call For Me です。これはユーザーに代わって実際に電話をかける AI で、実際に会話を行います。台本はありません。たらい回しにされることもありません。予約を行いたい場合でも、再配達の申し込みでも、エージェントは OpenAI Realtime API と speech-to-speech 機能を使用して会話を自然かつリアルタイムの流暢さで処理します。

2重のシステムがこの対話を処理しています。Realtime API が実際の会話を管理する一方で、シャドーモデルが会話を監視し、メッセージキューで対話をガイドします。その結果、通話中に保留音が流れたり、人間の回答が曖昧な場合でも、素早く理路整然としたやり取りが実現します。日本ではある利用例が話題となりました。ユーザーがエージェントに雇用先に退職の連絡をするように指示したのです。これは多くの人が AI エージェントが処理するとは思いもしない、非常に人間的な対話の一種です。 

電話だけでなく、パーソナライズされたコンテンツの作成にも Super Agent を利用できます。ヴェイパーウェイヴスタイルのプレゼンテーションを依頼すれば、エージェントはスライドの下書きを作成し、GPT‑image‑1 を使ってスタイリッシュなカバー画像を生成してから、最終的なプレゼンテーションにまとめます。動画であれば、シーンごとの台本を書き、画像を生成し、Instagram に公開できるショートビデオにまとめます。

このようなユースケースを可能にしているのが、OpenAI のマルチモーダル機能、Genspark の実行スピード、Genspark と OpenAI スタートアップチームとの緊密なコラボレーションです。Genspark と OpenAI のソリューションアーキテクトは定期的に顔を合わせてベストプラクティスを共有し、ワークフローをファインチューニングし、モデルのパフォーマンスを最適化しました。最も早期にリリースされた Realtime API を使用した音声体験の1つであり、モデルの改善を推進するフィードバックを提供し続けています。

「OpenAI を選択したのはモダリティ全体のモデルのパフォーマンスだけが理由ではなく、開発者のエクスペリエンスも重要でした」と Zhu 氏は述べています。「OpenAI の API 設計のおかげで私たちの作業はスピードアップし、ボトルネックなしで出荷、デバッグ、スケーリングを実現できました。」

UI from Genspark's Super Agent, displaying the product's ability to generate a detailed report and slide deck based on a user's prompt

記録的な成長、マーケティングコストはゼロ

Super Agent のリリース後わずか1か月少しで、Genspark は以下を達成しました。

  • わずか45日で ARR が3,600万ドルに到達
  • 70日で8つの主要なエージェント機能を出荷

これはすべて20人のチームにより達成され、広告費はゼロです。この成長は完全にオーガニックなもので、製品の評判が口コミで広がった結果です。Super Agent の魅力の大部分がその使いやすさにあります。ユーザーはワークフローを構築したり、設定を構成したりする必要はありません。必要なものを伝えるだけで、エージェントがすべて処理してくれます。

エージェント型 AI を OpenAI の力でさらに先へ

今後、Genspark は自律型エージェントがさらに価値を生み出す新しいカテゴリーへと拡大していく予定です。これには、ユーザーが閲覧しているすべてのコンテンツに対して動作する AI ブラウザや書式設定が豊富な文書を生成する AI ドキュメントなどが含まれます。OpenAI は引き続きチームの迅速な構築と出荷の中心であり続けます。

「Genspark は単なるチャットインターフェイスとして構築したわけではなく、これはオールインワンの AI ワークスペースなのです」と Zhu 氏は言います。「OpenAI API を利用することで、これを記録的な早さで実現できました。」

ビジネス向け ChatGPT について詳しく知りたい方は、チームにご相談ください