持続可能な AI の優位性を構築するための Intercom の3つのレッスン
Intercom は早期の実験、綿密な測定、モデルごとに進化するアーキテクチャの構築により、新機能を四半期ごとではなく数日でリリースできるスケーラブルな AI プラットフォームを作り上げました。

2022年に GPT‑4 がリリースされたときに、そのニュースを聞いた Intercom(新しいウィンドウで開く) はすでに構築の準備が整っていました。ニュースから数時間以内に、このカスタマーサービスソフトウェア企業は実験を開始し、わずか4か月後には、現在毎月何百万もの顧客から問い合わせを解決している同社の AI エージェント Fin をリリースしました。
この迅速な推進は偶然起きた訳ではありません。LLM が急速に進化を遂げるなか、Intercom は AI が顧客体験を一新することを認識していました。上層部は素早く行動し、部門横断型の業務チームを立ち上げ、AI 以外のプロジェクトを取り止め、AI を中心にビジネスを再構築するために1億ドルを投資しました。
この決定は全社に大きな変化をもたらしました。製品チームは再編され、新しい AI ファーストのヘルプデスク戦略が策定され、大量かつ複雑な顧客からの問い合わせへの対応で Fin をサポートするためのプラットフォームが構築されました。
Intercom がこの取り組みで学んだ以下の3つのレッスンは、どのような状況にあるチームでもすぐに役立てることができます。
「AI ファーストには綿密な設計が必要であり、どこかで買えるものではありません。」
Intercom ではモデルを早期に頻繁にテストすることで、その作業から深く学習します。
同社のチームは早くから生成モデルの実験を開始し、その実際の経験がモデルの制限のマッピングや改善機会の特定に役立ちました。2023年初頭に GPT‑4 が利用可能になったときには、同社は準備ができていました。4か月で Fin をリリースし、それ以来同社の勢いは留まるところを知りません。
「当社では GPT‑3.5 を利用して驚くようなスムーズな会話を実現できていました。ただし、当社のお客様に利用していただくために十分な信頼性は確保できていませんでした」と、SVP of Engineering の Jordan Neill 氏は語ります。「この経験があったため、GPT‑4 が登場したときには準備ができており、Fin をリリースすることになりました。」
以前と同様の流暢さが、返金やテクニカルサポートなどの複雑なワークフローを自動化するシステムである Fin Tasks を Intercom が設計するのに役立ちました。チームでは当初検索ベースのスタックを計画していましたが、評価の結果、GPT‑4.1 はそれ自体でジョブを処理でき、信頼性は高く、レイテンシーが低いことが判明しました。
現在、GPT‑4.1 は Fin Tasks 内の主要なロジックを含め、Intercom での AI 利用の多くの部分を占めるようになっています。同チームはまた、Chain-of-Thought プロンプトを推論以外の問い合わせに追加することで、完全な RAG パイプラインがなくてもパフォーマンスギャップを埋められることを発見しました。
Intercom の結論:モデルについての理解を深めるほど、技術の進歩により速く対応できる。
Intercom の評価によると、タスクの実行において GPT‑4.1 は最も高い信頼性を示すと同時に、GPT‑4o と比較してコストが20%削減されています
開発を迅速に進めるには、何がうまくいって、その理由は何なのかを測定する必要があります。
新しいモデル、モダリティ、アーキテクチャに迅速に対応できる Intercom の能力はその徹底的な評価プロセスに基づいています。すべての新しい OpenAI モデルには、Realtime API を利用する Fin Voice で使用するものであれ、GPT‑4.1 を利用する Fin Tasks で使用するものであれ、構造化されたオフラインテストとライブ A/B 試験を実施して、指示への追従、ツールの呼び出しの正確性、全体的な一貫性を評価してから展開しています。
たとえば、実際のサポートのやり取りの文字起こしに対してモデルのベンチマークを実施して、返金などのマルチステップの指示をいかに適切に処理しているか、Fin のブランドイメージを維持しているか、機能の呼び出しを高い信頼性で実施しているかが評価されます。これらの結果が、GPT‑4 や GPT‑4.1 などのモデル全体で解決率と顧客満足度を比較するライブ A/B テストに投入されます。
このアプローチにより、Intercom はわずか数日で GPT‑4 から GPT‑4.1 に移行できました。指示への対応と機能実行の改善を確認した後、Fin Tasks 全体に GPT‑4.1 を展開すると、パフォーマンスとユーザー満足度両方でただちにメリットが見られました。
「GPT‑4.1 のリリース後48時間で評価結果を出し、その後のロールアウトは計画済みでした」と、Intercom の SVP of Engineering である Jordan Neill 氏は言います。「GPT‑4.1 は当社の顧客ニーズに対してインテリジェンスとレイテンシーのバランスが良いことがすぐに分かりました。」
Fin Voice についても、Intercom は同じ評価プロセスで新しい音声モデルのスナップショットを検証し、レイテンシー、機能実行、スクリプト順守における改善を確認しました。これらはすべて、人間と同じレベルの電話サポートを提供するために不可欠な要素です。
Intercom ではその評価を拡大し、音声によってやり取りに持ち込まれる追加の側面も取り込むようにしました。性格、声のトーン、割り込みへの対応、背景雑音などの要素について Fin Voice を体系的に評価することで、高品質の顧客体験を確保しました。
Intercom では当初から変化に備えています。柔軟性の高いアーキテクチャを設計することで、依存するモデルの進化についていけるようにしています。
Fin のシステムはモジュール式の設計になっており、チャット、メール、音声などの複数のモダリティをそれぞれ異なるレイテンシーと複雑さのトレードオフでサポートします。このアーキテクチャにより Intercom では問い合わせをその内容に最適なモデルにルーティングすることができ、また基盤となるシステムのリエンジニアリングなしにモデルを入れ替えることができます。
これは意図した柔軟性であり、常に進化し続けています。Fin のアーキテクチャは現在3回の大きなイテレーションを経ており、次のイテレーションを開発中です。モデルの改善に伴い、チームは新しい能力を提供するために必要な場合には複雑さを追加し、可能な場所では簡素化を図っています。
この適応力が Fin Tasks にとって非常に重要なのです。当初、チームでは、返金処理、口座変更、技術的なトラブルシューティングなどの顧客からの複雑な問い合わせやマルチステッププロセスの実行を Fin が解決できるように、Fin Tasks のサポートにカスタムの検索ベースのアーキテクチャが必要になると考えていました。
ところが、テストにおいて、GPT‑4.1 の指示に従う能力が予想を上回り、より低いレイテンシーとコストで同じ信頼性を実現できることが判明しました。
「正直なところ、GPT‑4.1 はもっと話題になってしかるべきだと思います」と、Intercom の Principal Machine Learning Engineer である Pratik Bothra 氏は言います。「そのレイテンシーとコストのプロファイルは驚くべきのです。おかげでアーキテクチャの変更が可能になり、複雑さが大幅に軽減されます。」

Fin AI Engine™
チームの道のりはまだ始まったばかりです。最新のモデルを活用し、モデルに依存しないモジュール式のアーキテクチャ上に構築することで、Intercom はカスタマーサポートを超えてビジネス全体のワークフローに対応し、より速い解決と優れた顧客体験を実現しています。
- サポートチーム:チャット、メール、音声などのすべてのチャンネルで Fin AI Agent により問い合わせの大部分を解決
- 運用チーム:返金、口座変更、サブスクリプション更新などの複雑なワークフローを Fin Tasks で自動化
- 製品チーム:Intercom の MCP サーバーと ChatGPT などの AI ツールを使用して顧客との会話、チケット、ユーザーデータにアクセスすることで、全社のチームがバグを見つけ、ロードマップを共有し、メッセージングを練り直し、四半期ビジネスレビューに向けて準備することができます。
Intercom は綿密な評価、パフォーマンスベース、柔軟な設計を維持することでスケーラブルな AI プラットフォームを構築しました。このプラットフォームはサポートを再定義するもので、AI を使った構築を行っているすべて企業にとって教訓となります。


