Intercom 打造可持续 AI 优势的三大经验
通过早期实验、严格测量以及构建随每个模型演进的架构,Intercom 打造了一个可扩展的 AI 平台,只需几天的时间而不用几个季度就能推出新的功能。

2022 年 GPT‑4 发布之际,Intercom(在新窗口中打开) 并未仅仅关注头条新闻,而是已经整装待发。短短数小时内,这家客户服务软件公司便开始实验,仅用了四个月便推出了 Fin——这款 AI 智能体如今每月处理数百万条客户咨询。
取得这样的先发优势绝非偶然。随着大型语言模型 (LLM) 的快速发展,Intercom 意识到 AI 将重塑客户体验。公司高层迅速行动,组建跨职能工作组,取消非 AI 相关项目,并投入一亿美元,将业务架构全面迁移至 AI 平台。
该决策引发了公司层面内的全面变革:重组产品团队、推出 AI 优先的客服策略,以及构建一个支持 Fin 处理数量庞大的复杂客户咨询的平台。
以下是 Intercom 在此旅程中总结的三大经验,任何团队,无论处于哪个阶段,都可以立即借鉴。
“AI 优先必须内置其中,而不是附加其上。”
Intercom 在早期便开始频繁地测试模型,并从实践中深入学习。
团队很早便开始尝试生成式模型,他们借助在实际操作中积累的经验来识别模型的局限性并发现优化机会。2023 年初 GPT‑4 面世时,他们已然做好准备。仅四个月后,他们便推出了 Fin——此后便一发不可收拾。
“我们曾利用 GPT‑3.5 实现流畅对话并展现出些许魔力,但其可靠性尚不足以让我们将其付诸客户服务,”工程副总裁 Jordan Neill 表示。“由于我们未雨绸缪,当 GPT‑4 推出时,我们知道时机已到,于是便推出了 Fin。”
这种流畅度帮助 Intercom 设计了 Fin Tasks,这是一个能够自动处理退款和技术支持之类复杂工作流的系统。尽管团队最初计划采用基于检索的架构,但评估结果显示,GPT‑4.1 能够独立完成任务,并且可靠性高,延迟更小。
如今,GPT‑4.1 仍在驱动 Intercom 的 AI 使用份额日益增长,包括 Fin Tasks 中的关键逻辑。团队还发现,在非推理查询中添加链式思维提示可弥补性能差距,而无需部署完整的 RAG 管道。
Intercom 的经验总结:对模型的了解越深入,就能越快适应技术前沿的演进。
根据 Intercom 的评估,GPT‑4.1 在完成任务时不仅表现出最高的可靠性,而且与 GPT‑4o 相比,成本降低了 20%
要加快行动速度,必须衡量哪些方法行之有效并找出原因。
Intercom 之所以能够快速采用全新的模型、模式和架构,得益于其严格的评估流程。每个新的 OpenAI 模型,无论用于 Fin Voice(基于 Realtime API)还是 Fin Tasks(基于 GPT‑4.1),在部署前都会经过结构化的离线测试和实时 A/B 试验,以评估其指令遵循能力、工具调用准确性和整体一致性。
例如,团队会将模型与实际支持交互的记录进行比对,评估其处理多步骤指令(如退款流程)、保持 Fin 品牌语调一致性以及可靠执行功能调用的能力。这些结果为实时 A/B 测试提供了依据,用于比较 GPT‑4 和 GPT‑4.1 等模型在解决率和客户满意度方面的表现。
这种方法帮助 Intercom 仅用几天时间就完成了从 GPT‑4 到 GPT‑4.1 的迁移。在确认 GPT‑4.1 在指令处理和功能执行方面的改进后,他们将 GPT‑4.1 部署到 Fin Tasks 中,并在性能和用户满意度方面取得了立竿见影的效果。
“GPT‑4.1 发布后 48 小时内,我们就获得了评估结果,并立即制定了部署计划,”Intercom 工程高级副总裁 Jordan Neill 表示。“我们立即发现,GPT‑4.1 在智能与延迟方面为客户需求提供了良好的平衡。”
对于 Fin Voice,Intercom 利用相同的评估流程验证了新的语音模型快照,并精准确定了其在延迟、功能执行和脚本遵循方面的改进:这些都是提供人类品质电话支持的关键。
Intercom 扩展了他们的评估范围,以捕捉语音为交互带来的额外维度。他们系统地评估了 Fin Voice 在个性、语调、中断处理和背景噪音等方面的表现,以确保高质量的客户体验。
Intercom 自成立之初便致力于应对变化,设计了一种足够灵活的架构,能够与所依赖的模型同步演进。
Fin 系统采用模块化设计,支持聊天、邮件和语音等多模态交互,每种模态在延迟和复杂性方面都有不同的利弊权衡。该架构使 Intercom 能够将查询路由到最合适的模型,并在避免重新设计底层系统的情况下更换模型。
这种灵活性是刻意为之且持续演进的。Fin 架构目前正处于第三次重大迭代,下一版本的开发工作已全面展开。随着模型性能的提升,团队会在必要时增加复杂性以解锁新功能,并在可能的情况下进行简化。
这种灵活性在 Fin Tasks 的开发中发挥了关键作用。最初,团队认为需要采用基于检索的定制架构来支持 Fin Tasks——该功能使 Fin 能够处理复杂的客户查询并执行多步骤流程,例如处理退款、进行账户变更或技术故障排除。
但在测试中,GPT‑4.1 的指令遵循能力超出了预期,在更低的延迟和成本下实现了相同的可靠性。
“说实话,我认为人们对 GPT‑4.1 的讨论还不够多,”Intercom 首席机器学习工程师 Pratik Bothra 表示。“我们对它的延迟和成本表现感到非常惊讶。这使我们能够调整架构并消除大量复杂性。”

Fin AI Engine™
团队才刚刚起步。凭借先进模型的助力,Intercom 以模型无关的模块化架构为基础,超越客户支持领域,为企业各业务流程提供动力,加快解决问题的速度并提供更优质的客户体验:
- 支持团队:通过 Fin AI 智能体解决绝大多数通过聊天、邮件、语音等渠道收到的咨询请求
- 运维团队:使用 Fin Tasks 自动处理复杂工作流程,如退款、账户变更和订阅更新
- 产品团队:通过使用 Intercom 的 MCP 服务器,ChatGPT 等 AI 工具可以访问客户对话、工单和用户数据,帮助企业各团队发现问题、制定路线图、优化信息传递,以及为季度业务回顾 (QBR) 做准备。
Intercom 通过严格的评估标准、以性能为基础的设计以及灵活的架构,构建了一个可扩展的 AI 平台,重新定义了客户支持,并为使用 AI 发展业务的公司提供了宝贵的经验。


