Drei Lektionen für die Schaffung einer nachhaltig profitablen KI – Intercom
Durch frühzeitige Experimente, strenges Messen und den Aufbau einer Architektur, die sich mit jedem Modell weiterentwickelt, konnte Intercom eine skalierbare KI-Plattform schaffen, die neue Funktionen in wenigen Tagen statt Quartalen bereitstellt.

Als GPT‑4 im Jahr 2022 eingeführt wurde, tat Intercom(wird in einem neuen Fenster geöffnet) mehr, als nur die Schlagzeilen zu verfolgen – sie machten sich bereit, mit der Entwicklung zu starten. Innerhalb von Stunden begann das Unternehmen für Kundenservice-Software mit Experimenten und brachte nur vier Monate später Fin auf den Markt, seinen KI-Agent, der heute monatlich Millionen von Kundenanfragen bearbeitet.
Dieses frühe Timing war kein Zufall. In einer Zeit, in der LLMs große Sprünge machten, erkannte Intercom, dass KI das Kundenerlebnis neu gestalten würde. Die Geschäftsleitung reagierte rasch, stellte eine multifunktionelle Task Force zusammen, strich Projekte, die nichts mit KI zu tun hatten, und stellte 100 Millionen USD bereit, um die Unternehmensplattform auf KI umzustellen.
Diese Entscheidung löste im gesamten Unternehmen Veränderungen aus: neu organisierte Produktteams, eine neue „AI First“-Helpdesk-Strategie und eine Plattform, die Fin bei der Bearbeitung von hochvolumigen und komplexen Kundenanfragen unterstützt.
Nachfolgend findest du drei Erkenntnisse, die Intercom auf seinem Weg gewonnen hat und die jedes Team – egal, wo es anfängt – sofort umsetzen kann.
„AI-FIRST muss von Anfang an integriert sein, man kann diesen Ansatz nicht einfach anschrauben.“
Intercom testet Modelle frühzeitig und häufig und zieht Deep Learning aus dieser Arbeit.
Das Team begann schon früh, mit generativen Modellen zu experimentieren, und konnte dank seiner praktischen Erfahrung nicht nur die Grenzen des Modells, sondern auch Chancen erkennen. Als GPT‑4 Anfang 2023 verfügbar wurde, waren sie bereit. Innerhalb von vier Monaten brachten sie Fin auf den Markt – und seitdem ist es nicht ruhiger geworden.
„Mit GPT‑3.5 konnten wir flüssige Gespräche mit einem Hauch von Magie führen, aber es war noch nicht verlässlich genug, um das Vertrauen unserer Kunden zu gewinnen“, so Jordan Neill, SVP of Engineering. „Weil wir die nötige Arbeit reinsteckten, wussten wir, als GPT‑4 eintraf, dass wir bereit waren und Fin bereitstellen konnten.“
Mithilfe derselben Kompetenz entwickelte Intercom Fin Tasks, ein System, das komplexe Arbeitsabläufe wie Rückerstattungen und technischen Support automatisiert. Das Team plante ursprünglich einen abrufbasierten Stack, doch Auswertungen zeigten, dass GPT‑4.1 die Aufgabe allein bewältigen konnte – und das mit hoher Zuverlässigkeit und geringerer Latenz.
Heute wird ein wachsender Anteil der KI-Nutzung von Intercom durch GPT‑4.1 unterstützt, einschließlich der Schlüssellogik innerhalb von Fin Tasks. Das Team entdeckte zudem, dass das Hinzufügen von Gedankenketten-Prompts zu Non-Reasoning-Abfragen Leistungslücken schloss, ohne dass dafür vollwertige RAG-Pipelines erforderlich waren.
Das Fazit, das Intercom daraus schloss: Je besser man seine Modelle kennt, desto schneller kann man sich an den neuesten Technikstand anpassen.
In den Bewertungen von Intercom zeigte GPT‑4.1 die höchste Zuverlässigkeit bei der Ausführung von Aufgaben und bot gleichzeitig verglichen mit GPT‑4o eine Kostensenkung von 20 %
Um schnell voranzukommen, muss man messen, was funktioniert – und warum.
Dank seines strengen Bewertungsprozesses kann Intercom neue Modelle, Modalitäten und Architekturen schnell übernehmen. Jedes neue OpenAI-Modell – ob für Fin Voice, auf die Realtime API gestützt, oder für Fin Tasks, gestützt von GPT‑4.1 – wird vor der Bereitstellung strukturierten Offline-Tests und Live-A/B-Tests unterzogen, um die Befolgung von Anweisungen, die Genauigkeit von Tool-Aufrufen und die allgemeine Stimmigkeit zu bewerten.
Das Team vergleicht zum Beispiel Modelle mit Transkripten tatsächlicher Support-Interaktionen und bewertet, wie gut sie mit mehrstufigen Anweisungen wie Rückerstattungen umgehen, die Markensprache von Fin beibehalten und Funktionsaufrufe zuverlässig ausführen. Diese Ergebnisse dienen als Grundlage für Live-A/B-Tests, die Lösungsquoten und Kundenzufriedenheit für Modelle wie GPT‑4 und GPT‑4.1 vergleichen.
Mit diesem Ansatz konnte Intercom in nur wenigen Tagen von GPT‑4 auf GPT‑4.1 umstellen. Nachdem Verbesserungen beim Umgang mit Anweisungen und der Funktionsausführung bestätigt wurden, führten sie GPT‑4.1 für Fin Tasks ein und verzeichneten sofortige Gewinne sowohl bei der Leistung als auch bei der Benutzerzufriedenheit.
„Als GPT‑4.1 herauskam, hatten wir innerhalb von 48 Stunden Bewertungsergebnisse und direkt danach einen Rollout-Plan“, sagt Jordan Neill, SVP of Engineering bei Intercom. „Sofort erkannten wir, dass GPT‑4.1 eine gute Mischung aus Intelligenz und Latenz für die Anforderungen unserer Kunden bietet.“
Für Fin Voice half derselbe Evaluierungsprozess Intercom dabei, neue Snapshots von Sprachmodellen zu validieren und Verbesserungen in den Bereichen Latenz, Funktionsausführung und Skripteinhaltung zu ermitteln: alle unerlässlich, um telefonischen Support in menschlicher Qualität zu bieten.
Intercom hat seine Bewertungen erweitert, um die zusätzliche Dimension zu erfassen, die die Sprachfunktion den Interaktionen verleiht. Sie bewerten Fin Voice systematisch in Bezug Faktoren wie Persönlichkeit, Ton sowie Umgang mit Unterbrechungen und Hintergrundgeräuschen, um ein hochwertiges Kundenerlebnis zu gewährleisten.
Intercom war von Anfang an auf Veränderungen ausgelegt und hat eine Architektur entwickelt, die so flexibel ist, dass sie sich zusammen mit den Modellen, auf denen sie basiert, weiterentwickeln kann.
Das System von Fin ist modular aufgebaut und unterstützt mehrere Modalitäten wie Chat, E-Mail und Sprache, mit je unterschiedlichen Kompromissen im Bezug auf Latenz und Komplexität. Dank dieser Architektur kann Intercom Abfragen an das für die jeweilige Aufgabe am besten geeignete Modell weiterleiten und Modelle austauschen, ohne das zugrunde liegende System neu entwickeln zu müssen.
Diese Flexibilität war beabsichtigt und wird kontinuierlich weiterentwickelt. Die Architektur von Fin wird aktuell ihrer dritten großen Iteration unterzogen und die nächste befindet sich bereits in der Entwicklung. Mit zunehmenden Verbesserungen der Modelle fügt das Team bei Bedarf Komplexität hinzu, um neue Funktionen freizuschalten, und vereinfacht Prozesse nach Möglichkeit.
Diese Anpassungsfähigkeit erwies sich als entscheidend für Fin Tasks. Ursprünglich ging das Team davon aus, dass es zur Unterstützung von Fin Tasks eine benutzerdefinierte, auf Abfragen basierende Architektur benötigen würde. Diese ermöglicht es Fin, komplexe Kundenanfragen und mehrstufige Prozesse wie die Ausstellung von Rückerstattungen, Änderungen an Konten oder die technische Fehlerbehebung auszuführen.
Doch während der Tests übertrafen die Befehlsverfolgungsfunktionen von GPT‑4.1 die Erwartungen und boten dieselbe Zuverlässigkeit bei niedrigerer Latenz und geringeren Kosten.
„Ich finde ehrlich gesagt, dass nicht genug über GPT‑4.1 gesprochen wird“, sagt Pratik Bothra, Principal Machine Learning Engineer bei Intercom. „Wir waren aufrichtig überrascht von der Latenz und dem Kostenprofil. Dadurch können wir unsere Architektur neu ausrichten und die Komplexität größtenteils beseitigen.“

Fin AI Engine™
Das Team legt gerade erst los. Intercom stützt sich auf fortgeschrittene Modelle und eine modulare, modellunabhängige Architektur, die über den Kundensupport hinausgeht und die Betriebsabläufe im gesamten Unternehmen unterstützt. Dadurch werden schnellere Lösungen und ein besseres Kundenerlebnis gewährleistet:
- Support-Teams: Fin AI Agent löst die meisten eingehenden Anfragen per Chat, E-Mail, Sprache und mehr
- Ops-Teams: Automatisierung komplexer Arbeitsabläufe wie Rückerstattungen, Kontoänderungen und Abonnementaktualisierungen mit Fin Tasks
- Produktteams: Mit dem MCP-Server von Intercom können KI-Tools wie ChatGPT auf Kundengespräche, Tickets und Benutzerdaten zugreifen und so Teams im gesamten Unternehmen bei der Fehlerbehebung, der Erstellung von Roadmaps, der Präzisierung von Nachrichten und der Vorbereitung auf Quartalsberichte unterstützen.
Intercom hat eine skalierbare KI-Plattform entwickelt, indem es strenge Bewertungsmaßstäbe einhielt und auf Leistung und ein flexibles Design setzte. So konnten sie den Support neu definieren und ihre Erkenntnisse mit jedem Unternehmen teilen, das mit KI entwickelt


