Les tres lliçons d’Intercom per crear un avantatge sostenible en IA
Experimentant aviat, mesurant amb rigor i construint una arquitectura que evoluciona amb cada model, Intercom va crear una plataforma d’IA escalable que llança noves capacitats en dies, no en trimestres.

Quan ChatGPT es va llançar el 2022, Intercom(s'obre en una finestra nova) no es va limitar a mirar els titulars: es va mobilitzar. En poques hores després del llançament de GPT‑3.5, l’empresa de programari de servei al client va començar a experimentar i, només quatre mesos després, va llançar Fin, el seu agent d’IA, que ara resol milions de consultes de clients cada mes.
Aquest impuls inicial no va ser un accident. A mesura que els LLM avançaven a grans salts, Intercom va reconèixer que la IA transformaria l’experiència del client. La direcció va actuar ràpidament, creant un grup de treball transversal, cancel·lant projectes no relacionats amb la IA i comprometent 100 milions de dòlars per replatformar el negoci al voltant de la IA.
Aquesta decisió va desencadenar canvis a tota l’empresa: equips de producte reorganitzats, una nova estratègia de helpdesk centrada primer en la IA i una plataforma construïda per permetre que Fin gestioni grans volums i consultes complexes de clients.
A continuació trobareu tres lliçons del recorregut d’Intercom que qualsevol equip, independentment del punt de partida, pot posar en pràctica ara mateix.
«L’enfocament AI-first s’ha d’integrar des de l’inici; no es pot afegir després.»
Intercom prova els models aviat i sovint, i n’extreu aprenentatges profunds.
L’equip va començar a experimentar aviat amb models generatius, i aquesta experiència pràctica els va ajudar a identificar les limitacions dels models i detectar oportunitats. Quan GPT‑4 va estar disponible a principis de 2023, estaven preparats. En quatre mesos, van llançar Fin, i des d’aleshores no han afluixat.
«Vam poder aprofitar GPT‑3.5 per mantenir converses fluides amb moments gairebé màgics, però encara no era prou fiable per confiar-li els nostres clients», diu Jordan Neill, SVP d’Enginyeria. «Com que havíem fet la feina prèvia, quan va arribar GPT‑4, vam saber que estava preparat i vam llançar Fin.»
Aquesta mateixa fluïdesa va ajudar Intercom a dissenyar Fin Tasks, un sistema que automatitza fluxos de treball complexos com ara reemborsaments i suport tècnic. Tot i que inicialment l’equip preveia una pila basada en un model de raonament, les seves avaluacions van mostrar que GPT‑4.1 podia gestionar la feina tot sol, amb alta fiabilitat i menys latència.
Avui, GPT‑4.1 impulsa una part creixent de l’ús d’IA d’Intercom, inclosa la lògica clau dins de Fin Tasks. L’equip també va descobrir que afegir prompting de cadena de pensament a consultes no relacionades amb el raonament tancava les diferències de rendiment.
La conclusió d’Intercom: com millor coneixes els teus models, més ràpid et pots adaptar a mesura que evoluciona l’estat de l’art.
En les avaluacions d’Intercom, GPT‑4.1 va mostrar la màxima fiabilitat en completar tasques alhora que oferia una reducció del 20% del cost en comparació amb GPT‑4o. Les xifres de completesa es van mitjanar en 5 execucions independents (amb Pass@k); un resultat només es compta com a «complet» si té èxit en totes 5 execucions, per reduir la variància.
Per avançar ràpid, has de mesurar què funciona i per què.
La capacitat d’Intercom per adoptar ràpidament nous models, modalitats i arquitectures té l’origen en el seu procés rigorós d’avaluació. Cada nou model d’OpenAI, tant si s’utilitza per a Fin Voice, impulsat per la Realtime API, com per a Fin Tasks, impulsat per GPT‑4.1, se sotmet a proves offline estructurades i assajos A/B en viu per avaluar el seguiment d’instruccions, la precisió de les crides d’eina i la coherència general abans del desplegament.
Per exemple, l’equip compara els models amb transcripcions d’interaccions reals de suport, avaluant fins a quin punt gestionen instruccions de diversos passos com ara reemborsaments, mantenen la veu de marca de Fin i executen crides de funció de manera fiable. Aquests resultats informen proves A/B en viu que comparen taxes de resolució i satisfacció del client entre models com GPT‑4 i GPT‑4.1.
Aquest enfocament va ajudar Intercom a migrar de GPT‑4 a GPT‑4.1 en només uns dies. Després de confirmar millores en la gestió d’instruccions i l’execució de funcions, van desplegar GPT‑4.1 a Fin Tasks i van veure millores immediates tant en el rendiment com en la satisfacció dels usuaris.
«Quan va aparèixer GPT‑4.1, teníem resultats d’evals en 48 hores i un pla de desplegament just després», diu Pedro Tabacof, Principal Machine Learning Scientist a Intercom. «Vam veure immediatament que GPT‑4.1 tenia una bona combinació d’intel·ligència i latència per a les necessitats dels nostres clients.»
Per a Fin Voice, el mateix procés d’avaluació va ajudar Intercom a validar noves snapshots de models de veu i a identificar millores en la latència, l’execució de funcions i l’adhesió al guió: tot això essencial per oferir suport telefònic amb qualitat humana.
Intercom va ampliar les seves avaluacions per capturar la dimensió addicional que la veu aporta a les interaccions. Avaluen sistemàticament Fin Voice en factors com la personalitat, el to, la gestió d’interrupcions i el soroll de fons per garantir experiències de client d’alta qualitat.
Intercom es va preparar per al canvi des del primer dia, dissenyant una arquitectura prou flexible per evolucionar al costat dels models dels quals depèn.
El sistema de Fin és modular per disseny i admet múltiples modalitats com xat, correu electrònic i veu, cadascuna amb diferents compromisos entre latència i complexitat. L’arquitectura permet a Intercom enrutar les consultes cap al millor model per a cada tasca i substituir models sense haver de reenginyeritzar el sistema subjacent.
Aquesta flexibilitat és deliberada i evoluciona constantment. L’arquitectura de Fin ja va per la seva tercera iteració principal, i la següent ja està en desenvolupament. A mesura que els models milloren, l’equip afegeix complexitat on cal per desbloquejar noves capacitats i simplifica on és possible.
Aquesta adaptabilitat va resultar crítica amb Fin Tasks. Inicialment, l’equip assumia que necessitarien models basats en el raonament per donar suport a Fin Tasks, que permet a Fin resoldre consultes complexes de clients i executar processos de diversos passos com emetre reemborsaments, fer canvis de compte o resoldre incidències tècniques.
Però en les proves, les capacitats de seguiment d’instruccions de GPT‑4.1 van superar les expectatives i van oferir la mateixa fiabilitat amb menys latència i cost.
«Sincerament, no crec que es parli prou de GPT‑4.1», diu Pratik Bothra, Principal Machine Learning Engineer a Intercom. «Ens va sorprendre de debò el perfil de latència i cost. Ens permet pivotar l’arquitectura i eliminar molta complexitat.»

Fin AI Engine™
L’equip tot just comença. Impulsat per models avançats i construït sobre una arquitectura modular i agnòstica respecte del model, Intercom s’expandeix més enllà del suport al client per impulsar fluxos de treball a tota l’empresa, oferint resolucions més ràpides i millors experiències de client:
- Equips de suport: Resolució de la majoria de consultes entrants en xat, correu electrònic, veu i més amb Fin AI Agent
- Equips d’operacions: Automatització de fluxos de treball complexos com reemborsaments, canvis de compte i actualitzacions de subscripció amb Fin Tasks
- Equips de producte: Amb el MCP Server d’Intercom, eines d’IA com ChatGPT poden accedir a converses amb clients, tiquets i dades d’usuaris, cosa que ajuda equips de tota l’empresa a detectar errors, definir roadmaps, perfeccionar missatges i preparar-se per als QBR.
Intercom va construir una plataforma d’IA escalable mantenint el rigor en l’avaluació, l’enfocament en el rendiment i la flexibilitat en el disseny, redefinint el suport i oferint lliçons per a qualsevol empresa que construeixi amb IA.


