Gradient Labs 讓每位銀行客戶都能擁有 AI 客戶經理
Gradient Labs 使用 GPT‑4.1 與 GPT‑5.4 mini、nano 執行複雜的金融支援工作流程,準確率高、延遲低、可靠性強。

成果
10x
營收成長
成果
98%
客戶對 AI 智慧體體驗的滿意度
成果
+11%
GPT-4.1 準確率高於次佳供應商
在銀行業中,解決客戶問題通常不容易。像詐欺或付款遭攔截這類案件,需要多個團隊嚴格遵循複雜流程。當系統無法因應時,客戶就會被轉來轉去、排隊等候,並在關鍵時刻面臨延誤。
Gradient Labs(在新視窗中開啟) 正是為了處理這種複雜性而打造。這家總部位於倫敦的公司正在建構 AI 智慧體,讓每位銀行客戶都能擁有專屬客戶經理般的體驗。該公司由一支曾主導 Monzo AI 與資料工作的團隊創立,公司平台建構於 OpenAI 模型之上,目前正將正式環境流量轉移至 GPT‑5.4 mini 與 nano。
「GPT‑5.4 mini 與 nano 的延遲只有 500 毫秒,正是自然語音對話需要的水準,」Gradient Labs 共同創辦人兼首席科學家 Danai Antoniou 表示。「我們正將一大部分的工作負載遷移至這兩個模型。」
「我們同時需要三件事:遵循指令的準確性、低幻覺率,以及函式呼叫的可靠性,而且都必須在語音延遲限制內達成。OpenAI 是唯一三項全都通過的供應商。」
在銀行業中,客戶互動受到標準作業程序(SOP)規範,定義每一步應該發生的事。
典型的客戶互動可能如下:
- 客戶來電通報卡片遭竊。
- 系統驗證其身分,並即時處理更正與插話。
- 完成驗證後,系統會凍結卡片並啟動補發流程。
- 系統會回答後續問題,例如送達時間,並建議下一步。
每一步都遵循明確程序,根據使用者輸入、執行情境、防護機制,以及客戶與智慧體的即時回應做出決策,確保全程合規。
Antoniou 表示:「模型需要在中斷、回應語與話題切換之間維持程序狀態,同時維持快速回應。多數供應商甚至無法嘗試做到這點。」
Gradient Labs 會以最具挑戰性的程序對各家供應商進行基準測試,並用所謂的「軌跡準確率」指標評估:也就是系統是否能從頭到尾走在正確路徑上。
在他們最初的一次評估中,GPT‑4.1 是唯一達到 97% 軌跡準確率與一致性的模型。最接近的下一家供應商是 88%。
Antoniou 指出:「在金融服務中,這就是解決一通來電,與引發一起合規事件之間的差距。」
這項結果形塑了 Gradient Labs 設計系統的方式。團隊打造出混合式架構:推理密集的步驟使用 OpenAI 模型,快速且確定性的任務則使用較小模型,並以路由機制靈活因應不同的複雜度與延遲限制。
在內部,系統由中央推理智慧體協調的專門技能組成,讓複雜案件能在不同工作流程間移動而不失去脈絡。
每次互動中,都有 15+ 套防護系統並行運作,確保對話維持在既定程序與合規界線內,包括金融建議偵測、脆弱性訊號、客訴,以及試圖繞過驗證或存取敏感資料的行為。
金融機構不會憑信念部署這類系統。他們需要一步一步看見,系統在真實世界條件下確實能正確運作。
Antoniou 表示:「你必須從最底層開始架構,目標就是零幻覺。這必須是建構過程中的指導原則。」
為了評估新舊模型,團隊會重播真實客戶對話,並將系統行為與預期程序做比較。他們也會生成合成對話,在任何部署之前測試邊緣案例與罕見情境。
Gradient Labs 也讓團隊能掌控系統的導入方式。他們分析歷史支援資料,掌握銀行處理的各類客戶問題及其發生頻率。接著,團隊可以選擇要讓 AI 處理哪些類別,從較低風險的工作流程起步,逐步擴大覆蓋範圍。

在正式上線前,客戶可以模擬對話,檢視系統在不同情境下的回應,對系統行為建立信心。
部署通常會從少量流量開始,並透過持續監控與自動檢查標記可能需要人工審查的對話。隨著系統持續展現穩定表現,覆蓋範圍也會逐步擴大。
Gradient Labs 的客戶回報,CSAT 分數最高可達 98%,在某些情況下甚至優於他們最頂尖的真人客服。多數部署在第一天就能達到超過 50% 的解決率,即使是爭議處理、帳戶驗證與詐欺等複雜流程也是如此。
這種影響力也反映在公司的成長上。過去一年,Gradient Labs 的營收成長超過 10 倍,業務已從入站支援擴展到外撥與後台流程。
放眼未來,Gradient Labs 正專注於能跨互動保有脈絡的系統:理解客戶歷程、追蹤進行中的問題,並從先前對話中斷之處接續處理。這個方向也與 Gradient Labs 和 OpenAI 長期合作的策略思考高度一致。
「選擇模型,不只是為了當下。我們在這個平台上打造產品,看見的是推理模型的發展軌跡,與產品方向不謀而合。」
隨著模型持續進步,能安全自動化的程序範圍也在擴大。對 Gradient Labs 而言,目標是讓每一次客戶互動,都能達到頂尖真人客服的一致性、判斷力與延續性。


