Tolan สร้าง AI ที่เน้นการใช้เสียงเป็นหลักด้วย GPT‑5.1 อย่างไร
ด้วย GPT‑5.1 Tolan สร้างแอปเสียงที่ได้รับการปรับให้เหมาะสมสำหรับความหน่วงต่ำ มีบริบทที่แม่นยำ และบุคลิกที่คงที่เมื่อบทสนทนาพัฒนาไปเรื่อยๆ

Tolan(เปิดในหน้าต่างใหม่) คือเพื่อนคู่หู AI ที่เน้นการโต้ตอบด้วยเสียงเป็นหลัก ซึ่งผู้คนสามารถพูดคุยตัวละครแอนิเมชันที่ปรับแต่งเฉพาะตัว ซึ่งปรับตัวตามบทสนทนาเมื่อเวลาผ่านไป
แอปพลิเคชันนี้สร้างโดย Portola ทีมผู้เชี่ยวชาญที่มีประสบการณ์และเคยประสบความสำเร็จในการขายบริษัทมาก่อน โดยออกแบบเพื่อรองรับการสนทนาอย่างต่อเนื่องและเปิดกว้าง แทนการโต้ตอบแบบสั้นและเฉพาะกิจ "การเติบโตของ ChatGPT ทำให้เรามั่นใจว่าเทคโนโลยีเสียงคือก้าวใหม่ของประสบการณ์ AI" ควินเทน ฟาร์มเมอร์ ผู้ร่วมก่อตั้งและซีอีโอของ Portola กล่าว "แต่การสร้างประสบการณ์ด้วยเสียงนั้นซับซ้อนกว่า คุณไม่ได้แค่ตอบข้อความที่พิมพ์มา แต่กำลังสนทนาสดที่คุยไปเรื่อยๆ อยู่"
Voice AI ตั้งมาตรฐานใหม่ทั้งด้านความหน่วงต่ำและการจัดการบริบท แต่ก็เปิดโอกาสให้เกิดการโต้ตอบที่เปิดกว้างและสำรวจได้มากกว่าการพิมพ์ข้อความ
เมื่อโมเดลฐานมีความเร็วขึ้น ถูกลง และเก่งขึ้น ทีมจึงมุ่งเน้นไปที่สองปัจจัยสำคัญ ได้แก่ ระบบความทรงจำและการออกแบบบุคลิกภาพ Portola สร้างจักรวาลที่ขับเคลื่อนด้วยตัวละคร โดยมีนักอนิเมชันเจ้าของรางวัลและนักเขียนนิยายวิทยาศาสตร์ร่วมออกแบบ พร้อมระบบจัดการบริบทแบบเรียลไทม์ที่ช่วยให้บุคลิกภาพและความทรงจำของตัวละครเสถียรตลอดการสนทนา
การเปิดตัว GPT‑5.1 คือจุดพลิกเกมที่รวมความก้าวหน้าด้านการควบคุมทิศทางและความเร็วในการตอบสนองเข้าด้วยกัน นำทุกชิ้นส่วนมาประกอบเป็นประสบการณ์เสียงที่ลื่นไหล มีชีวิตชีวา และดึงดูดผู้ใช้มากขึ้น
"GPT-5.1 มอบความสามารถในการควบคุมทิศทางให้เรา จนในที่สุดก็สามารถถ่ายทอดคาแรคเตอร์ที่เราคิดไว้ได้ มันไม่ใช่แค่ฉลาดขึ้น แต่ยังสามารถถ่ายทอดโทนและบุคลิกแบบที่เราต้องการได้แม่นยำกว่าเดิมอีกด้วย
สถาปัตยกรรมของ Tolan ถูกปรับให้สอดคล้องกับความต้องการของการโต้ตอบด้วยเสียง ผู้ใช้เสียงคาดหวังให้การตอบสนองเป็นธรรมชาติและรวดเร็ว แม้บทสนทนาจะเปลี่ยนทิศทางกลางคัน Tolan ต้องสามารถตอบสนองได้ทันที รับมือกับหัวข้อที่เปลี่ยนไปอย่างต่อเนื่อง และรักษาบุคลิกภาพให้มั่นคงโดยไม่สะดุดหรือหลุดโทน
หากต้องการให้การสนทนารู้สึกเป็นธรรมชาติ ความหน่วงต้องต่ำจนแทบไม่รู้สึกว่ามีการรอ การเปิดตัว OpenAI GPT‑5.1 และ Responses API ลดเวลาเริ่มต้นการพูดลงได้มากกว่า 0.7 วินาที ซึ่งเพียงพอที่จะทำให้การสนทนาลื่นไหลขึ้นอย่างเห็นได้ชัด
สิ่งที่สำคัญพอๆ กันคือความสามารถของระบบในการจัดการบริบทอย่างแม่นยำ ต่างจากเอเจนต์หลายตัวที่เก็บคำสั่งระหว่างรอบสนทนา Tolan จะสร้างบริบทใหม่ตั้งแต่ต้นในทุกๆ รอบ การสร้างบริบทแต่ละครั้งประกอบด้วยสรุปข้อความล่าสุด, การ์ดบุคลิกภาพ, ความทรงจำที่ดึงจากเวกเตอร์, แนวทางโทนเสียง และสัญญาณแอปแบบเรียลไทม์ สถาปัตยกรรมนี้ช่วยให้ Tolan สามารถปรับตัวได้แบบเรียลไทม์ต่อการเปลี่ยนแปลงหัวข้ออย่างฉับพลัน ซึ่งเป็นข้อกำหนดที่สำคัญสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ
"เราเข้าใจทันทีว่าการเก็บคำสั่งแบบแคชไม่เพียงพอ" Quinten กล่าว "ผู้ใช้เปลี่ยนเรื่องคุยบ่อยมาก เพื่อให้การสนทนาดูเป็นธรรมชาติ ระบบจึงต้องปรับตัวกลางทาง"
กระบวนการสร้างบริบทขึ้นใหม่แบบเรียลไทม์นี้ต้องใช้เทคนิคสูง และเป็นองค์ประกอบหลักที่ทำให้ Tolan ทำงานได้อย่างมีประสิทธิภาพ

การจัดการบริบทสำคัญก็จริง แต่ยังไม่พอที่จะทำให้บทสนทนาดูต่อเนื่องเมื่อเวลาผ่านไป เพื่อให้รองรับการสนทนาที่ยาวและเปลี่ยนทิศทางได้ตลอด Tolan พัฒนาระบบความจำที่บันทึกทั้งข้อเท็จจริง ความชอบ และสัญญาณ "อารมณ์" ของผู้ใช้ ซึ่งเป็นเบาะแสสำคัญที่ใช้ในการตอบของ Tolan
ระบบฝังความทรงจำด้วยโมเดล OpenAI text-embedding-3-large ก่อนจัดเก็บลงใน Turbopuffer ซึ่งเป็นฐานข้อมูลเวกเตอร์ความเร็วสูงที่รองรับการค้นคืนในระดับต่ำกว่า 50 มิลลิวินาที ความเร็วนี้มีความสำคัญสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ ในการสนทนาแต่ละครั้ง Tolan จะใช้ข้อความล่าสุดของผู้ใช้และคำถามที่ระบบสร้างขึ้นเอง (เช่น "ผู้ใช้นั้นแต่งงานกับใคร") เพื่อกระตุ้นเรียกความทรงจำ เพื่อรักษาคุณภาพความจำให้สูง Tolan จะรันงานบีบอัดทุกคืนเพื่อลบรายการที่มีค่าน้อยหรือซ้ำซ้อน (เช่น "วันนี้ผู้ใช้ดื่มกาแแฟ") แและจัดการแก้ไขข้อมูลที่ขัดแย้งกัน
บุคลิกก็ได้รับการดูแลอย่างพิถีพิถันไม่ต่างกัน Tolan แต่ละตัวมีฐานโครงสร้างคาแรคเตอร์ที่มีเอกลักษณ์ เขียนโดยนักเขียนนิยายวิทยาศาสตร์ประจำทีม และปรับแต่งโดยนักวิจัยด้านพฤติกรรม เมล็ดพันธุ์เหล่านี้ทำให้ Tolan มีความสม่ำเสมอ แต่ก็มีความยืดหยุ่นในการปรับตัวเมื่อเวลาผ่านไป พร้อมพัฒนาไปกับผู้ใช้
มีระบบคู่ขนานที่คอยตรวจจับอารมณ์ของบทสนทนา และปรับวิธีการสื่อสารของ Tolan ให้เหมาะสมอย่างต่อเนื่อง สิ่งนี้ช่วยให้ Tolan เปลี่ยนโหมดจากขี้เล่นเป็นจริงจังตามสัญญาณของผู้ใช้ได้อย่างต่อเนื่อง โดยยังคงบุคลิกหลักไว้
การเปลี่ยนมาใช้ GPT‑5.1 คือจุดเปลี่ยนสำคัญ ทันทีที่มีการใช้คำสั่งแบบหลายชั้น ระบบสามารถปฏิบัติตามคำสั่ง โครงโทนเสียง การฝังความทรงจำ และลักษณะบุคลิกได้อย่างแม่นยำยิ่งขึ้น คำสั่งที่เคยต้องใช้วิธีแก้ปัญหาเฉพาะหน้า เริ่มทำงานได้อย่างที่ควรจะเป็น
"เป็นครั้งแรกที่ผู้เชี่ยวชาญของเรารู้สึกว่าระบบ ตั้งใจฟังจริงๆ ควินเทนกล่าว "คำสั่งยังคงเหมือนเดิมตลอดการสนทนายาว บุคลิกยังคงถูกยึดตามต้นแบบ และอาการหลุดโทนลดลงอย่างมาก"
การเปลี่ยนแปลงเหล่านั้นรวมกันแล้วทำให้บุคลิกภาพมีความสม่ำเสมอและน่าเชื่อถือมากขึ้น ซึ่งส่งผลให้ประสบการณ์ผู้ใช้น่าสนใจยิ่งขึ้น ทีม Tolan พบความก้าวหน้าที่ชัดเจนและวัดผลได้: การเรียกความทรงจำพลาดลดลง 30% (จากสัญญาณความหงุดหงิดที่พบในแอป) และอัตราการใช้งานซ้ำในวันถัดไปเพิ่มขึ้นกว่า 20% หลังใช้ GPT‑5.1 ในการขับเคลื่อนเพื่อสร้างบุคลิกของ Tolan

เมื่อ Tolan พัฒนาไปเรื่อยๆ หลักการบางอย่างก็เริ่มชัดเจนขึ้น และตอนนี้กลายเป็นแนวทางในการสร้างและพัฒนาสถาปัตยกรรมเสียงของทีม
- ออกแบบเพื่อรองรับความผันผวนของการสนทนา: การสนทนาด้วยเสียงสามารถเปลี่ยนแปลงได้กลางคัน ระบบจำเป็นต้องปรับตัวได้อย่างรวดเร็วเพื่อให้ฟังดูเป็นธรรมชาติ
- มองความหน่วงเป็นส่วนหนึ่งของประสบการณ์ผลิตภัณฑ์: การตอบสนองรวดเร็วภายในเสี้ยววินาทีมีผลต่อความรู้สึกว่าเอเจนต์เสียงให้ความรู้สึกเหมือนสนทนาเป็นธรรมชาติหรือแข็งทื่อเหมือนครื่องจักร
- สร้างความทรงจำเป็นระบบดึงข้อมูล ไม่ใช่แค่บันทึกการสนทนา: การบีบอัดคุณภาพสูงและการค้นหาเวกเตอร์อย่างรวดเร็วทำให้บุคลิกภาพมีความต่อเนื่องและเสถียรกว่าการใช้บริบทขนาดใหญ่เกินจำเป็น
- สร้างบริบทใหม่ทุกครั้ง: อย่าพยายามแก้ไขการคลาดเคลื่อนด้วยการใช้คำสั่งที่ยาวขึ้น การสร้างบริบทใหม่ในแต่ละรอบช่วยให้เอเจนต์ยึดโยงกับบริบทได้ แม้บทสนทนาจะวกวนไปมา
บทเรียนเหล่านี้ร่วมกันกลายเป็นรากฐานของนวัตกรรมระยะถัดไปของ Tolan และกำหนดทิศทางที่เทคโนโลยีเสียงของ AI จะมุ่งหน้าต่อไปในอนาคต
นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2568 Tolan เติบโตจนมีผู้ใช้งานรายเดือนมากกว่า 200,000 คน ได้รับคะแนน 4.8 ดาวและรีวิวบน App Store กว่า 100,000 รายการ แสดงให้เห็นว่าระบบสามารถรักษาความสอดคล้องได้ดีในบทสนทนายาวๆ ที่มีการเปลี่ยนแปลง ผู้ใช้คนหนึ่งรีวิวว่า "มันจำสิ่งที่เราคุยกันเมื่อสองวันก่อนได้ และนำกลับมาใช้ในบทสนทนาที่คุยกันในวันนี้"
สัญญาณเหล่านี้สอดคล้องโดยตรงกับสถาปัตยกรรมแกนกลางของระบบ ได้แก่ การเรียกโมเดลความหน่วงต่ำ การสร้างบริบทใหม่ในแต่ละครั้ง และระบบความจำกับบุคลิกที่ออกแบบเป็นโมดูล สิ่งเหล่านี้ช่วยให้ Tolan ตรวจจับการเปลี่ยนหัวข้อ รักษาโทนการสนทนา และคงความแม่นยำของคำตอบได้ โดยไม่ต้องอาศัยคำสั่งขนาดใหญ่ที่เสี่ยงต่อความผิดพลาด
ในอนาคต Tolan วางแผนเพิ่มการลงทุนด้านการควบคุมทิศทางและการปรับปรุงความจำ โดยมุ่งเน้นไปที่การบีบอัดข้อมูลที่เข้มข้นขึ้น การปรับปรุงตรรกะการดึงข้อมูล และการปรับแต่งบุคลิกภาพที่หลากหลาย เป้าหมายระยะยาวคือการขยายศักยภาพของอินเทอร์เฟซเสียง ไม่ใช่แค่ตอบสนองได้ แต่ยังเข้าใจบริบทและโต้ตอบได้อย่างมีชีวิตชีวา
"ก้าวถัดไปคือการสร้างเอเจนต์เสียงที่ไม่ใช่แค่ตอบสนองได้ แต่เป็นมัลติโหมดอย่างแท้จริง ผสานเสียง ภาพ และบริบทเข้าเป็นระบบเดียวที่ควบคุมทิศทางได้" ควินเทนกล่าว


