ข้ามไปยังเนื้อหาหลัก
OpenAI

7 มกราคม 2569

สตาร์ทอัพ

Tolan สร้าง AI ที่เน้นการใช้เสียงเป็นหลักด้วย GPT‑5.1 อย่างไร

ด้วย GPT‑5.1 Tolan สร้างแอปเสียงที่ได้รับการปรับให้เหมาะสมสำหรับความหน่วงต่ำ มีบริบทที่แม่นยำ และบุคลิกที่คงที่เมื่อบทสนทนาพัฒนาไปเรื่อยๆ

Tolan logo on orange jigsaw puzzle background
กำลังโหลด…

Tolan(เปิดในหน้าต่างใหม่) คือเพื่อนคู่หู AI ที่เน้นการโต้ตอบด้วยเสียงเป็นหลัก ซึ่งผู้คนสามารถพูดคุยตัวละครแอนิเมชันที่ปรับแต่งเฉพาะตัว ซึ่งปรับตัวตามบทสนทนาเมื่อเวลาผ่านไป

แอปพลิเคชันนี้สร้างโดย Portola ทีมผู้เชี่ยวชาญที่มีประสบการณ์และเคยประสบความสำเร็จในการขายบริษัทมาก่อน โดยออกแบบเพื่อรองรับการสนทนาอย่างต่อเนื่องและเปิดกว้าง แทนการโต้ตอบแบบสั้นและเฉพาะกิจ "การเติบโตของ ChatGPT ทำให้เรามั่นใจว่าเทคโนโลยีเสียงคือก้าวใหม่ของประสบการณ์ AI" ควินเทน ฟาร์มเมอร์ ผู้ร่วมก่อตั้งและซีอีโอของ Portola กล่าว "แต่การสร้างประสบการณ์ด้วยเสียงนั้นซับซ้อนกว่า คุณไม่ได้แค่ตอบข้อความที่พิมพ์มา แต่กำลังสนทนาสดที่คุยไปเรื่อยๆ อยู่"

Voice AI ตั้งมาตรฐานใหม่ทั้งด้านความหน่วงต่ำและการจัดการบริบท แต่ก็เปิดโอกาสให้เกิดการโต้ตอบที่เปิดกว้างและสำรวจได้มากกว่าการพิมพ์ข้อความ 

เมื่อโมเดลฐานมีความเร็วขึ้น ถูกลง และเก่งขึ้น ทีมจึงมุ่งเน้นไปที่สองปัจจัยสำคัญ ได้แก่ ระบบความทรงจำและการออกแบบบุคลิกภาพ Portola สร้างจักรวาลที่ขับเคลื่อนด้วยตัวละคร โดยมีนักอนิเมชันเจ้าของรางวัลและนักเขียนนิยายวิทยาศาสตร์ร่วมออกแบบ พร้อมระบบจัดการบริบทแบบเรียลไทม์ที่ช่วยให้บุคลิกภาพและความทรงจำของตัวละครเสถียรตลอดการสนทนา

การเปิดตัว GPT‑5.1 คือจุดพลิกเกมที่รวมความก้าวหน้าด้านการควบคุมทิศทางและความเร็วในการตอบสนองเข้าด้วยกัน นำทุกชิ้นส่วนมาประกอบเป็นประสบการณ์เสียงที่ลื่นไหล มีชีวิตชีวา และดึงดูดผู้ใช้มากขึ้น

"GPT-5.1 มอบความสามารถในการควบคุมทิศทางให้เรา จนในที่สุดก็สามารถถ่ายทอดคาแรคเตอร์ที่เราคิดไว้ได้ มันไม่ใช่แค่ฉลาดขึ้น แต่ยังสามารถถ่ายทอดโทนและบุคลิกแบบที่เราต้องการได้แม่นยำกว่าเดิมอีกด้วย
—Quinten Farmer ซีอีโอของ Portola

การออกแบบเพื่อการโต้ตอบด้วยเสียงอย่างเป็นธรรมชาติ

สถาปัตยกรรมของ Tolan ถูกปรับให้สอดคล้องกับความต้องการของการโต้ตอบด้วยเสียง ผู้ใช้เสียงคาดหวังให้การตอบสนองเป็นธรรมชาติและรวดเร็ว แม้บทสนทนาจะเปลี่ยนทิศทางกลางคัน Tolan ต้องสามารถตอบสนองได้ทันที รับมือกับหัวข้อที่เปลี่ยนไปอย่างต่อเนื่อง และรักษาบุคลิกภาพให้มั่นคงโดยไม่สะดุดหรือหลุดโทน

หากต้องการให้การสนทนารู้สึกเป็นธรรมชาติ ความหน่วงต้องต่ำจนแทบไม่รู้สึกว่ามีการรอ การเปิดตัว OpenAI GPT‑5.1 และ Responses API ลดเวลาเริ่มต้นการพูดลงได้มากกว่า 0.7 วินาที ซึ่งเพียงพอที่จะทำให้การสนทนาลื่นไหลขึ้นอย่างเห็นได้ชัด

สิ่งที่สำคัญพอๆ กันคือความสามารถของระบบในการจัดการบริบทอย่างแม่นยำ ต่างจากเอเจนต์หลายตัวที่เก็บคำสั่งระหว่างรอบสนทนา Tolan จะสร้างบริบทใหม่ตั้งแต่ต้นในทุกๆ รอบ การสร้างบริบทแต่ละครั้งประกอบด้วยสรุปข้อความล่าสุด, การ์ดบุคลิกภาพ, ความทรงจำที่ดึงจากเวกเตอร์, แนวทางโทนเสียง และสัญญาณแอปแบบเรียลไทม์ สถาปัตยกรรมนี้ช่วยให้ Tolan สามารถปรับตัวได้แบบเรียลไทม์ต่อการเปลี่ยนแปลงหัวข้ออย่างฉับพลัน ซึ่งเป็นข้อกำหนดที่สำคัญสำหรับการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ

"เราเข้าใจทันทีว่าการเก็บคำสั่งแบบแคชไม่เพียงพอ" Quinten กล่าว "ผู้ใช้เปลี่ยนเรื่องคุยบ่อยมาก เพื่อให้การสนทนาดูเป็นธรรมชาติ ระบบจึงต้องปรับตัวกลางทาง"

กระบวนการสร้างบริบทขึ้นใหม่แบบเรียลไทม์นี้ต้องใช้เทคนิคสูง และเป็นองค์ประกอบหลักที่ทำให้ Tolan ทำงานได้อย่างมีประสิทธิภาพ

แผนภาพแสดงลูปการสนทนาของ Tolan ขั้นตอน "ปรับบุคลิกใหม่" ใช้ข้อมูลสี่ส่วน ได้แก่ สรุปบทสนทนาและข้อความล่าสุด บุคลิกของผู้ใช้และของ Tolan รวมถึงบริบทที่เกี่ยวข้อง ความจำ และโทนการสนทนา อินพุตเหล่านี้ถูกรวมกันเพื่อสร้างคำตอบของ Tolan ซึ่งจะนำไปสู่คำตอบถัดไปของผู้ใช้ การตอบของผู้ใช้จะเป็นตัวกระตุ้นสองกระบวนการคู่ขนาน ได้แก่ การปรับโทนเสียงและการเรียกความทรงจำ ความทรงจำที่เรียกออกมาจะอัปเดตลงในระบบความจำ โทนเสียงที่ปรับแล้วจะป้อนกลับเข้าโทนเสียง และประวัติสนทนาจะถูกสรุปและบีบอัดเป็นระยะ ก่อนวนกลับไปเป็นสรุปแชตสำหรับครั้งถัดไป

สร้างความทรงจำและบุคลิกภาพที่สอดคล้องกันตลอดเวลา

การจัดการบริบทสำคัญก็จริง แต่ยังไม่พอที่จะทำให้บทสนทนาดูต่อเนื่องเมื่อเวลาผ่านไป เพื่อให้รองรับการสนทนาที่ยาวและเปลี่ยนทิศทางได้ตลอด Tolan พัฒนาระบบความจำที่บันทึกทั้งข้อเท็จจริง ความชอบ และสัญญาณ "อารมณ์" ของผู้ใช้ ซึ่งเป็นเบาะแสสำคัญที่ใช้ในการตอบของ Tolan

ระบบฝังความทรงจำด้วยโมเดล OpenAI text-embedding-3-large ก่อนจัดเก็บลงใน Turbopuffer ซึ่งเป็นฐานข้อมูลเวกเตอร์ความเร็วสูงที่รองรับการค้นคืนในระดับต่ำกว่า 50 มิลลิวินาที ความเร็วนี้มีความสำคัญสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ ในการสนทนาแต่ละครั้ง Tolan จะใช้ข้อความล่าสุดของผู้ใช้และคำถามที่ระบบสร้างขึ้นเอง (เช่น "ผู้ใช้นั้นแต่งงานกับใคร") เพื่อกระตุ้นเรียกความทรงจำ เพื่อรักษาคุณภาพความจำให้สูง Tolan จะรันงานบีบอัดทุกคืนเพื่อลบรายการที่มีค่าน้อยหรือซ้ำซ้อน (เช่น "วันนี้ผู้ใช้ดื่มกาแแฟ") แและจัดการแก้ไขข้อมูลที่ขัดแย้งกัน

บุคลิกก็ได้รับการดูแลอย่างพิถีพิถันไม่ต่างกัน Tolan แต่ละตัวมีฐานโครงสร้างคาแรคเตอร์ที่มีเอกลักษณ์ เขียนโดยนักเขียนนิยายวิทยาศาสตร์ประจำทีม และปรับแต่งโดยนักวิจัยด้านพฤติกรรม เมล็ดพันธุ์เหล่านี้ทำให้ Tolan มีความสม่ำเสมอ แต่ก็มีความยืดหยุ่นในการปรับตัวเมื่อเวลาผ่านไป พร้อมพัฒนาไปกับผู้ใช้ 

มีระบบคู่ขนานที่คอยตรวจจับอารมณ์ของบทสนทนา และปรับวิธีการสื่อสารของ Tolan ให้เหมาะสมอย่างต่อเนื่อง สิ่งนี้ช่วยให้ Tolan เปลี่ยนโหมดจากขี้เล่นเป็นจริงจังตามสัญญาณของผู้ใช้ได้อย่างต่อเนื่อง โดยยังคงบุคลิกหลักไว้

การเปลี่ยนมาใช้ GPT‑5.1 คือจุดเปลี่ยนสำคัญ ทันทีที่มีการใช้คำสั่งแบบหลายชั้น ระบบสามารถปฏิบัติตามคำสั่ง โครงโทนเสียง การฝังความทรงจำ และลักษณะบุคลิกได้อย่างแม่นยำยิ่งขึ้น คำสั่งที่เคยต้องใช้วิธีแก้ปัญหาเฉพาะหน้า เริ่มทำงานได้อย่างที่ควรจะเป็น 

"เป็นครั้งแรกที่ผู้เชี่ยวชาญของเรารู้สึกว่าระบบ ตั้งใจฟังจริงๆ ควินเทนกล่าว "คำสั่งยังคงเหมือนเดิมตลอดการสนทนายาว บุคลิกยังคงถูกยึดตามต้นแบบ และอาการหลุดโทนลดลงอย่างมาก"

การเปลี่ยนแปลงเหล่านั้นรวมกันแล้วทำให้บุคลิกภาพมีความสม่ำเสมอและน่าเชื่อถือมากขึ้น ซึ่งส่งผลให้ประสบการณ์ผู้ใช้น่าสนใจยิ่งขึ้น ทีม Tolan พบความก้าวหน้าที่ชัดเจนและวัดผลได้: การเรียกความทรงจำพลาดลดลง 30% (จากสัญญาณความหงุดหงิดที่พบในแอป) และอัตราการใช้งานซ้ำในวันถัดไปเพิ่มขึ้นกว่า 20% หลังใช้ GPT‑5.1 ในการขับเคลื่อนเพื่อสร้างบุคลิกของ Tolan

แผนภาพแสดงวิธีที่ Tolan เรียกคืนและปรับแต่งความทรงจำระหว่างการสนทนา ข้อความของผู้ใช้ ("ฉันตื่นเต้นกับทริปสุดสัปดาห์นี้มาก") จะกระตุ้นขั้นตอนที่สร้างคำถามติดตามโดยอัตโนมัติ เช่น ทริปที่กำลังจะถึง แผนในสัปดาห์ที่ระบุ และความชอบส่วนตัวของผู้ใช้ คำถามเหล่านี้ถูกฝังเป็นเวกเตอร์เพื่อนำไปค้นหาในฐานข้อมูลเวกเตอร์ความจำ และผลลัพธ์จะถูกรวมโดยใช้ค่าเฉลี่ยของอันดับผกผัน บริบทที่ดึงมาจะช่วยกำหนดคำตอบของ Tolan ("ไปแคมป์ปิ้งกับสตีเวนที่โยเซมิตี") ข้อความผู้ใช้ต่อมาที่พูดถึงทริปอนาคตไปไอซ์แลนด์จะถูกบันทึกเป็นความทรงจำใหม่ จากนั้นจะถูกสะท้อน วิเคราะห์ และจัดกลุ่มกับความจำที่เกี่ยวข้องด้วย K-Nearest Neighbors แบบฝังเวกเตอร์ และถูกบีบอัดด้วยการรวม แก้ไข และขัดเกลาความจำภายในแต่ละคลัสเตอร์

หลักการสำคัญของ Tolan สำหรับการสร้างเอเจนต์เสียงที่เป็นธรรมชาติ 

เมื่อ Tolan พัฒนาไปเรื่อยๆ หลักการบางอย่างก็เริ่มชัดเจนขึ้น และตอนนี้กลายเป็นแนวทางในการสร้างและพัฒนาสถาปัตยกรรมเสียงของทีม

  • ออกแบบเพื่อรองรับความผันผวนของการสนทนา: การสนทนาด้วยเสียงสามารถเปลี่ยนแปลงได้กลางคัน ระบบจำเป็นต้องปรับตัวได้อย่างรวดเร็วเพื่อให้ฟังดูเป็นธรรมชาติ
  • มองความหน่วงเป็นส่วนหนึ่งของประสบการณ์ผลิตภัณฑ์: การตอบสนองรวดเร็วภายในเสี้ยววินาทีมีผลต่อความรู้สึกว่าเอเจนต์เสียงให้ความรู้สึกเหมือนสนทนาเป็นธรรมชาติหรือแข็งทื่อเหมือนครื่องจักร
  • สร้างความทรงจำเป็นระบบดึงข้อมูล ไม่ใช่แค่บันทึกการสนทนา: การบีบอัดคุณภาพสูงและการค้นหาเวกเตอร์อย่างรวดเร็วทำให้บุคลิกภาพมีความต่อเนื่องและเสถียรกว่าการใช้บริบทขนาดใหญ่เกินจำเป็น
  • สร้างบริบทใหม่ทุกครั้ง: อย่าพยายามแก้ไขการคลาดเคลื่อนด้วยการใช้คำสั่งที่ยาวขึ้น การสร้างบริบทใหม่ในแต่ละรอบช่วยให้เอเจนต์ยึดโยงกับบริบทได้ แม้บทสนทนาจะวกวนไปมา

บทเรียนเหล่านี้ร่วมกันกลายเป็นรากฐานของนวัตกรรมระยะถัดไปของ Tolan และกำหนดทิศทางที่เทคโนโลยีเสียงของ AI จะมุ่งหน้าต่อไปในอนาคต

ขยายขอบเขตความเป็นไปได้ด้วย AI ด้านเสียง

นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2568 Tolan เติบโตจนมีผู้ใช้งานรายเดือนมากกว่า 200,000 คน ได้รับคะแนน 4.8 ดาวและรีวิวบน App Store กว่า 100,000 รายการ แสดงให้เห็นว่าระบบสามารถรักษาความสอดคล้องได้ดีในบทสนทนายาวๆ ที่มีการเปลี่ยนแปลง ผู้ใช้คนหนึ่งรีวิวว่า "มันจำสิ่งที่เราคุยกันเมื่อสองวันก่อนได้ และนำกลับมาใช้ในบทสนทนาที่คุยกันในวันนี้"

สัญญาณเหล่านี้สอดคล้องโดยตรงกับสถาปัตยกรรมแกนกลางของระบบ ได้แก่ การเรียกโมเดลความหน่วงต่ำ การสร้างบริบทใหม่ในแต่ละครั้ง และระบบความจำกับบุคลิกที่ออกแบบเป็นโมดูล สิ่งเหล่านี้ช่วยให้ Tolan ตรวจจับการเปลี่ยนหัวข้อ รักษาโทนการสนทนา และคงความแม่นยำของคำตอบได้ โดยไม่ต้องอาศัยคำสั่งขนาดใหญ่ที่เสี่ยงต่อความผิดพลาด

ในอนาคต Tolan วางแผนเพิ่มการลงทุนด้านการควบคุมทิศทางและการปรับปรุงความจำ โดยมุ่งเน้นไปที่การบีบอัดข้อมูลที่เข้มข้นขึ้น การปรับปรุงตรรกะการดึงข้อมูล และการปรับแต่งบุคลิกภาพที่หลากหลาย เป้าหมายระยะยาวคือการขยายศักยภาพของอินเทอร์เฟซเสียง ไม่ใช่แค่ตอบสนองได้ แต่ยังเข้าใจบริบทและโต้ตอบได้อย่างมีชีวิตชีวา

"ก้าวถัดไปคือการสร้างเอเจนต์เสียงที่ไม่ใช่แค่ตอบสนองได้ แต่เป็นมัลติโหมดอย่างแท้จริง ผสานเสียง ภาพ และบริบทเข้าเป็นระบบเดียวที่ควบคุมทิศทางได้" ควินเทนกล่าว