Tolan GPT‑5.1‑ээр дууг тэргүүнд тавьсан AI-г хэрхэн бүтээдэг вэ
GPT‑5.1‑ийн тусламжтай Tolan бага саатал, үнэн зөв контекст, яриа өрнөх тусам тогтвортой зан чанартай дуут апп бүтээсэн.

Tolan(шинэ цонхонд нээгдэнэ) бол хүмүүс цаг хугацааны явцад ярианаас суралцдаг, хувьчилсан, хөдөлгөөнт дүртэй ярилцдаг дууг тэргүүнд тавьсан AI хамтрагч юм.
Өмнө нь амжилттай гаралт хийж байсан туршлагатай Portola багийн бүтээсэн энэ апп нь хурдан өгөгдөл, хариултаас илүүтэй үргэлжилсэн, нээлттэй харилцан ярианд зориулагдсан. Portola-ийн хамтран үүсгэн байгуулагч бөгөөд CEO Квинтен Фармер “Бид ChatGPT‑ийн өсөлтийг хараад дуу бол дараагийн хил хязгаар гэдгийг мэдсэн” гэж хэлэв. “Гэхдээ дуу нь илүү хэцүү. Та зүгээр л бичсэн өгөгдөлд хариулахгүй; амьд, салаалсан яриаг үргэлжлүүлж байдаг.”
Дуут AI нь саатал болон контекстийн удирдлагад илүү өндөр шаардлага тавьдаг ч текстээс илүү нээлттэй, хайгуулын шинжтэй харилцааг мөн боломжтой болгодог.
Суурь загварууд илүү хурдан, хямд, чадварлаг болж байгаатай зэрэгцэн баг хүчин чармайлтаа санах ой ба дүрийн дизайн гэсэн хоёр гол хөшүүрэгт төвлөрүүлсэн. Portola шагналт аниматорууд болон шинжлэх ухааны зөгнөлт зохиолчийн оролцоотойгоор дүрд төвлөрсөн ертөнцийг бүтээж, яриа өрнөх явцад зан чанар ба санах ойг тогтвортой байлгахын тулд бодит цагийн контекстийн удирдлагын систем ашигласан.
GPT‑5.1 загварууд гарснаар эргэлтийн цэг тохиож, удирдуулалт ба саатлын томоохон ахиц авчирснаар эдгээр хэсгүүдийг нэгтгэн, илүү хурдан хариу үйлдэлтэй, илүү татахуйц дуут туршлагыг нээсэн.
“GPT-5.1 бидний төсөөлж байсан дүрүүдийг эцэст нь илэрхийлэх удирдуулалтыг өгсөн. Энэ нь зүгээр нэг илүү ухаалаг байгаагүй—бидний бүтээхийг хүссэн өнгө аяс, зан чанарт илүү үнэнч байсан.”
Tolan-ийн архитектур нь дууны шаардлагаар хэлбэржсэн. Дуут хэрэглэгчид яриа дундаа чиглэлээ өөрчилсөн ч шуурхай, байгалийн мэт хариу хүлээдэг. Tolan хурдан хариулах, өөрчлөгдөж буй сэдвийг дагах, саатал эсвэл өнгө аясын хэлбэлзэлгүйгээр тогтвортой зан чанараа хадгалах ёстой байв.
Байгалийн мэт мэдрэмж төрүүлэхийн тулд ярианд бараг агшин зуурын саатал шаардлагатай байсан. OpenAI GPT‑5.1 болон Responses API-ийг нэвтрүүлснээр яриа эхлүүлэх хугацаа 0.7 секундээс илүүгээр буурч, ярианы урсгалыг мэдэгдэхүйц сайжруулсан.
Үүнтэй адил чухал зүйл нь систем контекстийг хэрхэн боловсруулж байсан явдал юм. Олон агент олон ээлжийн турш өгөгдлийг кэшилдгээс ялгаатай нь Tolan ээлж бүрт контекст цонхоо эхнээс нь дахин бүтээдэг. Контекстийг дахин бүтээх бүрт сүүлийн мессежүүдийн хураангуй, персона карт, вектороор татсан дурсамжууд, өнгө аясын заавар, аппын бодит цагийн дохионуудыг авчирдаг. Энэ архитектур нь Tolan-д сэдвийн огцом өөрчлөлтөд бодит цагт дасан зохицох боломж олгодог бөгөөд энэ нь байгалийн дуут харилцаанд зайлшгүй хэрэгтэй шаардлага юм.
Квинтен “Кэшилсэн өгөгдөл ерөөсөө хангалтгүйг бид хурдан ойлгосон” гэж хэлэв. “Хэрэглэгчид байнга сэдвээ сольдог. Яриа тасралтгүй мэт санагдуулахын тулд систем урсгал дунд дасан зохицох ёстой байсан.”
Ийнхүү бодит цагийн дахин бүтээлтийн арга нь техникийн хувьд нэлээд ачаалалтай ч Tolan-ийн амжилтын үндэс болсон.

Контекстийн боловсруулалт чухал ч яриаг удаан хугацаанд уялдаатай мэдрүүлэхэд дангаараа хангалтгүй байв. Урт, шугаман бус яриаг дэмжихийн тулд Tolan зөвхөн баримт ба сонголтуудыг бус, мөн Tolan хэрхэн хариулахыг чиглүүлэхэд туслах сэтгэл хөдлөлийн “уур амьсгал”-ын дохионуудыг хадгалдаг санах ойн систем бүтээсэн.
Дурсамжуудыг OpenAI text-embedding-3-large загварыг ашиглан embedding хэлбэрт оруулж, 50 мс-ээс бага хайлтын хугацаа олгодог өндөр хурдны вектор өгөгдлийн сан болох Turbopuffer-д хадгалдаг. Энэ хурд нь бодит цагийн дуут харилцаанд зайлшгүй шаардлагатай. Ээлж бүрт Tolan хэрэглэгчийн хамгийн сүүлийн мессеж болон системээс нийлэгжүүлсэн асуултуудыг (ж.нь. “Хэрэглэгч хэнтэй гэрлэсэн бэ?”) ашиглан санах ойг сэргээдэг. Санах ойн чанарыг өндөр байлгахын тулд Tolan шөнө бүр бага үнэ цэнтэй эсвэл давхардсан бичлэгүүдийг (ж.нь. “хэрэглэгч өнөөдөр кофе уусан”) устгаж, зөрчлийг шийдвэрлэдэг шахалтын ажил ажиллуулдаг.
Зан чанарыг ч мөн адил нямбай удирддаг. Tolan бүр багийн дотоод шинжлэх ухааны зөгнөлт зохиолчийн бичиж, зан төлөв судлаачийн сайжруулсан ялгаатай дүрийн суурь бүтцээр эхэлдэг. Эдгээр суурь нь Tolans-д тогтвортой байдал өгдөг ч хэрэглэгчтэй хамт цаг хугацааны явцад өөрчлөгдөн дасан зохицох уян хатан байдлыг мөн олгодог.
Зэрэгцээ систем нь ярианы сэтгэл хөдлөлийн өнгийг хянаж, Tolan-ийн илэрхийллүүдийг динамикаар тохируулдаг. Ингэснээр Tolan үндсэн зан чанараа алдалгүйгээр хэрэглэгчийн дохионоос шалтгаалан хөгжилтэй байдлаас илүү тогтуун байдал руу саадгүй шилжиж чадна.
GPT‑5.1 рүү шилжсэн нь эргэлтийн цэг болсон. Гэнэт олон давхар өгөгдлийн зааврууд—өнгө аясын суурь, санах ойн оруулгууд, дүрийн шинжүүд—илүү үнэнчээр дагагдаж эхэлсэн. Урьд нь тойрч гарах арга шаарддаг байсан өгөгдлүүд зорьсон ёсоороо ажиллаж эхэлсэн.
Квинтен “Манай дотоод мэргэжилтнүүд загвар үнэхээр сонсож байна гэж анх удаа мэдэрсэн” гэж хэлэв. “Урт ярианы турш зааврууд хэвээр үлдэж, персоны шинжүүдийг хүндэтгэж, хэлбэлзэл хамаагүй багассан.”
Эдгээр өөрчлөлтүүд нийлж илүү тогтвортой, үнэмшилтэй зан чанарыг бүрдүүлсэн бөгөөд энэ нь илүү татахуйц хэрэглэгчийн туршлагыг бий болгосон. Tolan-ийн баг тодорхой, хэмжигдэхүйц ахиц харсан: санах ойн сэргэлтийн алдаа 30%-иар буурч (бүтээгдэхүүн доторх бухимдлын дохион дээр үндэслэн), GPT‑5.1‑ээр ажилладаг персонууд нэвтэрсний дараа дараагийн өдрийн хэрэглэгч хадгалалт 20%-иас дээш өссөн.

Tolan хөгжихийн хэрээр багийнхан дуут архитектураа хэрхэн бүтээж, хөгжүүлэхийг чиглүүлдэг хэд хэдэн зарчим тодорсон:
- Ярианы хэлбэлзэлд зориулан загварчлах: Дуут яриа өгүүлбэрийн дундаас чиглэлээ өөрчилдөг. Байгалийн мэт санагдуулахын тулд систем ч мөн адил хурдан эргэх хэрэгтэй.
- Саатлыг бүтээгдэхүүний туршлагын нэг хэсэг гэж үз: Нэг секундээс бага хариулах хурд нь дуут агент яриа мэт эсвэл механик мэт санагдах эсэхийг тодорхойлдог.
- Санах ойг бичлэг биш, сэргээх систем болгон бүтээ: Өндөр чанартай шахалт ба хурдан вектор хайлт нь хэт том контекст цонхноос илүү тогтвортой зан чанар өгдөг.
- Ээлж бүрт контекстийг дахин бүтээ: Илүү том өгөгдлөөр хэлбэлзэлтэй бүү тэмц. Ээлж бүрт контекстийг дахин үүсгэх нь яриа салаалсан ч агентуудыг бодитой байлгадаг.
Эдгээр сургамж нийлээд Tolan-ийн дараагийн инновацийн үе шатны суурийг бүрдүүлж, дуут AI хаашаа чиглэж буйг зааж байна.
2025 оны 2-р сард нээлтээ хийснээс хойш Tolan сарын 200,000-аас дээш идэвхтэй хэрэглэгчтэй болсон. 4.8 одтой үнэлгээ болон App Store дахь 100,000-аас дээш үнэлгээ нь урт, өөрчлөгдөж буй яриануудын турш систем хэр сайн тогтвортой байдлаа хадгалдгийг харуулдаг. Нэг шүүмжлэгч “Тэд хоёр хоногийн өмнө ярьсан зүйлсийг санаж, өнөөдрийн ярианд буцаан оруулж ирдэг” гэж тэмдэглэсэн.
Эдгээр дохионууд нь суурь архитектуртай шууд холбоотой: бага сааталтай загварын дуудлага, ээлж бүрийн контекстийн дахин бүтээлт, мөн модульчлагдсан санах ой ба персона системүүд. Эдгээр нь нийлээд Tolan-д том, хэврэг өгөгдөлд найдалгүйгээр сэдвийн өөрчлөлтийг дагах, өнгө аясыг хадгалах, хариуг бодит нөхцөлд тулгууртай байлгах боломж олгодог.
Цаашид Tolan удирдуулалт ба санах ойг сайжруулах хөрөнгө оруулалтаа гүнзгийрүүлж, илүү нягт шахалт, сайжруулсан сэргээх логик, өргөжүүлсэн персона тааруулалтад анхаарна. Урт хугацааны зорилго нь дуут интерфейс ямар байж болохыг тэлэх явдал юм: зүгээр нэг хариу үйлдэлтэй биш, харин контекстийг мэдэрдэг, ярианы хувьд динамик.
Квинтен “Дараагийн хил хязгаар бол,” “зүгээр нэг хариу үйлдэлтэй бус, харин үнэхээр олон горимт, дуу, дүрс, контекстийг нэг удирдуулж болох системд нэгтгэж чаддаг дуут агентуудыг бүтээх явдал” гэж хэлэв.


