Үндсэн агуулга руу алгасах
OpenAI

2026 оны тавдугаар сарын 7

БүтээгдэхүүнГаргалт

API дахь шинэ загваруудаар дуу хоолойн оюуныг ахиулж байна

Хүмүүс ярьж байх үед сэтгэн бодож, орчуулж, хөрвүүлэн бичиж чаддаг шинэ үеийн бодит цагийн дууны загварууд.

Ачаалж байна…

Бид API-д хөгжүүлэгчдэд зориулсан дууны аппын шинэ ангиллыг нээх гурван аудио загварыг танилцуулж байна. Эдгээр загварын тусламжтай хөгжүүлэгчид илүү байгаллаг мэдрэмжтэй, илүү ухаалгаар хариу өгдөг, бодит цагт үйлдэл хийдэг дууны туршлагуудыг бүтээж чадна:

  • GPT‑Realtime‑2 — GPT‑5 түвшний сэтгэн бодох чадвартай манай анхны дууны загвар бөгөөд илүү төвөгтэй хүсэлтийг зохицуулж, харилцан яриаг байгаллагаар үргэлжлүүлж чадна.
  • GPT‑Realtime‑Translate — 70+ оролтын хэлнээс 13 гаралтын хэл рүү яриаг илтгэгчийн хэмнэлийг алдалгүй орчуулдаг шинэ шууд орчуулгын загвар.
  • GPT‑Realtime‑Whisper — илтгэгч ярьж байх зуур яриаг шууд хөрвүүлэн бичдэг шинэ урсгалт speech-to-text загвар.

GPT-Realtime-2-ийг туршиж үзэх

Сешнийг эхлүүлээд, дараа нь GPT-Realtime-2-той чөлөөтэй ярилцаарай.
Би юу асууж болох вэ?

Сешнийг эхлүүлсний дараа дараах үгсийн аль нэгийг хэлж үзээрэй.

  • Би өнөө орой гэнэтийн оройн хоолондоо хүмүүсийг урьж байна. Надад 30 минутын хугацаа, хоёр цагаан хоолтон найз, мөөгөнд дургүй нэг хүн, бас жижигхэн гал тогоо байна. Надад энгийн цэс гаргахад туслаач.
  • Би Японд болж буй шууд арга хэмжээнд зочдыг угтан авч байна. Япон хэл дээр халуун дотно, чөлөөтэй мэндчилгээний үг хэлээрэй - яг л хөтлөгч онцгой зүйл эхлүүлж байгаа юм мэт.
  • Миний захиалгын дугаар Orbit-742Q байна. Зөв эсэхийг шалгахын тулд тодорхой давтаж хэлнэ үү.
  • Багтаа нээлтийн зорилтот үе шатанд хүрснийг хэлэхэд бэлтгэж тусална уу. Эхлээд тайван итгэлтэйгээр, дараа нь илүү догдлолтойгоор хэлээрэй.
  • Би аяллын үеэр тоглох асуулт хариултын тоглоом бэлдэж байна. Надад энгийн мэт сонсогдох ч төөрөгдүүлэм гурван асуулт өгөөд дараа нь хариулт бүрийг нэг өгүүлбэрээр тайлбарла.

Энэ демо хязгаарлагдмал хугацаатай. Үүнийг ашигласнаар та OpenAI-ийн Үйлчилгээний нөхцөл болон Нууцлалын бодлого-ыг хүлээн зөвшөөрч байна.

Дуу хоолой нь хүмүүсийн программ хангамж ашиглах хамгийн байгаллаг аргуудын нэг болж байна. Энэ нь хэн нэгэнд жолоо барьж байхдаа тусламж хүсэх, нисэх буудлаар алхаж байхдаа аяллын төлөвлөгөөгөө өөрчлөх, хүссэн хэлээрээ дэмжлэг авах, эсвэл бичихээр зогсолгүйгээр ажлаа үргэлжлүүлэх боломж олгодог.

Гэхдээ хэрэгцээтэй дууны бүтээгдэхүүн бүтээхэд хурдан ээлжлэн ярих эсвэл байгаллаг сонсогдох дуу хоолойгоос илүү зүйл хэрэгтэй. Дууны агент нь хүний юу хэлэх гэсэн санааг ойлгож, контекстийг хадгалж, хүсэлт өөрчлөгдөхөд сэргэж, харилцан яриа үргэлжилж байх үед хэрэгсэл ашиглаж, тухайн мөчид тохирсон байдлаар хариулах хэрэгтэй.

Бидний танилцуулж буй эдгээр загварууд хамтдаа бодит цагийн аудиог энгийн асуулт-хариултаас бодитоор ажил хийж чаддаг дууны интерфейс рүү ахиулж байна: сонсох, сэтгэн бодох, орчуулах, хөрвүүлэн бичих, мөн харилцан яриа өрнөх явцад үйлдэл хийх.

Хүмүүс ба бүтээгдэхүүний хоорондох интерфейс болох дуу хоолой

Дуу хоолой нь программ хангамж ашиглах илүү байгаллаг арга болохын хэрээр бид хөгжүүлэгчид voice AI-ийн эргэн тойронд шинээр бүрэлдэж буй гурван хэв маягаар бүтээгдэхүүн бүтээж байгааг харж байна:

  • Voice-to-action, энд хүмүүс хэрэгцээгээ тайлбарлаж, систем хүсэлтийг сэтгэн бодож ойлгон, хэрэгсэл ашиглаж, даалгаврыг гүйцээж чадна. Жишээлбэл, Zillow “миний BuyAbility-д багтах, ачаалалтай гудамжнаас хол, бямба гарагт үзлэг товлоод өг” гэх мэт хүсэлтийг сонсож, сэтгэн бодож, хэрэгжүүлдэг туслах бүтээж байна.
  • Systems-to-voice, энд программ хангамж контекстийг шууд ярианы заавар болгон хувиргаж чадна. Жишээлбэл, аяллын апп аялагчид “Таны ирэх нислэг хойшилсон ч та дараагийн нислэгтээ амжина. Би шинэ гарцыг оллоо, терминалаар хамгийн хурдан явах маршрутыг зураглалаа, мөн таны ачаа шилжүүлэгдэнэ гэж хүлээгдэж байна” гэж урьдчилан хэлж болно.
  • Voice-to-voice, энд AI нь хэл, даалгавар эсвэл өөрчлөгдөж буй контекстийн хооронд шууд яриаг үргэлжлүүлэхэд тусалж чадна. Жишээлбэл, Deutsche Telekom нь харилцагчид хамгийн тухтай хэлээрээ ярьж болох бөгөөд загвар нь харилцан яриаг бодит цагт орчуулдаг дуут дэмжлэгийн туршлагыг бүтээж байна.
Дууны AI-ийн гурван ажлын урсгалыг харуулсан диаграмм: яриаг код ба хөгжүүлэлт, шоппинг, автомашин доторх болон хуваарьлалтын хэрэгслүүд зэрэг апптай холбодог voice-to-action; апп, календарь, CRM, дэмжлэгийн самбарыг яриатай холбодог systems-to-voice; мөн хоёр дууны агент холбодог voice-to-voice.

Эдгээр хэв маяг хоорондоо бас хамтран ажиллаж чадна. Priceline аялагчид нислэг, зочид буудлыг ярианы хэлбэрээр хайх, нислэг хойшилсны дараа зочид буудлын захиалгаа өөрчлөх зэрэг өөрчлөлтүүдийг зохицуулах, TSA-ийн хүлээлгийн бодит цагийн шинэчлэл авах, мөн газар дээрээ очсоны дараа яриагаа орчуулах зэргээр бүх аяллаа дуу хоолойгоор удирдах ирээдүй рүү ажиллаж байна.

Бодит цагийн дуу хоолой: дууны загваруудад сэтгэн бодож, үйлдэл хийхэд туслах нь

GPT‑Realtime‑2 нь хүсэлтийг сэтгэн бодож боловсруулах, хэрэгсэл дуудах, засвар эсвэл тасалдлыг зохицуулах, тухайн мөчид тохирсон байдлаар хариулахын зэрэгцээ харилцан яриаг үргэлжлүүлэн хөдөлгөдөг шууд дууны харилцаанд зориулан бүтээгдсэн.

  • Удиртгал үгс: Хөгжүүлэгчид үндсэн хариултын өмнө “үүнийг шалгая” эсвэл “үүнийг нэг харчхаад ирье” гэх мэт богино хэллэгүүдийг идэвхжүүлж болно. Ингэснээр хэрэглэгч агент хүсэлт дээр ажиллаж байгааг мэднэ.
  • Зэрэгцээ хэрэгслийн дуудлага ба хэрэгслийн ил тод байдал: Загвар нь олон хэрэгслийг нэгэн зэрэг дуудаж, “таны календарыг шалгаж байна” эсвэл “үүнийг одоо хайж байна” гэх мэт хэллэгээр эдгээр үйлдлийг сонсогдохуйц болгож чадна. Ингэснээр агентууд даалгавраа гүйцээх зуураа хариу үйлдэлтэй хэвээр байна.
  • Илүү хүчтэй сэргэлтийн зан төлөв: Загвар нь чимээгүйгээр бүтэлгүйтэх эсвэл харилцан яриаг эвдэхийн оронд “би одоогоор үүн дээр асуудалтай байна” гэх мэтээр илүү эвтэйхэн сэргээн хариулж чадна.
  • Агент маягийн ажлын урсгалд зориулсан урт контекст: Бид илүү урт, илүү уялдаатай сесс болон илүү төвөгтэй даалгаврын урсгалыг дэмжихийн тулд контекст цонхыг 32K-оос 128K болгон нэмэгдүүлж байна.
  • Салбарын ойлголт илүү хүчтэй: Загвар нь мэргэшсэн нэр томьёо, оноосон нэр, эрүүл мэндийн нэр томьёо болон үйлдвэрлэлийн орчинд чухал бусад үгсийн санг илүү сайн хадгалдаг.
  • Илүү хянах боломжтой өнгө аяс ба хүргэлт: Загвар нь асуудал шийдэхдээ тайван, хэрэглэгч бухимдсан үед өрөвдөнгүй, амжилттай үйлдлийг батлахдаа өөдрөг өнгөөр ярих зэргээр өнгө аясаа илүү сайн тохируулж чадна.
  • Тохируулж болох сэтгэн бодох хүчин чармайлт: Хөгжүүлэгчид одоо minimal, low, medium, high, and xhigh сэтгэн бодох түвшнээс сонгох боломжтой бөгөөд анхдагч нь low байна. Ингэснээр энгийн харилцаанд бага хоцролт, төвөгтэй хүсэлтэд илүү нухацтай сэтгэн бодохын хооронд тэнцвэр олгоно.

Эдгээр ахиц нь үйлдвэрлэлийн дууны агентуудтай нягт нийцдэг аудио үнэлгээнүүд дээр харагдаж байна: GPT‑Realtime‑2 (high) нь аудио оюуны хувьд Big Bench Audio дээр GPT‑Realtime‑1.5‑аас 15.2% өндөр оноо авсан. GPT‑Realtime‑2 (xhigh) нь заавар дагах чадвараар Audio MultiChallenge дээр 13.8% өндөр оноо авч, GPT‑Realtime‑1.5‑аас сайжирч, шууд харилцан ярианд илүү хүчтэй сэтгэн бодох, контекст удирдах, хяналтыг харуулж байна.

Big Bench Audio нь аудио оролтыг дэмждэг хэлний загваруудын сорилттой сэтгэн бодох чадварыг үнэлдэг. Audio MultiChallenge(шинэ цонхонд нээгдэнэ) нь заавар дагах, контекст нэгтгэх, өөрийн нийцтэй байдал, ярианы байгаллаг залруулгыг боловсруулах зэрэг ярианы харилцааны системүүдийн олон ээлжит харилцан ярианы оюуныг үнэлдэг.

GPT‑Realtime‑2‑ийн ид шид олон төрлийн хэрэглээний тохиолдолд харагдаж байна:

Бодит цагийн жишээг ачаалж байна…

Эрт үеийн туршилтын явцад бизнесүүд GPT‑Realtime‑2‑ийг ашиглан харилцагч болон ажилтнуудад байгаллаг яриагаар ажлаа амжуулахад туслах дуут агентууд бүтээсэн:

“Бүтээгчид дуусашгүй давталт биш, тасралтгүй ахиц хүсдэг. GPT-5.5 нь танилт баталгаажуулалтын урсгал, бодит цагийн синк зэрэг илүү төвөгтэй даалгаврууд дээр хүмүүсийн ихэвчлэн тулдаг саадыг 훨씬 цөөн ээлжээр давж гардаг. Ажил хэцүү болох үед энэ загвар үнэхээр гялалзаж, хүнд даалгавруудыг 훨씬 бага нааш цааштайгаар зохицуулдаг.”
— Fabian Hedin, Lovable-ийн CTO, хамтран үүсгэн байгуулагч

Бодит цагийн орчуулга: шууд олон хэлт дууны туршлага бүтээх

GPT‑Realtime‑Translate нь хөгжүүлэгчдэд хүн бүр хүссэн хэлээрээ ярьж, ярианы орчуулгыг бодит цагт сонсож, бодит цагийн хөрвүүлэн бичвэрийг уншиж болох шууд олон хэлт дууны туршлага бүтээхэд тусалдаг. Энэ нь 70 гаруй оролтын хэл, 13 гаралтын хэлийг дэмждэг тул харилцагчийн дэмжлэг, хил дамнасан борлуулалт, боловсрол, арга хэмжээ, медиа, дэлхийн үзэгчдэд үйлчилдэг бүтээгч платформуудад ашигтай.

Хөгжүүлэгчдийн хувьд шууд орчуулга нь хүмүүс байгаллагаар ярих, контекстээ солих, эсвэл бүс нутгийн дуудлага ба салбарын онцгой хэл ашиглах үед ч илтгэгчийн хэмнэлийг алдалгүй утгыг хадгалах хэрэгтэй. Жишээлбэл, Deutsche Telekom загварыг олон хэлт дууны харилцаанд туршиж байгаа бөгөөд энд бага хоцролт, илүү хүчтэй ярианы урсгал нь өөр хэл хоорондын яриаг илүү байгаллаг болгож чадна.

Энэ видеонд Vimeo GPT‑Realtime‑Translate нь бүтээгдэхүүний сургалтын видеог тоглож байх үед нь шууд орчуулж, дэлхийн харилцагчид тусад нь бэлтгэсэн хувилбарыг хүлээлгүйгээр шинэчлэлтийг хүссэн хэлээрээ сонсох боломжтойг харуулж байна.

“Энэтхэгт дууны AI бүтээнэ гэдэг нь бүс нутгийн олон янзын авиазүйн онцлогийг зохицуулахыг хэлнэ. Хинди, Тамил, Телугу хэл дээр хийсэн манай үнэлгээнүүдэд GPT-Realtime-Translate нь бидний туршсан бусад бүх загвараас 12.5%-иар бага Word Error Rate үзүүлж, мөн fallback түвшин бага, даалгавар гүйцэтгэл өндөр, байгаллаг харилцан яриаг хадгалсан хоцролттой байсан. Энэ нь олон хэлт voice AI-д шинэ стандарт тогтоож байна.”
— BolnaAI-ийн хамтран үүсгэн байгуулагч, CTO Prateek Sachan

Бодит цагийн хөрвүүлэн бичвэр: бага хоцролттой хөрвүүлэн бичих туршлага бүтээх

GPT‑Realtime‑Whisper нь бага хоцролттой speech-to-text-д зориулан бүтээгдсэн шинэ урсгалт хөрвүүлэн бичих загвар юм. Энэ нь хүмүүс ярьж байх зуур аудиог хөрвүүлэн бичдэг тул шууд бүтээгдэхүүнүүд илүү хурдан, илүү хариу үйлдэлтэй, илүү байгаллаг мэдрэмжтэй болдог—тухайн мөчид гарч ирдэг тайлбараас эхлээд харилцан яриаг гүйцэж бичдэг уулзалтын тэмдэглэл хүртэл.

Энэ загвар нь яриаг бизнесийн ажлын урсгал дотор яг өрнөж байх мөчид нь ашиглах боломжтой болгодог. Багууд уулзалт, анги танхим, нэвтрүүлэг, арга хэмжээнд тайлбар ажиллуулах; яриа үргэлжилж байх үед тэмдэглэл, хураангуй үүсгэх; хэрэглэгчдийг тасралтгүй ойлгох шаардлагатай дуут агентууд бүтээх; мөн харилцагчийн дэмжлэг, эрүүл мэнд, борлуулалт, ажилд авах болон бусад өндөр эзлэхүүнтэй аман харилцаанд илүү хурдан дараагийн ажлын урсгал бий болгож чадна.

Аюулгүй байдал

Realtime API нь зүй бусаар ашиглахаас сэргийлэхэд туслах олон давхар хамгаалалт, бууруулах арга хэмжээг багтаадаг. Бид Realtime API сессүүд дээр идэвхтэй ангилагч ашигладаг бөгөөд энэ нь зарим харилцан яриа манай хортой контентийн удирдамжийг зөрчиж байна гэж илэрвэл зогсоогдож болно гэсэн үг. Хөгжүүлэгчид мөн Agents SDK⁠.(шинэ цонхонд нээгдэнэ) ашиглан өөрсдийн нэмэлт аюулгүй байдлын хамгаалалтыг хялбархан нэмж болно.

Манай ашиглалтын бодлого⁠ нь манай үйлчилгээний гаралтыг спам, хууран мэхлэлт эсвэл бусад хор хөнөөлтэй зорилгоор дахин ашиглах, түгээхийг хориглодог. Хөгжүүлэгчид мөн эцсийн хэрэглэгчид AI-тай харилцаж байгааг, хэрэв контекстоос аль хэдийн ойлгомжтой биш бол, тодорхой мэдэгдэх ёстой.

Realtime API нь ЕХ-д суурилсан аппликейшнуудад EU Data Residency⁠(шинэ цонхонд нээгдэнэ)-г бүрэн дэмждэг бөгөөд манай enterprise privacy commitments⁠-д хамрагдана.

Үнэ ба хүртээмж

GPT‑Realtime‑2, GPT‑Realtime‑Translate болон GPT‑Realtime‑Whisper нь Realtime API-д боломжтой. GPT‑Realtime‑2‑ийн үнэ 1M аудио оролтын токен тутамд $32 ($0.40 cached input tokens-д), мөн 1M аудио гаралтын токен тутамд $64 байна. GPT‑Realtime‑Translate‑ийн үнэ минут тутамд $0.034. GPT‑Realtime‑Whisper‑ийн үнэ минут тутамд $0.017.

Эхлүүлэх

Та шинэ бодит цагийн дууны загваруудыг Playground(шинэ цонхонд нээгдэнэ)-д туршиж үзэж болно.

Бүтээж эхлэхийн тулд энэ өгөгдлийг Codex дээр нээж GPT‑Realtime‑2‑ийг одоо байгаа аппд нэмэх эсвэл шинээр эхлүүлээрэй. Хэрэв танд Codex хараахан байхгүй бол эхлээд Codex апп-ийг татаж аваарай.

Зохиогч

OpenAI