Продакшн дууны агентуудад зориулсан gpt-realtime болон Realtime API шинэчлэлтүүдийг танилцуулж байна
Бид илүү дэвшилтэт ярианаас ярианд буулгах загвар болон MCP серверийн дэмжлэг, зураг оролт, SIP утасны дуудлагын дэмжлэг зэрэг шинэ API боломжуудыг гаргаж байна.

Өнөөдөр бид Realtime API-г ерөнхий хэрэглээнд нэвтрүүлж, хөгжүүлэгчид болон байгууллагуудад найдвартай, продакшнд бэлэн дууны агентууд бүтээх боломж олгох шинэ боломжуудыг гаргаж байна. Одоо API нь алсын MCP серверүүд, зураг оролт, мөн Session Initiation Protocol (SIP)-аар утасны дуудлагыг дэмждэг болсон бөгөөд энэ нь нэмэлт хэрэгсэл, контекстэд хандах замаар дууны агентуудыг илүү чадвартай болгодог.
Мөн бид өнөөг хүртэлх хамгийн дэвшилтэт ярианаас ярианд буулгах загвар болох gpt-realtime-ийг гаргаж байна. Шинэ загвар нь төвөгтэй зааврыг дагах, хэрэгслийг өндөр нарийвчлалтай дуудах, илүү байгалийн бөгөөд илэрхийлэлтэй сонсогдох яриа үүсгэх тал дээр сайжирсан. Энэ нь системийн мессеж болон хөгжүүлэгчийн өгөгдлийг илүү сайн тайлбарладаг—дэмжлэгийн дуудлага дээр тайлбарын скриптийг үг бүрээр нь унших, үсэг-тоон дарааллыг давтаж хэлэх, эсвэл өгүүлбэрийн дунд хэл хооронд саадгүй шилжих зэрэгт. Мөн бид Cedar, Marin гэсэн хоёр шинэ дуу хоолойг гаргаж байгаа бөгөөд эдгээр нь өнөөдрөөс эхлэн зөвхөн Realtime API-д ашиглах боломжтой.
Өнгөрсөн аравдугаар сард бид Realtime API-г нийтийн бета хувилбараар анх танилцуулснаас хойш мянга мянган хөгжүүлэгч API-г ашиглан бүтээн байгуулалт хийж, өнөөдөр гаргаж буй сайжруулалтуудыг хэлбэржүүлэхэд тусалсан—эдгээр нь продакшнд дууны агентуудыг амжилттай нэвтрүүлэхийн тулд найдвартай байдал, бага саатал, өндөр чанарт оновчлогдсон. Яриаг текст болгох болон текстийг яриа болгох олон загварыг хэлхдэг уламжлалт дамжлагуудаас ялгаатай нь Realtime API нь аудиог нэг загвар, нэг API-аар шууд боловсруулж, шууд үүсгэдэг. Ингэснээр саатал багасч, ярианы өнгө аясыг хадгалж, илүү байгалийн, илэрхийлэлтэй хариу гаргадаг.
«OpenAI-ийн Realtime API дахь шинэ ярианаас ярианд буулгах загвар нь илүү хүчтэй сэтгэн бодох чадвар, илүү байгалийн яриаг харуулж байна—ингэснээр амьдралын хэв маягийн хэрэгцээгээр жагсаалтыг нарийсгах эсвэл манай BuyAbility score зэрэг хэрэгслээр төлбөрийн чадварын тухай яриаг чиглүүлэх гэх мэт төвөгтэй, олон алхамт хүсэлтүүдийг гүйцэтгэх боломжтой болдог. Энэ нь Zillow дээр орон сууц хайх эсвэл санхүүжилтийн сонголтуудыг судлахыг найзтайгаа ярилцаж буй мэт байгалийн болгох бөгөөд орон сууц худалдаж авах, зарах, түрээслэх зэрэг шийдвэрүүдийг хялбаршуулахад тусална.»
– Zillow-ийн AI-ийн тэргүүн Josh Weisberg
Шинэ ярианаас ярианд буулгах загвар болох gpt-realtime нь манай хамгийн дэвшилтэт, продакшнд бэлэн дууны загвар юм. Бид энэ загварыг хэрэглэгчидтэй нягт хамтран сургаж, харилцагчийн дэмжлэг, хувийн туслах, боловсрол зэрэг бодит хэрэглээний даалгаварт онцгой сайн ажиллахаар хөгжүүлсэн—ингэснээр загварыг хөгжүүлэгчид дууны агентуудыг хэрхэн бүтээж, нэвтрүүлдэгтэй нийцүүлсэн. Загвар нь аудионы чанар, оюун чадвар, заавар дагах, функц дуудах чиглэлээр сайжирсан.
Байгалийн мэт сонсогдох яриа нь бодит орчинд дууны агентуудыг нэвтрүүлэхэд маш чухал. Загварууд таатай туршлага бүрдүүлж, хэрэглэгчидтэй тасралтгүй яриа өрнүүлэхийн тулд хүний аялга, сэтгэл хөдлөл, хурдтайгаар ярих шаардлагатай. Бид gpt-realtime-ийг илүү өндөр чанартай, илүү байгалийн сонсогдох яриа гаргаж, “хурдан бөгөөд мэргэжлийн байдлаар ярь” эсвэл “Франц аялгатай, энэрэнгүйгээр ярь” гэх мэт нарийн зааврыг дагаж чаддагаар сургаж бэлтгэсэн.
Бид API-д Marin болон Cedar гэсэн хоёр шинэ дуу хоолойг гаргаж байгаа бөгөөд эдгээр нь байгалийн мэт сонсогдох ярианы хамгийн том сайжруулалтуудыг агуулж байна. Мөн одоо байгаа найман дуу хоолойгоо эдгээр сайжруулалтаас хүртэхээр шинэчилж байна.
gpt-realtime нь илүү өндөр оюун чадвар үзүүлж, эх аудиог илүү өндөр нарийвчлалтай ойлгодог. Загвар нь инээд зэрэг үгэн бус дохиог барьж авч, өгүүлбэрийн дунд хэл сольж, өнгө аясыг (“огцом бөгөөд мэргэжлийн” эсрэгээр “эелдэг бөгөөд энэрэнгүй”) тохируулж чадна. Дотоод үнэлгээний дагуу загвар нь бусад хэл дээр утасны дугаар, VIN гэх мэт үсэг-тоон дарааллыг илрүүлэхдээ илүү нарийвчлалтай ажиллаж байна, үүнд испани, хятад, япон, франц хэлүүд багтана. Сэтгэн бодох чадварыг хэмждэг Big Bench Audio үнэлгээнд gpt-realtime 82.8%-ийн нарийвчлал авч, 65.6% авсан 2024 оны 12-р сарын өмнөх загварыг давсан.
Big Bench Audio(шинэ цонхонд нээгдэнэ) benchmark нь аудио оролтыг дэмждэг хэлний загваруудын сэтгэн бодох чадварыг үнэлэх үнэлгээний датасет юм. Энэхүү датасет нь ахисан түвшний сэтгэн бодох чадварыг хатуу шалгадгаараа сонгогдсон Big Bench Hard-ийн асуултуудыг аудио орчинд тохируулан хувиргадаг.
Ярианаас ярианд буулгах аппликейшн бүтээхдээ хөгжүүлэгчид загварт хэрхэн ажиллах, хэрхэн ярих, тодорхой нөхцөлд юу хэлэх, юу хийх эсвэл хийхгүй байх талаар багц заавар өгдөг. Бид эдгээр зааврыг дагах чадварыг сайжруулахад төвлөрсөн тул бүр өчүүхэн чиглэл ч загварт илүү их дохио болж өгдөг. Заавар дагах нарийвчлалыг хэмждэг MultiChallenge аудио benchmark дээр gpt-realtime 30.5% авч, 2024 оны 12-р сарын 20.6%-ийн үзүүлэлттэй өмнөх загвараас мэдэгдэхүйц сайжирсан.
MultiChallenge(шинэ цонхонд нээгдэнэ) нь LLM-үүд хүмүүстэй олон ээлжит яриаг хэр сайн зохицуулж байгааг үнэлдэг. Энэ нь одоогийн хил хязгаар загваруудад хүндрэлтэй байдаг бодит дөрвөн төрлийн сорилтод төвлөрдөг. Эдгээр сорилтууд нь загваруудаас заавар дагах, контекстийн менежмент, контекст доторх сэтгэн бодох чадварыг зэрэг хослуулахыг шаарддаг. Бид энэ үнэлгээний аудио хувилбарыг бүтээхийн тулд туршилтын асуултуудын аудиод тохиромжтой дэд багцыг text-to-speech-ээс хөрвүүлсэн.
Ярианаас ярианд буулгах загвартай чадварлаг дууны агент бүтээхийн тулд загвар нь продакшнд хэрэгтэй байхын тулд зөв хэрэгслийг зөв цагт дуудаж чаддаг байх ёстой. Бид функц дуудах чадварыг гурван чиглэлээр сайжруулсан: хамааралтай функцуудыг дуудах, тохирох цагт дуудах, мөн тохирох аргументтайгаар дуудах (ингэснээр нарийвчлал нэмэгдэнэ). Функц дуудах гүйцэтгэлийг хэмждэг ComplexFuncBench аудио үнэлгээнд gpt-realtime 66.5%, харин 2024 оны 12-р сарын өмнөх загвар 49.7% авсан.
Мөн бид асинхрон функц дуудах(шинэ цонхонд нээгдэнэ) боломжийг сайжруулсан. Удаан үргэлжлэх функцийн дуудлагууд сессийн урсгалыг цаашид тасалдуулахгүй—загвар үр дүнг хүлээх зуур шингэн, тасралтгүй яриаг үргэлжлүүлж чадна. Энэ боломж нь gpt-realtime-д төрөлх байдлаар байгаа тул хөгжүүлэгчид кодоо шинэчлэх шаардлагагүй.
ComplexFuncBench(шинэ цонхонд нээгдэнэ) нь загварууд сорилттой функц дуудах даалгавруудыг хэр сайн гүйцэтгэж байгааг хэмждэг. Энэ нь олон алхамт дуудлага, хязгаарлалт эсвэл далд параметрийн тухай сэтгэн бодох, маш урт оролтыг боловсруулах зэрэг нөхцөлүүд дэх гүйцэтгэлийг үнэлдэг. Бид энэ үнэлгээг загвартаа зориулан бүтээхийн тулд эх текст өгөгдлүүдийг яриа болгон хөрвүүлсэн.
Та сессийн тохиргоонд алсын MCP серверийн URL-г дамжуулснаар Realtime API сессэд MCP дэмжлэгийг идэвхжүүлж болно. Холбогдсоны дараа API хэрэгслийн дуудлагуудыг автоматаар зохицуулах тул интеграцчлалыг гараар холбох шаардлагагүй.
Энэ тохиргоо нь таны агентын шинэ чадваруудыг нэмэхийг хялбар болгодог—сессийг өөр MCP сервер рүү заахад л тухайн хэрэгслүүд даруй ашиглах боломжтой болно. Realtime-тэй MCP-г хэрхэн тохируулах талаар илүү ихийг мэдэхийг хүсвэл энэ гарын авлагыг(шинэ цонхонд нээгдэнэ) үзнэ үү.
Одоо gpt-realtime-д зураг оролтыг дэмждэг болсон тул та Realtime API сессэд аудио эсвэл текстийн хамт зураг, фото, скриншот нэмж болно. Ингэснээр загвар яриаг хэрэглэгчийн үнэхээр харж буй зүйлд тулгуурлан ойлгож, хэрэглэгчид “чи юу харж байна?” эсвэл “энэ скриншот дээрх текстийг унш” гэх мэт асуулт асуух боломжтой болдог.
Систем зурагт шууд видео урсгал мэт хандахын оронд ярианд зураг нэмэхтэй адил авч үздэг. Таны апп загварт ямар зургуудыг, хэзээ хуваалцахаа өөрөө шийдэж чадна. Ингэснээр загвар юу харах, хэзээ хариулахыг та хяналтдаа байлгана.
Зураг оролтоор хэрхэн эхлэх талаар манай баримт бичгийг(шинэ цонхонд нээгдэнэ) үзнэ үү.
Бид Realtime API-г интеграцчлахад хялбар, продакшнд ашиглахад илүү уян хатан болгохын тулд өөр хэд хэдэн боломж нэмсэн.
- Session Initiation Protocol (SIP)-ийн дэмжлэг: Апп-уудаа нийтийн утасны сүлжээ, PBX систем, суурин утас болон бусад SIP эцсийн цэгүүдтэй Realtime API доторх шууд дэмжлэгээр холбоорой. Баримт бичгээс уншина уу.(шинэ цонхонд нээгдэнэ)
- Дахин ашиглах өгөгдөл: Одоо та Responses API шиг Realtime API сессүүдийн хооронд хөгжүүлэгчийн мессеж, хэрэгсэл, хувьсагч, жишээ хэрэглэгч/туслах мессежээс бүрдэх өгөгдлүүдийг хадгалж, дахин ашиглаж болно. Баримт бичгээс дэлгэрэнгүй үзнэ үү.(шинэ цонхонд нээгдэнэ)
Realtime API нь буруугаар ашиглахаас сэргийлэхэд туслах олон давхар хамгаалалт, сөрөг нөлөө бууруулах арга хэмжээг агуулдаг. Манай аюулгүй байдлын арга барил болон системийн картын дэлгэрэнгүйг бета зарлалын блог-оос үзэж болно. Бид Realtime API сессүүд дээр идэвхтэй ангилагчдыг ажиллуулдаг бөгөөд энэ нь хортой контентийн удирдамжийг зөрчсөн нь илэрвэл тодорхой яриануудыг зогсоож болно гэсэн үг. Хөгжүүлэгчид мөн Agents SDK(шинэ цонхонд нээгдэнэ)-г ашиглан өөрсдийн нэмэлт аюулгүй байдлын хамгаалалтын хүрээг хялбархан нэмж чадна.
Манай ашиглалтын бодлого нь манай үйлчилгээний гаралтыг спам, мэхлэлт эсвэл бусад хор хөнөөлтэй зорилгоор дахин ашиглах, түгээхийг хориглодог. Мөн контекстоос аль хэдийн ойлгомжтой биш бол хөгжүүлэгчид эцсийн хэрэглэгчдэд AI-тай харилцаж байгааг нь тодорхой мэдэгдэх ёстой. Realtime API нь бусдын дүрд хувирахаас сэргийлэхэд туслахын тулд урьдчилан тохируулсан дуу хоолойг ашигладаг.
Realtime API нь ЕХ-д суурилсан аппликейшнуудад зориулсан ЕХ-ны өгөгдөл байршлын зохицуулалт(шинэ цонхонд нээгдэнэ)-ыг бүрэн дэмждэг бөгөөд манай байгууллагын нууцлалын амлалт-ын хүрээнд хамаарна.
Ерөнхий хэрэглээнд нэвтэрсэн Realtime API болон шинэ gpt-realtime загвар нь өнөөдрөөс эхлэн бүх хөгжүүлэгчдэд нээлттэй. Бид gpt-4o-realtime-preview-тэй харьцуулахад gpt-realtime-ийн үнийг 20%-иар бууруулж байна—1M аудио оролтын токен тутамд $32 (кэшлэгдсэн оролтын токен $0.40), 1M аудио гаралтын токен тутамд $64 ( дэлгэрэнгүй үнийг(шинэ цонхонд нээгдэнэ) үзнэ үү). Мөн бид ярианы контекстэд нарийн хяналт нэмснээр хөгжүүлэгчид ухаалаг токений хязгаар тогтоож, нэг дор олон ээлжийг тайрах боломжтой болсон бөгөөд энэ нь урт сессийн зардлыг мэдэгдэхүйц бууруулна.
Эхлэхийн тулд манай Realtime API баримт бичиг(шинэ цонхонд нээгдэнэ)-т зочилж, шинэ загварыг Playground(шинэ цонхонд нээгдэнэ)-д туршиж, мөн манай Realtime API өгөгдлийн гарын авлага(шинэ цонхонд нээгдэнэ)-ыг үзнэ үү.


