
ዛሬ የእውነተኛ ጊዜ API በአጠቃላይ ገንቢዎች እና ኢንተርፕራይዞች አስተማማኝ፣ ለምርት ዝግጁ የሆኑ የድምጽ ወኪሎችን እንዲገነቡ በሚያስችሉ አዳዲስ ባህሪያት እንዲገኝ እያደረግን ነው። API አሁን የርቀት MCP አገልጋዮችን፣ የምስል ግብዓቶችን እና የስልክ ጥሪን በክፍለ-ጊዜ ማስጀመሪያ ፕሮቶኮል (SIP) በኩል ይደግፋል፣ ይህም ተጨማሪ መሣሪያዎችን እና አውድ በማግኘት የድምጽ ወኪሎችን የበለጠ ችሎታ እንዲኖረው ያደርጋል።
እንዲሁም የእኛን በጣም የላቀ የንግግር-ወደ-ንግግር ሞዴላችንን እየለቀቅን እንገኛለን—gpt-realtime። አዲሱ ሞዴል ውስብስብ መመሪያዎችን በመከተል፣ መሣሪያዎችን በትክክለኛነት በመጥራት እና የበለጠ ተፈጥሯዊ እና ገላጭ የሚመስል ንግግርን በማፍራት ረገድ ማሻሻያዎችን ያሳያል። የስርዓት መልእክቶችን እና የገንቢ ጥያቄዎችን መተርጎም የተሻለ ነው—ይህ የድጋፍ ጥሪ ላይ የቃላት-ለቃላትን ስክሪፕቶች ማንበብ፣ ፊደሎችን በመድገም ወይም በአረፍተ ነገር አጋማሽ መካከል ያለ ችግር መቀያየር ነው። እንዲሁም ከዛሬ ጀምሮ በእውነተኛ ጊዜ API ውስጥ ብቻ የሚገኙትን ሁለት አዲስ ድምጾችን Cedar እና Marinን እየለቀቅን ነው።
እ.ኤ.አ ባለፈው ኦክቶበር ወር ላይ በይፋዊ ቤታ ውስጥ የRealtime API ለመጀመሪያ ጊዜ ካስተዋወቅንበት ጊዜ ጀምሮ፣ በሺዎች የሚቆጠሩ አበልጻጊዎች በAPI ገንብተው ዛሬ የምንለቃቸውን ማሻሻያዎችን ለመቅረጽ ረድተዋል—ይህም የድምፅ ወኪሎችን በምርት ውስጥ በተሳካ ሁኔታ ለማሰማራት ለአስተማማኝነት፣ ለዝቅተኛ መዘግየት እና ለከፍተኛ ጥራት የተመቻቸ ነው። ከንግግር-ወደ-ጽሑፍ እና ከጽሑፍ-ወደ-ንግግር ጋር በርካታ ሞዴሎችን በአንድ ላይ ከሚያገናኙ ባህላዊ ፕይፕላይኖች በተለየ፣ የRealtime API ኦዲዮን በቀጥታ በአንድ ሞዴል እና API በኩል ያዘጋጃል እና ያመነጫል። ይህ መዘግየትን ይቀንሳል፣ የንግግርን ልዩነት ይጠብቃል፣ እና የበለጠ ተፈጥሯዊ እና ገላጭ ምላሾችን ይፈጥራል።
"በOpenAI Realtime API ውስጥ ያለው አዲሱ የንግግር-ወደ-ንግግር ሞዴል ጠንካራ የማመዛዘን ችሎታ እና የበለጠ ተፈጥሯዊ ንግግር ያሳያል—እንደ የአኗኗር ዘይቤ ፍላጎቶች ዝርዝሮችን ማጥበብ ወይም እንደ የBuyAbility ውጤታችን ባሉ መሳሪያዎች ተመጣጣኝ ዋጋ ያላቸውን ውይይቶች መምራት ያሉ ውስብስብ፣ ባለብዙ ደረጃ ጥያቄዎችን እንዲያስተናግድ ያስችለዋል። ይህ በZillow ላይ ቤት መፈለግ ወይም የፋይናንስ አማራጮችን ማሰስ ከጓደኛ ጋር እንደመነጋገር የሆነ ተፈጥሯዊ የሆነ ስሜት እንዲሰማዎት ሊያደርግ ይችላል፣ ይህም ቤት መግዛት፣ መሸጥ እና መከራየት ያሉ ውሳኔዎችን ቀላል ለማድረግ ይረዳል።"
— ጆሽ ዌይስበርግ፣ በ Zillowየሰው ሠራሽ አስተውሎት (AI) ኃላፊ
አዲሱ የንግግር-ወደ-ንግግር ሞዴል—gpt-realtime—በጣም የላቀ፣ ለምርት ዝግጁ የሆነ የድምጽ ሞዴላችን ነው። ሞዴሉን ከደንበኞች ጋር በቅርበት በመተባበር እንደ የደንበኛ ድጋፍ፣ የግል ረዳት እና ትምህርት ባሉ እውነተኛ ዓለም ተግባራት ላይ የላቀ አፈጻጸም እንዲኖረው አሰልጥነናል—ይህም ሞዴሉን አበልጻጊዎች የድምፅ ወኪሎችን እንዴት እንደሚገነቡ እና እንደሚተገብሩ በመስማማት ጋር በማስማማት ነው። ሞዴሉ በድምጽ ጥራት፣ በእውቀት፣ መመሪያ በመከተል እና በተግባራዊ ጥሪ ላይ ማሻሻያዎችን ያሳያል።
በገሃዱ ዓለም ውስጥ የድምፅ ወኪሎችን ለማሰማራት ተፈጥሯዊ ድምፅ ያለው ውይይት ወሳኝ ነው። ሞዴሎች አስደሳች ተሞክሮ ለመፍጠር እና ከተጠቃሚዎች ጋር ቀጣይነት ያለው ውይይትን ለማበረታታት የሰውን ድምፅ፣ ስሜት እና ፍጥነት በሚመሳሰል መልኩ መናገር አለባቸው። gpt-realtime የበለጠ ተፈጥሯዊ የሚመስል እና እንደ "በፍጥነት እና በሙያዊነት ተናገር" ወይም "በፈረንሳይኛ አክሰንት ርህራሄ በተሞላበት መንገድ ተናገር" ያሉ ጥልቅ መመሪያዎችን የሚከተል ከፍተኛ ጥራት ያለው ንግግር እንዲያዘጋጅ አሰልጥነናል።
በAPI ውስጥ ሁለት አዳዲስ ድምጾችን እያወጣን ሲሆን፣ እነሱም ማሪን እና ሴዳር፣ በተፈጥሮ ድምፅ ንግግር ላይ ከፍተኛ መሻሻል አሳይተዋል። ከእነዚህ ማሻሻያዎች ተጠቃሚ ለመሆን አሁን ያሉትን ስምንት ድምጾቻችንን እያዘመንን ነው።
gpt-realtime ከፍተኛ የማሰብ ችሎታ ያሳያል እና ቤተኛ ኦዲዮን በተሻለ ሁኔታ መረዳት ይችላል። ሞዴሉ በቃል ያተገለጹ ምልክቶችን (እንደ ሳቅ ያሉ) መረዳት፣ ቋንቋዎችን በአረፍተ ነገር መካከል መቀየር እና ቃናን (“በቀላሉ እና ሙያዊ” እና “ደግ እና ርህሩህ”) ማስተካከል ይችላል። በውስጣዊ ግምገማዎች መሠረት፣ ሞዴሉ እንደ ስፓኒሽ፣ ቻይንኛ፣ ጃፓንኛ እና ፈረንሳይኛ ባሉ በሌሎች ቋንቋዎች ውስጥ የፊደልና የቁጥር ቅደም ተከተሎችን (እንደ የስልክ ቁጥሮች፣ VINዎች፣ ወዘተ) በመለየት ረገድ የበለጠ ትክክለኛ አፈፃፀም ያሳያል። የማመዛዘን ችሎታዎችን በሚለካው Big Bench Audio መገምገሚያ ላይ፣ gpt-realtime 82.8% ትክክለኛነትን አስመዝግቧል—ይህም እ.ኤ.አ በዲሴምበር ወር 2024 ላይ 65.6% ውጤት ያስመዘገበውን ሞዴላችንን አሸንፏል።
Big Bench Audio(በአዲስ መስኮት ውስጥ ይክፈታል) መለኪያ የድምጽ ግቤትን የሚደግፉ የቋንቋ ሞዴሎችን የማመዛዘን ችሎታ ለመገምገም የሚያስችል የግምገማ የውሂብ ስብስብ ነው። ይህ የውሂብ ስብስብ—የላቀ የማመዛዘን ችሎታን በጥብቅ በመፈተኙ ከተመረጠው—ከBig Bench Hard የሆኑ ጥያቄዎችን ወደ ኦዲዮ ጎራ ያዛምዳል።
የንግግር-ወደ-ንግግር መተግበሪያን በሚገነቡበት ጊዜ አበልጻጊዎች እንዴት እንደሚናገር፣ በአንዳንድ ሁኔታ ውስጥ ምን መናገር እንዳለበት እና ምን ማድረግ ወይም አለማድረግ እንዳለበት ጨምሮ ለሞዴሉ እንዴት ባህሪ ማሳየት እንዳለበት መመሪያዎችን ይሰጣሉ። እነዚህን መመሪያዎች በመከተል ላይ ያተኮሩ ማሻሻያዎችን አድርገናል፣ በዚህም ትናንሽ አቅጣጫዎች እንኳን ለሞዴሉ ተጨማሪ ሲግናል መያዝ ይችላሉ ማለት ነው። የመመሪያ መከተል ትክክለኛነትን በሚለካው በMultiChallenge የድምጽ መለኪያ ላይ gpt-realtime 30.5% ውጤት አስመዝግቧል፣ ይህም እ.ኤ.አ በዲሴምበር ወር 2024 ላይ 20.6% ውጤት ካስመዘገበው ሞዴላችን ጋር ሲነጻጸር ጉልህ የሆነ መሻሻል አሳይቷል።
MultiChallenge(በአዲስ መስኮት ውስጥ ይክፈታል) LLMዎች ከሰዎች ጋር የሚደረጉ አውድን መረዳት የሚጠይቁ ውይይቶችን ምን ያህል በጥሩ ሁኔታ እንደሚያከናውኑ ይገመግማል። የአሁን ዋና ሞዴሎች በሚያስቸግሯቸው አራት ተጨባጭ የፈተና ምድቦች ላይ ያተኩራል። እነዚህ ፈተናዎች መመሪያ መከተልን፣ የአውድ አስተዳደርን እና በአውድ ውስጥ ማመዛዘንን በአንድ ጊዜ እንዲያጣምሩ ሞዴሎችን ይጠይቃሉ። የዚህን ግምገማ የድምጽ ቅጂ ለመፍጠር ከጽሑፍ ወደ ንግግር የፈተና ጥያቄዎችን ለድምጽ ተስማሚ ወደሆነ ንዑስ ስብስብ ቀይረናል።
የንግግር-ወደ-ንግግር ሞዴል ያለው ብቃት ያለው የድምጽ ወኪል ለመገንባት፣ ሞዴሉ በመስራት ሂደት ውስጥ ጠቃሚ ለመሆን በትክክለኛው ጊዜ ትክክለኛዎቹን መሳሪያዎች መጥራት መቻል አለበት። በሶስት ዘንጎች ላይ የተግባር ጥሪን አሻሽለናል፦ ተዛማጅ ተግባራትን መጥራት፣ በተገቢው ጊዜ ተግባራትን መጥራት እና ተገቢ ነጋሪ እሴቶች ያላቸውን ተግባራት መጥራት (ከፍተኛ ትክክለኛነትን አስገኝቷል)። የተግባር ጥሪ አፈፃፀምን በሚለካው በComplexFuncBench የድምጽ መለኪያ ላይ gpt-realtime 66.5% ውጤት ያስቆጠረ ሲሆን፣ እ.ኤ.አ በዲሴምበር ወር 2024 ላይ የነበረው የቀድሞው ሞዴላችን 49.7% ውጤት አስመዝግቧል።
እንዲሁም በኢ-ተስማሚ ተግባር መጥራት(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ ማሻሻያዎችን አድርገናል። ለረጅም ጊዜ የሚቆዩ የተግባር ጥሪዎች የክፍለ ጊዜውን ፍሰት አያስተጓጉሉም—ሞዴሉ ውጤቱን እየጠበቀ እያለ ፍሰት ያለው ውይይት መቀጠል ይችላል። ይህ ባህሪ በ gpt-realtime ውስጥ አስቀድሞ የሚገኝ ስለሆነ አበልጻጊዎች ኮዳቸውን ማዘመን አያስፈልጋቸውም።
ComplexFuncBench(በአዲስ መስኮት ውስጥ ይክፈታል) ሞዴሎች ፈታኝ የሆኑ የተግባር ጥሪ ተግባራትን እንዴት በጥሩ ሁኔታ እንደሚይዙ ይለካል። እንደ ባለብዙ ደረጃ ጥሪዎች፣ ስለ ገደቦች ወይም ስለ ውስጣዊ መለኪያዎች ማሰብ፣ እና በጣም ረጅም ግቤቶችን ማስተናገድ ባሉ ሁኔታዎች ውስጥ ያለ አፈጻጸምን ይገመግማል። ይህንን ግምገማ ለሞዴላችን ለመገንባት የመጀመሪያውን የጽሑፍ ጥያቄዎች ወደ ንግግር ቀይረነዋል።
የርቀት MCP ሰርቨር URLን ወደ ክፍለ ጊዜ ውቅር በማሳለፍ የMCP ድጋፍን በRealtime API ክፍለ ጊዜ ውስጥ ማንቃት ይችላሉ። አንዴ ከተገናኘ በኋላ፣ API የመሳሪያውን ጥሪዎች በራስ-ሰር ያስተናግዳል፣ ስለዚህ ውህደቶችን በእጅ ማያያዝ አያስፈልግም።
ይህ ማዋቀር ወኪልዎን በአዲስ ችሎታዎች ማጠናከር ቀላል ያደርገዋል—ክፍለ ጊዜውን ወደተለየ የMCP ሰርቨር ብቻ ያመልክቱ፣ እና እነዚያ መሳሪያዎች ወዲያውኑ ይገኛሉ። MCPን ከRealtime ጋር ስለማዋቀር የበለጠ ለማወቅ ይህንን መመሪያ(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።
የምስል ግቤቶች አሁን በ gpt-realtime ውስጥ ስለሚደገፉ ምስሎችን፣ ፎቶዎችን እና ቅጽበታዊ ገጽ እይታዎችን ከድምጽ ወይም ከጽሑፍ ጎን ለጎን ወደ Realtime API ክፍለ ጊዜ ማከል ይችላሉ። አሁን ሞዴሉ ተጠቃሚው በሚያየው ነገር ላይ ውይይቱን ማስተካከል ይችላል፣ ይህም ተጠቃሚዎች "ምን ታያለህ?" ወይም "በዚህ ቅጽበታዊ ገጽ እይታ ውስጥ ያለውን ጽሑፍ አንብብ" ያሉ ጥያቄዎችን እንዲጠይቁ ያስችላቸዋል።
አንድን ምስል እንደ ቀጥታ የቪዲዮ ስርጭት ከማየት ይልቅ፣ ስርዓቱ በውይይቱ ውስጥ ምስል እንደመጨመር አድርጎ ይመለከተዋል። መተግበሪያዎ የትኞቹን ምስሎች ከሞዴሉ ጋር መጋራት እንዳለበት እና መቼ ማጋራት እንዳለበት መወሰን ይችላል። በዚህ መንገድ፣ ሞዴሉ የሚያየውን እና መቼ ምላሽ እንደሚሰጥ መቆጣጠርዎን ይቀጥላሉ።
የምስል ግቤት ለመጀመር የእኛን ሰነዶች(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።
የRealtime APIን ለማዋሃድ ቀላል እና ለምርት አጠቃቀም የበለጠ ተለዋዋጭ ለማድረግ ሌሎች በርካታ ባህሪያትን አክለናል።
- የክፍለ ጊዜ መነሻ ፕሮቶኮል (SIP) ድጋፍ: መተግበሪያዎችዎን ከሕዝብ የስልክ አውታረ መረብ፣ ከPBX ስርዓቶች፣ ከጠረጴዛ ስልኮች እና ከሌሎች የSIP ኢንድፖይንቶች ጋር በRealtime API ውስጥ ከቀጥተኛ ድጋፍ ጋር ያገናኙ። ስለ እሱ በሰነዶች ውስጥ ያንብቡ።(በአዲስ መስኮት ውስጥ ይክፈታል)
- እንደገና ጥቅም ላይ ሊውሉ የሚችሉ ጥያቄዎች፦ አሁን እንደ Responses API ባሉ Realtime API ክፍለ ጊዜዎች ላይ የአበልጻጊ መልዕክቶችን፣ መሳሪያዎችን፣ ተለዋዋጮችን እና የምሳሌ የተጠቃሚ/ረዳት መልዕክቶችን የያዙ—ጥያቄዎችን ማስቀመጥ እና እንደገና መጠቀም ይችላሉ። ሰነዶች ውስጥ የበለጠ ይወቁ።(በአዲስ መስኮት ውስጥ ይክፈታል)
የRealtime API አላግባብ መጠቀምን ለመከላከል የሚረዱ በርካታ ከአደጋ ጠባቂዎችን እና የመከላከያ ንብርብሮችን ያካትታል። ስለ የደህንነት አቀራረባችን እና የስርዓት ካርድ ዝርዝሮቻችን በ ቤታ ማስታወቂያ ብሎግ ውስጥ የበለጠ ማወቅ ይችላሉ። በRealtime API ክፍለ ጊዜዎች ላይ ንቁ መዳቢዎችን እንጠቀማለን፣ ይህ ማለት የተወሰኑ ውይይቶች ጎጂ የይዘት መመሪያዎቻችንን የሚጥሱ ሆነው ከተገኙ ሊቆሙ ይችላሉ ማለት ነው። አበልጻጊዎች የወኪሎች SDK(በአዲስ መስኮት ውስጥ ይክፈታል) ን በመጠቀም የራሳቸውን ተጨማሪ የደህንነት መከላከያዎችን በቀላሉ ማከል ይችላሉ።
የአጠቃቀም መመሪያዎቻችን ከአገልግሎቶቻችን የተገኙ ውጤቶችን ለአይፈለጌ መልዕክት፣ ለማታለል ወይም ለሌሎች ጎጂ ዓላማዎች እንደገና ጥቅም ላይ ማዋል ወይም ማሰራጨትን ይከለክላሉ። አበልጻጊዎች ከሰው ሰራሽ አስተውሎት (AI) ጋር በሚገናኙበት ጊዜ ተጠቃሚዎች ከእውዱ በግልጽ ካልሆነ በስተቀር ግልጽ ማድረግ አለባቸው። Realtime API ተንኮል አዘል ተዋናዮች ሌሎችን እንዳይመስሉ ለመከላከል አስቀድሞ የተዘጋጁ ድምጾችን ይጠቀማል።
የRealtime API መሰረታቸው በአውሮፓ ህብረት ውስጥ ለሆኑ መተግበሪያዎች የአውሮፓ ህብረት የመረጃ ነዋሪነት(በአዲስ መስኮት ውስጥ ይክፈታል) ን ሙሉ በሙሉ ይደግፋል እና የድርጅት የግላዊነት ግዴታዎቻችን የተሸፈነ ነው።
በአጠቃላይ የሚገኘው Realtime API እና አዲሱ gpt-realtime ሞዴል ከዛሬ ጀምሮ ለሁሉም አበልፃጊዎች ይገኛሉ። ከ gpt-4o-realtime-preview ጋር ሲነጻጸር የ gpt-realtime ዋጋዎችን በ20% እየቀነስን ነው—$32 / 1ሚሊዮን የድምጽ ግቤት ቶከኖች ($0.40 ካችድ የግቤት ቶከኖች) እና $64 / 1ሚሊዮን የድምጽ ውጤት ቶከኖች (ዝርዝር ዋጋ አወጣጥን(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ)። እንዲሁም አበልጻጊዎች ብልህ የሆኑ የቶከን ገደቦችን እንዲያወጡ እና በአንድ ጊዜ ብዙ ተራዎችን እንዲቀንሱ የሚያስችል የውይይት አውድ ላይ በደንብ የተዋቀረ ቁጥጥር አክለናል፣ ይህም ለረጅም ክፍለ ጊዜዎች የሚወጣውን ወጪ በእጅጉ ይቀንሳል።
ለመጀመር፣ የእኛን Realtime API ሰነድ(በአዲስ መስኮት ውስጥ ይክፈታል) ይጎብኙ፣ Playground(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ አዲሱን ሞዴል ይሞክሩ እና የእኛን Realtime API መጠየቂያ መመሪያ(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።


