ወደ ዋና ይዘት እለፍ
OpenAI

29 ማርች 2024

ምርት

የሠራተኛ ድምጾችን ተግዳሮቶች እና እድሎች ማሰስ

ብጁ ድምጾችን ለመፍጠር ከሚሠራው የድምጽ ሞተር ትንሽ ቅድመ ዕይታ የተወሰዱ ትምህርቶችን እያካፈልን ነው።

በመጫን ላይ…

OpenAI ደኅንነቱ የተጠበቀ እና ሰፊ ጥቅም ያለው የሰው ሠራሽ አስተውሎት (AI) ለማዳበር ቁርጠኛ ነው። ዛሬ ከመጀመሪያው ተናጋሪ ጋር በቅርበት የሚመሳሰል ተፈጥሯዊ ድምጽ ያለው ንግግር ለመፍጠር የጽሑፍ ግብዓት እና አንድ ነጠላ የ15 ሰከንድ የድምጽ ናሙና የሚጠቀም የድምጽ ሞተር የተባለ ሞዴል አነስተኛ ቅድመ ዕይታን በመጠቀም የመጀመሪያ ግንዛቤዎችን እና ውጤቶችን እያጋራን ነው። አንድ ትንሽ ሞዴል የ15 ሰከንድ ናሙና ያለው ሲሆን ስሜታዊ እና ተጨባጭ ድምጾችን ሊፈጥር እንደሚችል ልብ ሊባል የሚገባው ነው።

የድምጽ ሞተርን ለመጀመሪያ ጊዜ የገነባነው እ.ኤ.አ በ2022 መጨረሻ ላይ ሲሆን በጽሑፍ-ወደ-ንግግር API(በአዲስ መስኮት ውስጥ ይክፈታል) እንዲሁም በChatGPT ድምጽ እና Read Aloud ውስጥ የሚገኙትን አስቀድሞ የተዘጋጁ ድምጾችን ለማብቃት ተጠቅመንበታል። በተመሳሳይ ጊዜ፣ ሰው ሠራሽ የድምጽ አላግባብ መጠቀም ሊከሰት ስለሚችል ሰፊ ስርጭትን በጥንቃቄ እና በመረጃ ላይ የተመሰረተ አካሄድ እየወሰድን ነው። ሰው ሠራሽ ድምጾችን በኃላፊነት ስለማሰማራት እና ማህበረሰቡ ከእነዚህ አዳዲስ ችሎታዎች ጋር እንዴት መላመድ እንደሚችል ውይይት ለመጀመር ተስፋ እናደርጋለን። በእነዚህ ውይይቶች እና በእነዚህ አነስተኛ ደረጃ ሙከራዎች ውጤቶች ላይ በመመስረት፣ ይህንን ቴክኖሎጂ በስፋት እንዴት መጠቀም እንዳለብን እና እንዴት ተግባራዊ ማድረግ እንዳለብን የበለጠ መረጃ ያለው ውሳኔ እናደርጋለን።

የድምጽ ሞተር የመጀመሪያ መተግበሪያዎች

የዚህን ቴክኖሎጂ ጥቅም በተሻለ ለመረዳት፣ ባለፈው ዓመት መጨረሻ ላይ ከታመኑ አጋሮች ጋር በግል መሞከር ጀምረናል። ይህ ቡድን ባዘጋጃቸው መተግበሪይ ተደንቀናል። እነዚህ አነስተኛ ደረጃ ያላቸው ማሰማራቶች አቀራረባችንን፣ መከላከያዎቻችንን እና የድምጽ ሞተርን በተለያዩ ኢንዱስትሪዎች ውስጥ እንዴት ለበጎ ጥቅም ላይ ሊውል እንደሚችል ለማሳወቅ እየረዱን ነው። ጥቂት የመጀመሪያ ምሳሌዎች የሚከተሉትን ያካትታሉ፦

  • አስቀድሞ በተዘጋጁ ድምጾች ከሚቻለው በላይ ሰፊ የድምጽ ማጉያዎችን የሚወክሉ ተፈጥሯዊ፣ ስሜታዊ ድምጾችን በመጠቀም አንባቢ ላልሆኑ እና ለህፃናት የንባብ ድጋፍ መስጠት ለልጆች ትምህር(በአዲስ መስኮት ውስጥ ይክፈታል) ታዊ ስኬት የተሰጠው የትምህርት ቴክኖሎጂ ኩባንያ የሆነው Age of Learning ይህንን ቀድሞ የተሠራ የድምጽ ተላላፊ ይዘትን ለማፍጠር እየተጠቀመ ነው እነሱ ተማሪዎች ጋር ለመስተጋብር የእውነተኛ ጊዜ የተግልጽ እና የግል የተስተካከሉ ምላሾችን ለመፍጠር የድምጽ ሞተር እና GPT‑4 ደግሞ ይጠቀማሉ። በዚህ ቴክኖሎጂ አማካኝነት፣ Age of Learning ለሰፊ ታዳሚዎች ተጨማሪ ይዘት መፍጠር ችሏል።
  • እንደ ቪዲዮዎችና ፖድካስቶች ያሉ ይዘቶችን መተርጎም፣ በዚህም ፈጣሪዎችና ንግድ ሥራዎች በዓለም ዙሪያ ያሉ ተጨማሪ ሰዎችን በአቀላጥፎ እና በራሳቸው ድምጽ ማግኘት ይችላሉ። ይህንን ቀደምት ተጠቃሚ ከሆኑት አንዱ HeyGen(በአዲስ መስኮት ውስጥ ይክፈታል) ሲሆን ከኢንተርፕራይዝ ደንበኞቻቸው ጋር በመተባበር ከምርት ግብይት እስከ የሽያጭ ማሳያዎች ድረስ ለተለያዩ ይዘቶች ብጁ፣ እንደ ሰው የሚመስሉ አምሳያዎችን ለመፍጠር የሚሠራ የሰው ሠራሽ አስተውሎት (AI) ምስላዊ ታሪክ አወጣጥ መድረክ ነው። የድምጽ ሞተርን ለቪዲዮ ትርጉም ይጠቀማሉ፣ ስለዚህ የተናጋሪውን ድምጽ ወደ ብዙ ቋንቋዎች መተርጎም እና ዓለም አቀፍ ታዳሚን መድረስ ይችላሉ። ለትርጉም ጥቅም ላይ ሲውል፣ የድምጽ ሞተር የመጀመሪያውን ተናጋሪ የአፍ መፍቻ ቋንቋ ይይዛል፦ ለምሳሌ፣ ከፈረንሳይኛ ተናጋሪ የድምጽ ናሙና በመጠቀም እንግሊዝኛ መፍጠር የፈረንሳይኛ አክሰንት ያለው ንግግር ይፈጥራል።
በመጫን ላይ...
  • በርቀት አካባቢዎች አስፈላጊ የአገልግሎት አቅርቦትን በማሻሻል ዓለም አቀፍ ማህበረሰቦችን መድረስDimagi(በአዲስ መስኮት ውስጥ ይክፈታል) ለማህበረሰብ የጤና ባለሙያዎች እንደ ጡት ለሚያጠቡ እናቶች ምክር መስጠት ያሉ የተለያዩ አስፈላጊ አገልግሎቶችን ለማቅረብ መሣሪያዎችን እየገነባ ነው። እነዚህ ሠራተኞች ክህሎታቸውን እንዲያዳብሩ ለመርዳት፣ Dimagi የእያንዳንዱን ሠራተኛ ዋና ቋንቋ ጨምሮ Swahili ወይም በKenya ታዋቂ በሆነው በኮድ የተቀላቀለ ቋንቋ ሼንግ ባሉ መደበኛ ባልሆኑ ቋንቋዎች በይነተገናኝ ግብረመልስ ለመስጠት የድምጽ ሞተር እና GPT‑4 ይጠቀማል።
በመጫን ላይ...
  • የንግግር ችግር ላለባቸው ሰዎች እንደ የንግግር ችግር ላለባቸው ሰዎች የሕክምና እና የትምህርት መሻሻል ያሉ የቃል ያልሆኑ ሰዎችን መደገፍLivox(በአዲስ መስኮት ውስጥ ይክፈታል)፣ የሰው ሠራሽ አስተውሎት (AI) አማራጭ የመግባቢያ መተግበሪያ፣ አካል ጉዳተኞች ሰዎች እንዲገናኙ የሚያስችሉ የAugmentative & Alternative Communication (AAC) መሣሪያዎችን ያበረታታል። የድምጽ ሞተርን በመጠቀም፣ በብዙ ቋንቋዎች የቃል ያልሆኑ እና ሮቦቲክ ያልሆኑ ድምጾችን ለሰዎች ማቅረብ ይችላሉ። ተጠቃሚዎቻቸው በተሻለ ሁኔታ የሚወክላቸውን ንግግር መምረጥ ይችላሉ፣ እና ለብዙ ቋንቋ ተናጋሪ ተጠቃሚዎች ደግሞ በእያንዳንዱ የንግግር ቋንቋ ወጥ የሆነ ድምጽ መያዝ ይችላሉ።
በመጫን ላይ...
  • ድንገተኛ ወይም የተበላሸ የንግግር ሁኔታ ላለባቸው ታካሚዎች ድምፃቸውን መልሰው እንዲያገኙ መርዳት። የብራውን ዩኒቨርሲቲ የሕክምና ትምህርት ቤት ዋና የማስተማሪያ አጋር ሆኖ የሚያገለግለው የኖርማን ፕሪንስ ኒውሮሳይንስ ተቋም በሊፍስፓን(በአዲስ መስኮት ውስጥ ይክፈታል) የሚገኘው ለትርፍ ያልተቋቋመ የጤንነት ሥርዓት ሲሆን በክሊኒካዊ ሁኔታዎች ውስጥ የሰው ሠራሽ አስተውሎት (AI) አጠቃቀምን እየመረመረ ነው። የንግግር እክል ላለባቸው ሰዎች የኦንኮሎጂ ወይም የነርቭ በሽታ ላለባቸው ሰዎች የድምጽ ሞተርን የሚያቀርብ ፕሮግራም በሙከራ ላይ ይገኛሉ። የድምጽ ሞተር እንዲህ አይነት አጭር የድምጽ ናሙና ስለሚፈልግ፣ ዶክተሮች ፋጢማ ሚርዛ፣ ሮሃይድ አሊ እና ኮንስታንቲና ስቮኮስ ለትምህርት ቤት ፕሮጀክት የተቀረጸ ቪዲዮ በመጠቀም በደም ሥር የአንጎል ዕጢ ምክንያት የንግግር ችሎታዋን ያጣች ወጣት ታካሚ ድምጽን ወደነበረበት መመለስ ችለዋል።
በመጫን ላይ...

የድምጽ ሞተርን ደኅንነቱ በተጠበቀ ሁኔታ መገንባት

የሰዎችን ድምጽ የሚመስል ንግግር ማመንጨት በተለይ በምርጫ ዓመት ውስጥ ከፍተኛ ትኩረት የሚስቡ አደጋዎች እንዳሉት እንገነዘባለን። እኛ ስንገነባ አስተያየታቸውን እያካተትን መሆኑን ለማረጋገጥ ከመላው መንግስት፣ ከሚዲያ፣ ከመዝናኛ፣ ከትምህርት፣ ከሲቪል ማህበረሰብ እና ከሌሎችም የU.S. እና ዓለም አቀፍ አጋሮች ጋር እየተነጋገርን ነው። ዛሬ የድምጽ ሞተርን የሚሞክሩት አጋሮች የአጠቃቀም መመሪያዎቻችንን ተቀብለዋል፣ ይህም የሌላ ግለሰብን ወይም ድርጅትን ያለ ፈቃድ ወይም ሕጋዊ መብት ማስመሰል ይከለክላል። በተጨማሪም፣ ከእነዚህ አጋሮች ጋር ያለን ውል ከዋናው ተናጋሪ ግልጽ እና በመረጃ ላይ የተመሰረተ ፈቃድ ይፈልጋል፣ እና ገንቢዎች ለግለሰብ ተጠቃሚዎች የራሳቸውን ድምጽ የሚፈጥሩበትን መንገድ እንዲገነቡ አንፈቅድም። አጋሮችም የሚሰሙት ድምጽ በሰው ሠራሽ አስተውሎት (AI) የተፈጠረ መሆኑን ለታዳሚዎቻቸው በግልጽ ማሳወቅ አለባቸው። በመጨረሻም፣ በድምጽ ሞተር የሚፈጠረውን ማንኛውንም ድምጽ መነሻ ለመከታተል የውሃ ምልክት ማድረግን እንዲሁም እንዴት ጥቅም ላይ እየዋለ እንደሆነ ቅድመ ክትትልን ጨምሮ የደኅንነት እርምጃዎችን ተግባራዊ አድርገናል። ማንኛውም ሰፊ የሆነ የሰው ሠራሽ የድምጽ ቴክኖሎጂ ማሰማራት ከድምጽ ማረጋገጫ ተሞክሮዎች ጋር አብሮ መሆን አለበት ብለን እናምናለን፤ ይህም የመጀመሪያው ተናጋሪ ድምፃቸውን በአገልግሎቱ ላይ እያከሉ መሆኑን የሚያረጋግጥ እና ከታዋቂ ሰዎች ጋር በጣም ተመሳሳይ የሆኑ ድምጾችን የሚያውቅ እና የሚከለክል የማይሄድ የድምጽ ዝርዝር ሊኖረው ይገባል።

ወደ ፊት ስንመለከት

የድምጽ ሞተር የቴክኒካዊ ግንባር ቀደም ለመረዳት እና ምን ሊሆን እንደሚችል ለሰው ሠራሽ አስተውሎት (AI) በግልጽ ለማካፈል ያለንን ቁርጠኝነት ቀጣይነት ነው። ከሰው ሠራሽ አስተውሎት (AI) ደኅንነት አቀራረባችን እና የፍቃደኝነት ቁርጠኝነቶቻችን ጋር በሚስማማ መልኩ፣ በዚህ ጊዜ ይህን ቴክኖሎጂ ቅድመ ዕይታ እንዲሆን እንመርጣለን እና በሰፊው አንለቀቀውም። ይህ የድምጽ ሞተር ቅድመ ዕይታ እምቅ አቅሙን እንደሚያጎላ እና የበለጠ አሳማኝ የሆኑ ሞዴሎች ከሚያመጡት ተግዳሮቶች ጋር ለመላመድ የማህበራዊ ጽናትን ማጠናከር አስፈላጊነትን እንደሚያበረታታ ተስፋ እናደርጋለን። በተለይም፣ የሚከተሉትን የመሳሰሉ እርምጃዎችን እናበረታታለን፦

  • የባንክ ሂሳቦችን እና ሌሎች ሚስጥራዊ መረጃዎችን ለመድረስ እንደ የደኅንነት እርምጃ የድምጽ ላይ የተመሠረተ ማረጋገጫን ማጥፋት
  • በሰው ሠራሽ አስተውሎት (AI) ውስጥ የግለሰቦችን ድምጽ አጠቃቀም ለመጠበቅ ፖሊሲዎችን ማሰስ
  • ህዝቡን የሰው ሠራሽ አስተውሎት (AI) ቴክኖሎጂዎችን አቅም እና ገደቦች እንዲረዳ ማስተማር፣ ይህም የሰው ሠራሽ አስተውሎት (AI) ይዘትን የማታለል እድልን ጨምሮ
  • የድምጽ ቪዥዋል ይዘትን አመጣጥ ለመከታተል የሚያስችሉ ቴክኒኮችን እድገት እና ተቀባይነት ማፋጠን፣ ስለዚህ ከእውነተኛ ሰው ጋር ወይም ከሰው ሠራሽ አስተውሎት (AI) ጋር ሲገናኙ ሁልጊዜ ግልጽ ይሆናል።

በዓለም ዙሪያ ያሉ ሰዎች ይህ ቴክኖሎጂ ወዴት እያመራ እንዳለ፣ እኛ ራሳችን በስፋት ብንጠቀምበትም ባይጠቀምበትም መረዳታቸው አስፈላጊ ነው። ከፖሊሲ አውጪዎች፣ ተመራማሪዎች፣ ገንቢዎች እና ፈጣሪዎች ጋር በተዋሃዱ ድምጾች ተግዳሮቶች እና እድሎች ዙሪያ ውይይቶችን ለመቀጠል በጉጉት እንጠባበቃለን።