29 మార్చి, 2024

సింథటిక్ వాయిస్‌ల సవాళ్లు మరియు అవకాశాలను ఎదుర్కోవడం

కస్టమ్ వాయిస్‌లను సృష్టించడానికి ఉపయోగించే మోడల్ అయిన వాయిస్ ఇంజిన్ చిన్న స్థాయి ప్రివ్యూ నుంచి నేర్చుకున్న పాఠాలను మేం పంచుకుంటున్నాం.

లోడ్ అవుతోంది…

OpenAI సురక్షితమైన మరియు విస్తృతంగా ప్రయోజనకరమైన AIని అభివృద్ధి చేయడానికి⁠ కట్టుబడి ఉంది. ఈరోజు మేం వాయిస్ ఇంజిన్‌ అనే మోడల్ చిన్న-స్థాయి ప్రివ్యూ నుండి ప్రాథమిక అంతర్దృష్టులు మరియు ఫలితాలను పంచుకుంటున్నాం, ఇది టెక్ట్స్ ఇన్‌పుట్ మరియు ఒకే 15-సెకండ్ల ఆడియో నమూనాను ఉపయోగించి అసలు స్పీకర్‌ను దగ్గరగా ఉండే సహజంగా వినిపించే స్పీచ్‌ను ఉత్పత్తి చేస్తుంది. ఒకే 15-సెకన్ల నమూనాతో ఉన్న చిన్న మోడల్ భావోద్వేగపూరితమైన మరియు వాస్తవికమైన వాయిస్‌లను సృష్టించగలదని గమనించదగిన విషయం.

మేం 2022 చివర్లో ముందుగా వాయిస్ ఇంజిన్‌ను అభివృద్ధి చేశాం, టెక్ట్స్-టు-స్పీచ్ API⁠(కొత్త విండోలో తెరుచుకుంటుంది)లో అందుబాటులో ఉన్న ప్రీసెట్ వాయిస్‌లకు, అలాగే ChatGPT వాయిస్ మరియు రీడ్ అలౌడ్‌⁠కు శక్తినివ్వడానికి దాన్ని ఉపయోగించాం. అదే సమయంలో, సింథటిక్ వాయిస్ దుర్వినియోగం సంభవించే అవకాశం ఉండటం, మరింత విస్తృత విడుదల విషయంలో మేం జాగ్రత్తగా మరియు సమాచారంతో కూడిన విధానాన్ని అనుసరిస్తున్నాం. సింథటిక్ వాయిస్‌లను బాధ్యతాయుతంగా అమలు చేయడం గురించి, అలాగే ఈ కొత్త సామర్థ్యాలకు సమాజం ఎలా అనుగుణంగా మారగలదో అనే విషయాలపై సంభాషణను ప్రారంభించాలని మేము ఆశిస్తున్నాము. ఈ సంభాషణలు మరియు ఈ చిన్న స్థాయి పరీక్షల ఫలితాల ఆధారంగా, ఈ సాంకేతికతను స్కేల్‌లో అమలు చేయాలా, ఎలా అమలు చేయాలా అనే విషయంలో మేము మరింత సమాచారంతో కూడిన నిర్ణయం తీసుకుంటాము.

వాయిస్ ఇంజిన్ ప్రారంభ అనువర్తనాలు

ఈ టెక్నాలజీకి ఉండే సంభావ్య వినియోగాలను మెరుగుగా అర్థం చేసుకోవడానికి, గత సంవత్సరం చివర్లో మేము విశ్వసనీయ భాగస్వాముల చిన్న గ్రూప్‌తో దీన్ని ప్రైవేట్‌గా టెస్ట్ చేయడం ప్రారంభించాం. ఈ గ్రూప్ అభివృద్ధి చేసిన అప్లికేషన్‌లు మమ్మల్ని ఆకట్టుకున్నాయి. ఈ చిన్న స్థాయి డిప్లాయ్‌మెంట్‌లు మా అప్రమోచ్, సేఫ్‌గార్డ్‌లు, మరియు వివిధ పరిశ్రమల అంతటా Voice Engine‌ను మంచి కోసం ఎలా ఉపయోగించవచ్చో గురించి మా ఆలోచనలను రూపొందించడంలో సహాయపడుతున్నాయి. కొన్ని ప్రారంభ ఉదాహరణలు ఇవి:

చదవడంలో సహాయం అందించడం చదవలేని వారికి మరియు పిల్లలకు, ప్రీసెట్ వాయిస్‌లతో సాధ్యమయ్యే దానికంటే విస్తృత శ్రేణి మాట్లాడేవారిని ప్రాతినిధ్యం వహించే సహజంగా వినిపించే, భావోద్వేగభరిత వాయిస్‌ల ద్వారా. ఏజ్ ఆఫ్ లెర్నింగ్⁠(కొత్త విండోలో తెరుచుకుంటుంది), పిల్లల అకడమిక్ విజయానికి అంకితమైన ఒక ఎడ్యుకేషన్ టెక్నాలజీ కంపెనీ, ముందుగా స్క్రిప్ట్ చేసిన వాయిస్-ఓవర్ కంటెంట్‌ను రూపొందించడానికి దీనిని ఉపయోగిస్తోంది. వారు విద్యార్థులతో పరస్పర చర్య కోసం రియల్-టైమ్, వ్యక్తిగతీకరించిన ప్రతిస్పందనలను సృష్టించడానికి వాయిస్ ఇంజిన్ మరియు GPT‑4 ను కూడా ఉపయోగిస్తారు. ఈ టెక్నాలజీతో, ఏజ్ ఆఫ్ లెర్నింగ్‌ విస్తృత ప్రేక్షకుల కోసం మరింత కంటెంట్‌ను సృష్టించగలిగింది.

కంటెంట్‌ను అనువదించడం, వీడియోలు మరియు పాడ్‌కాస్ట్‌లు వంటి వాటిని, తద్వారా క్రియేటర్‌లు మరియు వ్యాపారాలు ప్రపంచవ్యాప్తంగా మరింత మందిని సులభంగా, తమ స్వంత స్వరాల్లో చేరుకోవచ్చు. దీనిని తొలిదశలో స్వీకరించిన వారిలో ఒకటి HeyGen⁠(కొత్త విండోలో తెరుచుకుంటుంది), ఇది AI విజువల్ స్టోరీటెల్లింగ్ ప్లాట్‌ఫారం; ఇది తమ ఎంటర్‌ప్రైజ్ కస్టమర్‌లతో కలిసి ఉత్పత్తి మార్కెటింగ్ నుంచి సేల్స్ డెమోలు వరకు వివిధ కంటెంట్ కోసం కస్టమ్, మనుషుల్లా కనిపించే అవతార్‌లను సృష్టిస్తుంది. వారు వీడియో అనువాదం కోసం వాయిస్ ఇంజిన్‌ను ఉపయోగిస్తారు, కాబట్టి వారు ఒక స్పీకర్ వాయిస్‌ను అనేక భాషల్లోకి అనువదించి ప్రపంచవ్యాప్త ప్రేక్షకులను చేరుకోగలరు. అనువాదం కోసం ఉపయోగించినప్పుడు, వాయిస్ ఇంజిన్ అసలు స్పీకర్ యొక్క స్థానిక యాసను సంరక్షిస్తుంది: ఉదాహరణకు ఫ్రెంచ్ స్పీకర్ నుండి ఆడియో నమూనాతో ఇంగ్లిష్‌ను ఉత్పత్తి చేయడం ఫ్రెంచ్ యాసతో ప్రసంగాన్ని ఉత్పత్తి చేస్తుంది.

లోడ్ అవుతోంది...

ప్రపంచవ్యాప్త సముదాయాలను చేరుకోవడం, దూర ప్రాంతాల్లో అవసరమైన సేవల అందించడాన్ని మెరుగుపరచడం ద్వారా. Dimagi⁠(కొత్త విండోలో తెరుచుకుంటుంది) పాలిచ్చే తల్లులకు కౌన్సెలింగ్ వంటి వివిధ రకాల అవసరమైన సేవలను అందించడానికి కమ్యూనిటీ హెల్త్ వర్కర్‌ల కోసం సాధనాలను నిర్మిస్తోంది. ఈ కార్మికులు వారి నైపుణ్యాలను అభివృద్ధి చేయడంలో సహాయపడటానికి, స్వాహిలీ లేదా కెన్యాలో ప్రాచుర్యం పొందిన కోడ్-మిశ్రమ భాష అయిన షెంగ్ వంటి అనధికారిక భాషలతో సహా ప్రతి కార్మికుడి ప్రాథమిక భాషలో ఇంటరాక్టివ్ ఫీడ్ బ్యాక్ ఇవ్వడానికి Dimagi వాయిస్ ఇంజిన్ మరియు GPT‑4 ను ఉపయోగిస్తుంది.

లోడ్ అవుతోంది...

మాట్లాడలేని వ్యక్తులకు మద్దతు ఇవ్వడం, ఉదాహరణకు మాటలపై ప్రభావం చూపే పరిస్థితులు ఉన్న వ్యక్తుల కోసం థెరప్యూటిక్ అప్లికేషన్‌లు మరియు నేర్చుకునే అవసరాలు ఉన్నవారికి విద్యా మెరుగుదలలు. Livox⁠(కొత్త విండోలో తెరుచుకుంటుంది), ఒక AI ప్రత్యామ్నాయ కమ్యూనికేషన్ యాప్, వికలాంగులు కమ్యూనికేట్ చేయడానికి వీలు కల్పించే ఆగ్మెంటివ్ & ఆల్టర్నేటివ్ కమ్యూనికేషన్ (AAC) పరికరాలకు శక్తినిస్తుంది. వాయిస్ ఇంజిన్‌ను ఉపయోగించడం ద్వారా, వారు మాట్లాడలేని వ్యక్తులకు అనేక భాషలలో ప్రత్యేకమైన మరియు రోబోటిక్‌గా లేని వాయిస్‌లను అందించగలుగుతున్నారు. వారి వినియోగదారులు తమకు ఉత్తమంగా ప్రాతినిధ్యం వహించే ప్రసంగాన్ని ఎంచుకోవచ్చు మరియు బహుభాషా వినియోగదారుల కోసం, ప్రతి మాట్లాడే భాషలో స్థిరమైన స్వరాన్ని నిర్వహించవచ్చు.

లోడ్ అవుతోంది...

అకస్మాత్తుగా లేదా క్రమంగా క్షీణించే మాటల సమస్యలతో బాధపడేవారికి, రోగులు తమ స్వరాన్ని తిరిగి పొందేందుకు సహాయం చేయడం. Lifespan⁠(కొత్త విండోలో తెరుచుకుంటుంది)లోని నార్మన్ ప్రిన్స్ న్యూరోసైన్సెస్ ఇన్‌స్టిట్యూట్, బ్రౌన్ యూనివర్శిటీ మెడికల్ స్కూల్‌కు ప్రధాన బోధనా అనుబంధంగా పనిచేసే లాభాపేక్షలేని హెల్త్ సిస్టమ్, క్లినికల్ సందర్భాల్లో AI వినియోగాలను అన్వేషిస్తోంది. వారు మాటల లోపానికి కారణమయ్యే ఆంకాలజికల్ లేదా న్యూరాలజికల్ కారణాలున్న వ్యక్తులకు వాయిస్ ఇంజిన్‌ను అందించే ఒక ప్రోగ్రామ్‌ను పైలట్‌గా అమలు చేస్తున్నారు. వాయిస్ ఇంజిన్‌కు ఇంత చిన్న ఆడియో నమూనా మాత్రమే అవసరం కావడంతో, పాఠశాల ప్రాజెక్ట్ కోసం రికార్డ్ చేసిన వీడియోలోని ఆడియోను ఉపయోగించి, రక్తనాళాల మెదడు ట్యూమర్ కారణంగా తన ప్రవాహమైన మాటను కోల్పోయిన ఒక యువ రోగి స్వరాన్ని డాక్టర్లు ఫాతిమా మిర్జా, రోహైద్ అలీ, కొనస్టాంటినా స్లోవోక్‌లు పునరుద్ధరించగలిగారు.

లోడ్ అవుతోంది...

వాయిస్ ఇంజిన్‌ను సురక్షితంగా నిర్మించడం

ప్రజల వాయిస్‌లను పోలి ఉండే స్పీచ్‌ను ఉత్పత్తి చేయడంలో తీవ్రమైన ప్రమాదాలు ఉన్నాయని మేము గుర్తిస్తున్నాము, ఇవి ఎన్నికల సంవత్సరంలో ప్రత్యేకంగా అత్యంత ప్రాధాన్యంగా పరిగణించాల్సినవి. మేము నిర్మిస్తున్నప్పుడు వారి ఫీడ్‌బ్యాక్‌ను చేర్చుకుంటున్నామని నిర్ధారించుకోవడానికి, ప్రభుత్వ, మీడియా, వినోదం, విద్య, పౌర సమాజం మరియు మరిన్ని రంగాల నుంచి U.S. మరియు అంతర్జాతీయ భాగస్వాములతో మేము భాగస్వామ్యం అవుతున్నాము. ఈ రోజు Voice Engine‌ను పరీక్షిస్తున్న భాగస్వాములు మా వినియోగ విధానాలు⁠కు అంగీకరించారు, ఇవి సమ్మతి లేదా చట్టబద్ధ హక్కు లేకుండా మరొక వ్యక్తి లేదా సంస్థగా నటించడాన్ని నిషేధిస్తాయి. అదనంగా, ఈ భాగస్వాములతో మా నిబంధనలు అసలు మాట్లాడిన వ్యక్తి నుండి స్పష్టమైన మరియు సమాచారంతో కూడిన సమ్మతిని కోరుతాయి, అలాగే వ్యక్తిగత వినియోగదారులు తమ స్వంత వాయిస్‌లను సృష్టించుకునే మార్గాలను డెవలపర్లు నిర్మించడానికి మేము అనుమతించము. పార్ట్నర్లు తమ ప్రేక్షకులకు వారు వింటున్న వాయిస్‌లు AI-సృష్టించినవని కూడా స్పష్టంగా వెల్లడించాలి. చివరగా, Voice Engine ద్వారా రూపొందించబడే ఏదైనా ఆడియో యొక్క మూలాన్ని ట్రేస్ చేయడానికి వాటర్‌మార్కింగ్‌ను కూడా కలుపుకుని, అలాగే అది ఎలా ఉపయోగించబడుతోందో ముందస్తుగా పర్యవేక్షించడం వంటి భద్రతా చర్యల సమితిని మేం అమలు చేశాం. సింథటిక్ వాయిస్ సాంకేతికతను విస్తృతంగా అమలు చేసే ఏ సందర్భంలోనైనా, అసలు వక్త తమ వాయిస్‌ను సేవకు తెలిసి జోడిస్తున్నారని ధృవీకరించే వాయిస్ ఆథెంటికేషన్ అనుభవాలు, అలాగే ప్రముఖ వ్యక్తులకు అత్యంత సమానంగా ఉన్న వాయిస్‌ల సృష్టిని గుర్తించి నిరోధించే నో-గో వాయిస్ జాబితా తోడుగా ఉండాలని మేం విశ్వసిస్తున్నాం.

భవిష్యత్తుకి దృష్టి

వాయిస్ ఇంజిన్ అనేది సాంకేతిక రంగంలోని ముందంజలను అర్థం చేసుకోవడం మరియు AIతో సాధ్యమవుతున్న వాటిని బహిరంగంగా పంచుకోవడం పట్ల మా నిబద్ధతకు కొనసాగింపును సూచిస్తుంది. మా AI భద్రతకు సంబంధించిన దృక్పథం⁠ మరియు మా స్వచ్ఛంద నిబద్ధతల⁠కు అనుగుణంగా, ప్రస్తుతం ఈ టెక్నాలజీని ప్రివ్యూ చేయాలని కానీ విస్తృతంగా విడుదల చేయరాదని మేం నిర్ణయించుకున్నాం. Voice Engine ఈ ప్రివ్యూ దాని సామర్థ్యాన్ని హైలైట్ చేయడమే కాకుండా, మరింత నమ్మదగిన జనరేటివ్ మోడల్స్ తీసుకువచ్చే సవాళ్లకు ఎదురుగా సమాజ స్థైర్యాన్ని బలోపేతం చేయాల్సిన అవసరాన్ని కూడా ప్రేరేపిస్తుందని మేము ఆశిస్తున్నాం. ప్రత్యేకంగా, మేం ఇలాంటి దశలను ప్రోత్సహిస్తున్నాం:

బ్యాంక్ ఖాతాలు మరియు ఇతర సున్నితమైన సమాచారాన్ని యాక్సెస్ చేయడానికి భద్రతా చర్యగా వాయిస్ ఆధారిత ప్రామాణీకరణను దశలవారీగా నిలిపివేయడం
AIలో వ్యక్తుల వాయిస్‌ల వినియోగాన్ని రక్షించడానికి విధానాలు పరిశీలించడం
మోసపూరిత AI కంటెంట్ అవకాశం సహా, AI టెక్నాలజీల సామర్థ్యాలు మరియు పరిమితులను అర్థం చేసుకోవడంలో ప్రజలకు అవగాహన కల్పించడం
ఆడియోవిజువల్ కంటెంట్ మూలాన్ని ట్రాక్ చేయడానికి సాంకేతికతల అభివృద్ధి మరియు స్వీకరణను వేగవంతం చేయడం, తద్వారా మీరు నిజమైన వ్యక్తితో లేదా AIతో సంభాషిస్తున్నప్పుడు అది ఎప్పుడూ స్పష్టంగా ఉంటుంది

మేం చివరికి దీన్ని స్వయంగా విస్తృతంగా అమలు చేస్తామా లేదా అన్నది పక్కనపెడితే, ఈ టెక్నాలజీ ఏ దిశగా వెళుతోందని ప్రపంచవ్యాప్తంగా ఉన్న ప్రజలు అర్థం చేసుకోవడం ముఖ్యం. సింథటిక్ వాయిస్‌ల సవాళ్లు మరియు అవకాశాలపై విధాననిర్ణేతలు, పరిశోధకులు, డెవలపర్లు మరియు సృజనకర్తలతో చర్చలు కొనసాగించడానికి మేం ఎదురుచూస్తున్నాం.

సంబంధిత వ్యాసాలు

అన్నీ చూడండి

Video generation models as world simulators

ప్రచురణ15 ఫిబ్రవరి, 2024

Building an early warning system for LLM-aided biological threat creation

ప్రచురణ31 జనవరి, 2024

Weak-to-strong generalization

భద్రత14 డిసెంబర్, 2023