సింథటిక్ వాయిస్ల సవాళ్లు మరియు అవకాశాలను ఎదుర్కోవడం
కస్టమ్ వాయిస్లను సృష్టించడానికి ఉపయోగించే మోడల్ అయిన వాయిస్ ఇంజిన్ చిన్న స్థాయి ప్రివ్యూ నుంచి నేర్చుకున్న పాఠాలను మేం పంచుకుంటున్నాం.
OpenAI సురక్షితమైన మరియు విస్తృతంగా ప్రయోజనకరమైన AIని అభివృద్ధి చేయడానికి కట్టుబడి ఉంది. ఈరోజు మేం వాయిస్ ఇంజిన్ అనే మోడల్ చిన్న-స్థాయి ప్రివ్యూ నుండి ప్రాథమిక అంతర్దృష్టులు మరియు ఫలితాలను పంచుకుంటున్నాం, ఇది టెక్ట్స్ ఇన్పుట్ మరియు ఒకే 15-సెకండ్ల ఆడియో నమూనాను ఉపయోగించి అసలు స్పీకర్ను దగ్గరగా ఉండే సహజంగా వినిపించే స్పీచ్ను ఉత్పత్తి చేస్తుంది. ఒకే 15-సెకన్ల నమూనాతో ఉన్న చిన్న మోడల్ భావోద్వేగపూరితమైన మరియు వాస్తవికమైన వాయిస్లను సృష్టించగలదని గమనించదగిన విషయం.
మేం 2022 చివర్లో ముందుగా వాయిస్ ఇంజిన్ను అభివృద్ధి చేశాం, టెక్ట్స్-టు-స్పీచ్ API(కొత్త విండోలో తెరుచుకుంటుంది)లో అందుబాటులో ఉన్న ప్రీసెట్ వాయిస్లకు, అలాగే ChatGPT వాయిస్ మరియు రీడ్ అలౌడ్కు శక్తినివ్వడానికి దాన్ని ఉపయోగించాం. అదే సమయంలో, సింథటిక్ వాయిస్ దుర్వినియోగం సంభవించే అవకాశం ఉండటం, మరింత విస్తృత విడుదల విషయంలో మేం జాగ్రత్తగా మరియు సమాచారంతో కూడిన విధానాన్ని అనుసరిస్తున్నాం. సింథటిక్ వాయిస్లను బాధ్యతాయుతంగా అమలు చేయడం గురించి, అలాగే ఈ కొత్త సామర్థ్యాలకు సమాజం ఎలా అనుగుణంగా మారగలదో అనే విషయాలపై సంభాషణను ప్రారంభించాలని మేము ఆశిస్తున్నాము. ఈ సంభాషణలు మరియు ఈ చిన్న స్థాయి పరీక్షల ఫలితాల ఆధారంగా, ఈ సాంకేతికతను స్కేల్లో అమలు చేయాలా, ఎలా అమలు చేయాలా అనే విషయంలో మేము మరింత సమాచారంతో కూడిన నిర్ణయం తీసుకుంటాము.
ఈ టెక్నాలజీకి ఉండే సంభావ్య వినియోగాలను మెరుగుగా అర్థం చేసుకోవడానికి, గత సంవత్సరం చివర్లో మేము విశ్వసనీయ భాగస్వాముల చిన్న గ్రూప్తో దీన్ని ప్రైవేట్గా టెస్ట్ చేయడం ప్రారంభించాం. ఈ గ్రూప్ అభివృద్ధి చేసిన అప్లికేషన్లు మమ్మల్ని ఆకట్టుకున్నాయి. ఈ చిన్న స్థాయి డిప్లాయ్మెంట్లు మా అప్రమోచ్, సేఫ్గార్డ్లు, మరియు వివిధ పరిశ్రమల అంతటా Voice Engineను మంచి కోసం ఎలా ఉపయోగించవచ్చో గురించి మా ఆలోచనలను రూపొందించడంలో సహాయపడుతున్నాయి. కొన్ని ప్రారంభ ఉదాహరణలు ఇవి:
- చదవడంలో సహాయం అందించడం చదవలేని వారికి మరియు పిల్లలకు, ప్రీసెట్ వాయిస్లతో సాధ్యమయ్యే దానికంటే విస్తృత శ్రేణి మాట్లాడేవారిని ప్రాతినిధ్యం వహించే సహజంగా వినిపించే, భావోద్వేగభరిత వాయిస్ల ద్వారా. ఏజ్ ఆఫ్ లెర్నింగ్(కొత్త విండోలో తెరుచుకుంటుంది), పిల్లల అకడమిక్ విజయానికి అంకితమైన ఒక ఎడ్యుకేషన్ టెక్నాలజీ కంపెనీ, ముందుగా స్క్రిప్ట్ చేసిన వాయిస్-ఓవర్ కంటెంట్ను రూపొందించడానికి దీనిని ఉపయోగిస్తోంది. వారు విద్యార్థులతో పరస్పర చర్య కోసం రియల్-టైమ్, వ్యక్తిగతీకరించిన ప్రతిస్పందనలను సృష్టించడానికి వాయిస్ ఇంజిన్ మరియు GPT‑4 ను కూడా ఉపయోగిస్తారు. ఈ టెక్నాలజీతో, ఏజ్ ఆఫ్ లెర్నింగ్ విస్తృత ప్రేక్షకుల కోసం మరింత కంటెంట్ను సృష్టించగలిగింది.
- కంటెంట్ను అనువదించడం, వీడియోలు మరియు పాడ్కాస్ట్లు వంటి వాటిని, తద్వారా క్రియేటర్లు మరియు వ్యాపారాలు ప్రపంచవ్యాప్తంగా మరింత మందిని సులభంగా, తమ స్వంత స్వరాల్లో చేరుకోవచ్చు. దీనిని తొలిదశలో స్వీకరించిన వారిలో ఒకటి HeyGen(కొత్త విండోలో తెరుచుకుంటుంది), ఇది AI విజువల్ స్టోరీటెల్లింగ్ ప్లాట్ఫారం; ఇది తమ ఎంటర్ప్రైజ్ కస్టమర్లతో కలిసి ఉత్పత్తి మార్కెటింగ్ నుంచి సేల్స్ డెమోలు వరకు వివిధ కంటెంట్ కోసం కస్టమ్, మనుషుల్లా కనిపించే అవతార్లను సృష్టిస్తుంది. వారు వీడియో అనువాదం కోసం వాయిస్ ఇంజిన్ను ఉపయోగిస్తారు, కాబట్టి వారు ఒక స్పీకర్ వాయిస్ను అనేక భాషల్లోకి అనువదించి ప్రపంచవ్యాప్త ప్రేక్షకులను చేరుకోగలరు. అనువాదం కోసం ఉపయోగించినప్పుడు, వాయిస్ ఇంజిన్ అసలు స్పీకర్ యొక్క స్థానిక యాసను సంరక్షిస్తుంది: ఉదాహరణకు ఫ్రెంచ్ స్పీకర్ నుండి ఆడియో నమూనాతో ఇంగ్లిష్ను ఉత్పత్తి చేయడం ఫ్రెంచ్ యాసతో ప్రసంగాన్ని ఉత్పత్తి చేస్తుంది.
- ప్రపంచవ్యాప్త సముదాయాలను చేరుకోవడం, దూర ప్రాంతాల్లో అవసరమైన సేవల అందించడాన్ని మెరుగుపరచడం ద్వారా. Dimagi(కొత్త విండోలో తెరుచుకుంటుంది) పాలిచ్చే తల్లులకు కౌన్సెలింగ్ వంటి వివిధ రకాల అవసరమైన సేవలను అందించడానికి కమ్యూనిటీ హెల్త్ వర్కర్ల కోసం సాధనాలను నిర్మిస్తోంది. ఈ కార్మికులు వారి నైపుణ్యాలను అభివృద్ధి చేయడంలో సహాయపడటానికి, స్వాహిలీ లేదా కెన్యాలో ప్రాచుర్యం పొందిన కోడ్-మిశ్రమ భాష అయిన షెంగ్ వంటి అనధికారిక భాషలతో సహా ప్రతి కార్మికుడి ప్రాథమిక భాషలో ఇంటరాక్టివ్ ఫీడ్ బ్యాక్ ఇవ్వడానికి Dimagi వాయిస్ ఇంజిన్ మరియు GPT‑4 ను ఉపయోగిస్తుంది.
- మాట్లాడలేని వ్యక్తులకు మద్దతు ఇవ్వడం, ఉదాహరణకు మాటలపై ప్రభావం చూపే పరిస్థితులు ఉన్న వ్యక్తుల కోసం థెరప్యూటిక్ అప్లికేషన్లు మరియు నేర్చుకునే అవసరాలు ఉన్నవారికి విద్యా మెరుగుదలలు. Livox(కొత్త విండోలో తెరుచుకుంటుంది), ఒక AI ప్రత్యామ్నాయ కమ్యూనికేషన్ యాప్, వికలాంగులు కమ్యూనికేట్ చేయడానికి వీలు కల్పించే ఆగ్మెంటివ్ & ఆల్టర్నేటివ్ కమ్యూనికేషన్ (AAC) పరికరాలకు శక్తినిస్తుంది. వాయిస్ ఇంజిన్ను ఉపయోగించడం ద్వారా, వారు మాట్లాడలేని వ్యక్తులకు అనేక భాషలలో ప్రత్యేకమైన మరియు రోబోటిక్గా లేని వాయిస్లను అందించగలుగుతున్నారు. వారి వినియోగదారులు తమకు ఉత్తమంగా ప్రాతినిధ్యం వహించే ప్రసంగాన్ని ఎంచుకోవచ్చు మరియు బహుభాషా వినియోగదారుల కోసం, ప్రతి మాట్లాడే భాషలో స్థిరమైన స్వరాన్ని నిర్వహించవచ్చు.
- అకస్మాత్తుగా లేదా క్రమంగా క్షీణించే మాటల సమస్యలతో బాధపడేవారికి, రోగులు తమ స్వరాన్ని తిరిగి పొందేందుకు సహాయం చేయడం. Lifespan(కొత్త విండోలో తెరుచుకుంటుంది)లోని నార్మన్ ప్రిన్స్ న్యూరోసైన్సెస్ ఇన్స్టిట్యూట్, బ్రౌన్ యూనివర్శిటీ మెడికల్ స్కూల్కు ప్రధాన బోధనా అనుబంధంగా పనిచేసే లాభాపేక్షలేని హెల్త్ సిస్టమ్, క్లినికల్ సందర్భాల్లో AI వినియోగాలను అన్వేషిస్తోంది. వారు మాటల లోపానికి కారణమయ్యే ఆంకాలజికల్ లేదా న్యూరాలజికల్ కారణాలున్న వ్యక్తులకు వాయిస్ ఇంజిన్ను అందించే ఒక ప్రోగ్రామ్ను పైలట్గా అమలు చేస్తున్నారు. వాయిస్ ఇంజిన్కు ఇంత చిన్న ఆడియో నమూనా మాత్రమే అవసరం కావడంతో, పాఠశాల ప్రాజెక్ట్ కోసం రికార్డ్ చేసిన వీడియోలోని ఆడియోను ఉపయోగించి, రక్తనాళాల మెదడు ట్యూమర్ కారణంగా తన ప్రవాహమైన మాటను కోల్పోయిన ఒక యువ రోగి స్వరాన్ని డాక్టర్లు ఫాతిమా మిర్జా, రోహైద్ అలీ, కొనస్టాంటినా స్లోవోక్లు పునరుద్ధరించగలిగారు.
ప్రజల వాయిస్లను పోలి ఉండే స్పీచ్ను ఉత్పత్తి చేయడంలో తీవ్రమైన ప్రమాదాలు ఉన్నాయని మేము గుర్తిస్తున్నాము, ఇవి ఎన్నికల సంవత్సరంలో ప్రత్యేకంగా అత్యంత ప్రాధాన్యంగా పరిగణించాల్సినవి. మేము నిర్మిస్తున్నప్పుడు వారి ఫీడ్బ్యాక్ను చేర్చుకుంటున్నామని నిర్ధారించుకోవడానికి, ప్రభుత్వ, మీడియా, వినోదం, విద్య, పౌర సమాజం మరియు మరిన్ని రంగాల నుంచి U.S. మరియు అంతర్జాతీయ భాగస్వాములతో మేము భాగస్వామ్యం అవుతున్నాము. ఈ రోజు Voice Engineను పరీక్షిస్తున్న భాగస్వాములు మా వినియోగ విధానాలుకు అంగీకరించారు, ఇవి సమ్మతి లేదా చట్టబద్ధ హక్కు లేకుండా మరొక వ్యక్తి లేదా సంస్థగా నటించడాన్ని నిషేధిస్తాయి. అదనంగా, ఈ భాగస్వాములతో మా నిబంధనలు అసలు మాట్లాడిన వ్యక్తి నుండి స్పష్టమైన మరియు సమాచారంతో కూడిన సమ్మతిని కోరుతాయి, అలాగే వ్యక్తిగత వినియోగదారులు తమ స్వంత వాయిస్లను సృష్టించుకునే మార్గాలను డెవలపర్లు నిర్మించడానికి మేము అనుమతించము. పార్ట్నర్లు తమ ప్రేక్షకులకు వారు వింటున్న వాయిస్లు AI-సృష్టించినవని కూడా స్పష్టంగా వెల్లడించాలి. చివరగా, Voice Engine ద్వారా రూపొందించబడే ఏదైనా ఆడియో యొక్క మూలాన్ని ట్రేస్ చేయడానికి వాటర్మార్కింగ్ను కూడా కలుపుకుని, అలాగే అది ఎలా ఉపయోగించబడుతోందో ముందస్తుగా పర్యవేక్షించడం వంటి భద్రతా చర్యల సమితిని మేం అమలు చేశాం. సింథటిక్ వాయిస్ సాంకేతికతను విస్తృతంగా అమలు చేసే ఏ సందర్భంలోనైనా, అసలు వక్త తమ వాయిస్ను సేవకు తెలిసి జోడిస్తున్నారని ధృవీకరించే వాయిస్ ఆథెంటికేషన్ అనుభవాలు, అలాగే ప్రముఖ వ్యక్తులకు అత్యంత సమానంగా ఉన్న వాయిస్ల సృష్టిని గుర్తించి నిరోధించే నో-గో వాయిస్ జాబితా తోడుగా ఉండాలని మేం విశ్వసిస్తున్నాం.
వాయిస్ ఇంజిన్ అనేది సాంకేతిక రంగంలోని ముందంజలను అర్థం చేసుకోవడం మరియు AIతో సాధ్యమవుతున్న వాటిని బహిరంగంగా పంచుకోవడం పట్ల మా నిబద్ధతకు కొనసాగింపును సూచిస్తుంది. మా AI భద్రతకు సంబంధించిన దృక్పథం మరియు మా స్వచ్ఛంద నిబద్ధతలకు అనుగుణంగా, ప్రస్తుతం ఈ టెక్నాలజీని ప్రివ్యూ చేయాలని కానీ విస్తృతంగా విడుదల చేయరాదని మేం నిర్ణయించుకున్నాం. Voice Engine ఈ ప్రివ్యూ దాని సామర్థ్యాన్ని హైలైట్ చేయడమే కాకుండా, మరింత నమ్మదగిన జనరేటివ్ మోడల్స్ తీసుకువచ్చే సవాళ్లకు ఎదురుగా సమాజ స్థైర్యాన్ని బలోపేతం చేయాల్సిన అవసరాన్ని కూడా ప్రేరేపిస్తుందని మేము ఆశిస్తున్నాం. ప్రత్యేకంగా, మేం ఇలాంటి దశలను ప్రోత్సహిస్తున్నాం:
- బ్యాంక్ ఖాతాలు మరియు ఇతర సున్నితమైన సమాచారాన్ని యాక్సెస్ చేయడానికి భద్రతా చర్యగా వాయిస్ ఆధారిత ప్రామాణీకరణను దశలవారీగా నిలిపివేయడం
- AIలో వ్యక్తుల వాయిస్ల వినియోగాన్ని రక్షించడానికి విధానాలు పరిశీలించడం
- మోసపూరిత AI కంటెంట్ అవకాశం సహా, AI టెక్నాలజీల సామర్థ్యాలు మరియు పరిమితులను అర్థం చేసుకోవడంలో ప్రజలకు అవగాహన కల్పించడం
- ఆడియోవిజువల్ కంటెంట్ మూలాన్ని ట్రాక్ చేయడానికి సాంకేతికతల అభివృద్ధి మరియు స్వీకరణను వేగవంతం చేయడం, తద్వారా మీరు నిజమైన వ్యక్తితో లేదా AIతో సంభాషిస్తున్నప్పుడు అది ఎప్పుడూ స్పష్టంగా ఉంటుంది
మేం చివరికి దీన్ని స్వయంగా విస్తృతంగా అమలు చేస్తామా లేదా అన్నది పక్కనపెడితే, ఈ టెక్నాలజీ ఏ దిశగా వెళుతోందని ప్రపంచవ్యాప్తంగా ఉన్న ప్రజలు అర్థం చేసుకోవడం ముఖ్యం. సింథటిక్ వాయిస్ల సవాళ్లు మరియు అవకాశాలపై విధాననిర్ణేతలు, పరిశోధకులు, డెవలపర్లు మరియు సృజనకర్తలతో చర్చలు కొనసాగించడానికి మేం ఎదురుచూస్తున్నాం.


