সিন্থেটিক কণ্ঠস্বরের চ্যালেঞ্জ এবং সুযোগগুলি নেভিগেট করা
আমরা কাস্টম কণ্ঠস্বর তৈরি করার জন্য একটি মডেল, Voice Engine-এর ছোট পরিসরের প্রিভিউ থেকে শেখা বিষয়গুলো শেয়ার করছি.
OpenAI নিরাপদ এবং উপকারী AI তৈরি করতে প্রতিশ্রুতিবদ্ধ. আজ আমরা Voice Engine নামে একটি মডেলের ছোট-পরিসরের প্রিভিউ থেকে প্রাথমিক অন্তর্দৃষ্টি এবং ফলাফল শেয়ার করছি, যা টেক্সট ইনপুট এবং একটি একক 15-সেকেন্ড অডিও নমুনা ব্যবহার করে প্রাকৃতিক-শোনায় এমন বক্তৃতা তৈরি করে যা মূল বক্তার সঙ্গে ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ. এটি উল্লেখযোগ্য যে একটি একক 15-সেকেন্ডের নমুনা সহ একটি ছোট মডেল আবেগপূর্ণ এবং বাস্তবসম্মত ভয়েস তৈরি করতে পারে.
আমরা প্রথমে 2022 সালের শেষের দিকে Voice Engine তৈরি করি এবং এটি ব্যবহার করে টেক্সট-টু-স্পিচ API(একটি নতুন উইন্ডোতে খোলে) -এ উপলব্ধ প্রিসেট ভয়েসগুলো, পাশাপাশি ChatGPT ভয়েস এবং Read Aloud চালিত করেছি. একই সময়ে, সিন্থেটিক কণ্ঠস্বরের অপব্যবহারের সম্ভাবনার কারণে আমরা আরও বিস্তৃত প্রকাশের ক্ষেত্রে সতর্ক ও তথ্যভিত্তিক পদ্ধতি গ্রহণ করছি. আমরা কৃত্রিম ভয়েসের দায়িত্বশীল মোতায়েন নিয়ে একটি সংলাপ শুরু করতে চাই এবং সমাজ কিভাবে এই নতুন সক্ষমতাগুলোর সাথে খাপ খাইয়ে নিতে পারে সে বিষয়ে আলোচনা করতে চাই. এই কথোপকথনগুলো এবং এই ছোট পরিসরের পরীক্ষাগুলোর ফলাফলের ভিত্তিতে, আমরা এই প্রযুক্তিটি ব্যাপকভাবে স্থাপন করা হবে কি না এবং কিভাবে স্থাপন করা হবে সে বিষয়ে আরও তথ্যভিত্তিক সিদ্ধান্ত নেব.
এই প্রযুক্তির সম্ভাব্য ব্যবহারগুলো আরও ভালোভাবে বুঝতে, গত বছরের শেষের দিকে আমরা বিশ্বস্ত অংশীদারদের একটি ছোট গ্রুপের সঙ্গে এটি ব্যক্তিগতভাবে পরীক্ষা করা শুরু করি. এই গ্রুপটি যে অ্যাপ্লিকেশনগুলো ডেভেলপ করেছে, তাতে আমরা মুগ্ধ হয়েছি. এই ছোট পরিসরের স্থাপনগুলো বিভিন্ন শিল্পখাত জুড়ে Voice Engine কিভাবে ভালো কাজে ব্যবহার করা যেতে পারে সে বিষয়ে আমাদের দৃষ্টিভঙ্গি, সুরক্ষাব্যবস্থা এবং চিন্তাভাবনা গঠনে সহায়তা করছে. কিছু প্রাথমিক উদাহরণ হলো:
- পড়ার সহায়তা প্রদান যারা পাঠক নন এবং শিশুদের জন্য স্বাভাবিক শোনায় এমন, আবেগপূর্ণ ভয়েসের মাধ্যমে, যা প্রিসেট ভয়েসের মাধ্যমে সম্ভব তার চেয়ে আরও বিস্তৃত পরিসরের বক্তাদের প্রতিনিধিত্ব করে. Age of Learning(একটি নতুন উইন্ডোতে খোলে), শিশুদের একাডেমিক সাফল্যের জন্য নিবেদিত একটি শিক্ষা প্রযুক্তি কোম্পানি, প্রি-স্ক্রিপ্টেড ভয়েস-ওভার কনটেন্ট তৈরি করতে এটি ব্যবহার করে আসছে. তারা শিক্ষার্থীদের সাথে মিথস্ক্রিয়া করতে রিয়েল-টাইম, ব্যক্তিগতকৃত প্রতিক্রিয়া তৈরি করতে Voice Engine এবং GPT‑4‑ও ব্যবহার করে. এই প্রযুক্তির মাধ্যমে, Age of Learning আরও বিস্তৃত শ্রোতাদের জন্য আরও বেশি কনটেন্ট তৈরি করতে সক্ষম হয়েছে.
- কনটেন্ট অনুবাদ করা, যেমন ভিডিও এবং পডকাস্ট, যাতে নির্মাতা এবং ব্যবসাগুলো বিশ্বজুড়ে আরও বেশি মানুষের কাছে পৌঁছাতে পারে, সাবলীলভাবে এবং তাদের নিজস্ব কণ্ঠে. এর একজন প্রাথমিক ব্যবহারকারী হলো HeyGen(একটি নতুন উইন্ডোতে খোলে)—একটি AI ভিজ্যুয়াল স্টোরিটেলিং প্ল্যাটফর্ম, যা তাদের এন্টারপ্রাইজ গ্রাহকদের জন্য পণ্য বিপণন থেকে শুরু করে সেলস ডেমোর মতো বিভিন্ন ধরনের কনটেন্টের প্রয়োজনে মানুষের মতো দেখতে কাস্টম অবতার তৈরিতে সহায়তা করে. তারা ভিডিও অনুবাদের জন্য Voice Engine ব্যবহার করে, তাই তারা একজন বক্তার কণ্ঠস্বরকে একাধিক ভাষায় অনুবাদ করতে পারে এবং বিশ্বব্যাপী শ্রোতাদের কাছে পৌঁছাতে পারে. অনুবাদের জন্য ব্যবহার করা হলে, Voice Engine মূল বক্তার নেটিভ উচ্চারণ সংরক্ষণ করে: উদাহরণস্বরূপ, একজন ফরাসি বক্তার অডিও স্যাম্পল থেকে ইংরেজি তৈরি করলে ফরাসি উচ্চারণসহ বক্তৃতা তৈরি হবে.
- বিশ্বব্যাপী কমিউনিটিতে পৌঁছানো, দূরবর্তী পরিবেশে প্রয়োজনীয় সেবা প্রদান উন্নত করার মাধ্যমে. Dimagi(একটি নতুন উইন্ডোতে খোলে) কমিউনিটি হেলথ কর্মীদের জন্য বিভিন্ন ধরনের অপরিহার্য সেবা প্রদান করতে সহায়ক টুলস তৈরি করছে, যেমন স্তন্যদানকারী মায়েদের জন্য কাউন্সেলিং. এই কর্মীদের দক্ষতা উন্নয়নে সহায়তা করতে, Dimagi Voice Engine এবং GPT‑4 ব্যবহার করে প্রতিটি কর্মীর প্রাথমিক ভাষায়—Swahili বা Kenya-তে জনপ্রিয় কোড-মিশ্রিত ভাষা Sheng-এর মতো আরও অনানুষ্ঠানিক ভাষাসহ—ইন্টারঅ্যাকটিভ ফিডব্যাক প্রদান করে.
- যারা কথা বলতে পারেন না এমন মানুষদের সহায়তা করা, যেমন বক্তৃতাকে প্রভাবিত করে এমন অবস্থাসম্পন্ন ব্যক্তিদের জন্য থেরাপিউটিক অ্যাপ্লিকেশন এবং শেখার প্রয়োজন রয়েছে এমনদের জন্য শিক্ষামূলক উন্নয়ন. Livox(একটি নতুন উইন্ডোতে খোলে), একটি AI বিকল্প যোগাযোগ অ্যাপ, Augmentative & Alternative Communication (AAC) ডিভাইসগুলোকে শক্তি জোগায়, যা প্রতিবন্ধী ব্যক্তিদের যোগাযোগ করতে সক্ষম করে. Voice Engine ব্যবহার করে, তারা বহু ভাষা জুড়ে যারা কথা বলতে পারেন না এমন মানুষদের জন্য অনন্য এবং নন-রোবোটিক ভয়েস অফার করতে সক্ষম. তাদের ব্যবহারকারীরা এমন স্পিচ বেছে নিতে পারেন যা তাদের সবচেয়ে ভালোভাবে প্রতিনিধিত্ব করে এবং বহুভাষিক ব্যবহারকারীদের জন্য, প্রতিটি কথ্য ভাষা জুড়ে একটি ধারাবাহিক ভয়েস বজায় রাখতে পারেন.
- রোগীদের তাদের ভয়েস পুনরুদ্ধারে সহায়তা করা, যারা আকস্মিক বা অবক্ষয়জনিত বক্তৃতা সমস্যায় ভুগছেন. Lifespan(একটি নতুন উইন্ডোতে খোলে)-এ অবস্থিত নরম্যান প্রিন্স নিউরোসায়েন্সেস ইনস্টিটিউট, একটি অলাভজনক হেলথ সিস্টেম যা ব্রাউন ইউনিভার্সিটির মেডিকেল স্কুলের প্রধান শিক্ষাদান সহযোগী হিসেবে কাজ করে, ক্লিনিক্যাল প্রেক্ষাপটে AI-এর ব্যবহার অনুসন্ধান করছে. তারা বক্তৃতা প্রতিবন্ধকতার জন্য অনকোলজিক বা নিউরোলজিক কারণযুক্ত ব্যক্তিদেরকে Voice Engine অফার করে এমন একটি প্রোগ্রাম পাইলটিং করছে. Voice Engine-এর জন্য যেহেতু এত অল্প সময়ের অডিও নমুনা লাগে, তাই স্কুল প্রকল্পের জন্য রেকর্ড করা একটি ভিডিও থেকে নেওয়া অডিও ব্যবহার করে ডাক্তার Fatima Mirza, Rohaid Ali এবং Konstantina Svokos একটি তরুণ রোগীর ভয়েস পুনরুদ্ধার করতে সক্ষম হন, যিনি রক্তনালিজনিত মস্তিষ্কের টিউমারের কারণে তার সাবলীল বক্তৃতা হারিয়েছিলেন.
আমরা স্বীকার করি যে মানুষের কণ্ঠস্বরের মতো শোনায় এমন বক্তৃতা তৈরি করার ক্ষেত্রে গুরুতর ঝুঁকি রয়েছে, যা বিশেষ করে নির্বাচনী বছরে আমাদের কাছে অত্যন্ত গুরুত্বপূর্ণ বিষয়. আমরা সরকার, মিডিয়া, বিনোদন, শিক্ষা, সিভিল সোসাইটি এবং আরও অনেক ক্ষেত্র জুড়ে U.S. এবং আন্তর্জাতিক অংশীদারদের সাথে সম্পৃক্ত হচ্ছি, যাতে আমরা তৈরি করার সময় তাদের প্রতিক্রিয়া অন্তর্ভুক্ত করছি তা নিশ্চিত করতে পারি. আজ Voice Engine পরীক্ষা করা অংশীদাররা আমাদের ব্যবহারিক নীতি-তে সম্মত হয়েছেন, যা সম্মতি বা আইনি অধিকার ছাড়া অন্য কোনো ব্যক্তি বা প্রতিষ্ঠানের ছদ্মবেশ ধারণ নিষিদ্ধ করে. এছাড়াও, এই অংশীদারদের সাথে আমাদের শর্তাবলিতে মূল বক্তার স্পষ্ট এবং অবগত সম্মতি প্রয়োজন এবং আমরা ডেভেলপারদের এমন উপায় তৈরি করতে দিই না যাতে পৃথক ব্যবহারকারীরা তাদের নিজস্ব ভয়েস তৈরি করতে পারে. অংশীদারদের অবশ্যই তাদের শ্রোতাদের স্পষ্টভাবে জানাতে হবে যে, তারা যে কণ্ঠস্বরগুলো শুনছেন তা AI দ্বারা তৈরি. অবশেষে, আমরা একটি সেট নিরাপত্তা ব্যবস্থা বাস্তবায়ন করেছি, যার মধ্যে রয়েছে Voice Engine দ্বারা তৈরি যেকোনো অডিও-এর উৎস ট্রেস করার জন্য ওয়াটারমার্কিং, পাশাপাশি এটি কিভাবে ব্যবহার করা হচ্ছে তার প্রোঅ্যাকটিভ মনিটরিং. আমরা বিশ্বাস করি যে সিন্থেটিক ভয়েস প্রযুক্তির যেকোনো ব্যাপক মোতায়েনের সঙ্গে এমন ভয়েস অথেনটিকেশন অভিজ্ঞতা থাকা উচিত, যা যাচাই করে যে মূল বক্তা সচেতনভাবে তাদের ভয়েসটি সেবাটিতে যোগ করছেন এবং এমন একটি নো-গো ভয়েস তালিকা থাকা উচিত, যা বিশিষ্ট ব্যক্তিদের সঙ্গে অতিরিক্ত সাদৃশ্যপূর্ণ ভয়েস তৈরি হওয়া শনাক্ত করে এবং প্রতিরোধ করে.
Voice Engine হলো প্রযুক্তিগত অত্যাধুনিক বোঝার এবং AI-এর মাধ্যমে কী কী সম্ভব হয়ে উঠছে তা উন্মুক্তভাবে শেয়ার করার প্রতি আমাদের প্রতিশ্রুতির ধারাবাহিকতা. আমাদের AI নিরাপত্তার পদ্ধতির এবং আমাদের স্বেচ্ছা প্রতিশ্রুতির সাথে সামঞ্জস্য রেখে, আমরা এই মুহূর্তে এই প্রযুক্তিটি প্রিভিউ করার সিদ্ধান্ত নিচ্ছি, কিন্তু ব্যাপকভাবে রিলিজ করছি না. আমরা আশা করি Voice Engine-এর এই প্রিভিউটি এর সম্ভাবনাকে যেমন তুলে ধরে, তেমনি আরও বেশি বিশ্বাসযোগ্য হয়ে ওঠা জেনারেটিভ মডেলগুলো যে চ্যালেঞ্জ নিয়ে আসে, তার বিরুদ্ধে সামাজিক স্থিতিস্থাপকতা জোরদার করার প্রয়োজনীয়তাও অনুপ্রাণিত করে. বিশেষভাবে, আমরা যেমন পদক্ষেপ নিতে উৎসাহিত করি:
- ব্যাংক অ্যাকাউন্ট এবং অন্যান্য সংবেদনশীল তথ্য অ্যাক্সেসের জন্য নিরাপত্তা ব্যবস্থা হিসেবে ভয়েস-ভিত্তিক প্রমাণীকরণ ধাপে ধাপে বন্ধ করা হচ্ছে.
- AI-এ ব্যক্তিগত ভয়েস ব্যবহারের সুরক্ষার জন্য নীতিমালা অনুসন্ধান করা
- AI প্রযুক্তির সক্ষমতা এবং সীমাবদ্ধতা বোঝার জন্য জনসাধারণকে শিক্ষিত করা, যার মধ্যে প্রতারণামূলক AI বিষয়বস্তুর সম্ভাবনাও অন্তর্ভুক্ত
- অডিওভিজ্যুয়াল কনটেন্টের উৎস ট্র্যাক করার কৌশলগুলির উন্নয়ন ও গ্রহণকে দ্রুততর করা, যাতে আপনি যখনই কোনো বাস্তব ব্যক্তির সাথে বা কোনো AI-এর সাথে ইন্টারঅ্যাক্ট করছেন, তা সবসময় স্পষ্ট থাকে
এটা গুরুত্বপূর্ণ যে বিশ্বের বিভিন্ন প্রান্তের মানুষ বুঝতে পারে এই প্রযুক্তি কোন দিকে এগোচ্ছে, আমরা শেষ পর্যন্ত এটি নিজেরা ব্যাপকভাবে ব্যবহার করি বা না করি. আমরা নীতিনির্ধারক, গবেষক, ডেভেলপার এবং সৃজনশীল ব্যক্তিদের সঙ্গে সিন্থেটিক কণ্ঠস্বরের চ্যালেঞ্জ ও সুযোগ নিয়ে কথোপকথনে অংশগ্রহণ চালিয়ে যাওয়ার জন্য উন্মুখ.


