ChatGPT اکنون میتواند ببیند، بشنود و صحبت کند

ما در حال شروع عرضهی قابلیتهای جدید دستیار صوتی و تصویری در ChatGPT هستیم. این قابلیتها نوعی رابط کاربری جدید و شهودیتر ارائه میدهند که به شما امکان میدهند مکالمهای صوتی داشته باشید یا به ChatGPT نشان دهید دربارهی چه چیزی صحبت میکنید.
دستیار صوتی و تصویر راههای بیشتری برای استفاده از ChatGPT در زندگی شما فراهم میکنند. در سفر، از یک مکان دیدنی عکس بگیرید و مکالمهای زنده دربارهی نکات جالب آن داشته باشید. در خانه، از یخچال و انباری خود عکس بگیرید تا بفهمید شام چه چیزی درست کنید (و با پرسیدن سؤالات بعدی، دستور پخت مرحلهبهمرحله دریافت کنید). بعد از شام، با گرفتن عکس از یک مسئله ریاضی، مشخص کردن مجموعه مسائل، و دریافت راهنمایی، به فرزندتان در حل آن کمک کنید.
ما در حال عرضهی دستیارهای صوتی و تصویری در ChatGPT برای کاربران Plus و Enterprise طی دو هفتهی آینده هستیم. دستیار صوتی در iOS و Android ارائه میشود (با فعالسازی دستی در تنظیمات)، و تصاویر در تمام پلتفرمها در دسترس خواهند بود.
اکنون میتوانید با استفاده از دستیار صوتی، وارد مکالمهای دوطرفه با دستیار خود شوید. در حال حرکت با آن صحبت کنید، یک داستان شب برای خانوادهتان درخواست کنید، یا یک بحث سر میز شام را حلوفصل کنید.
از دستیار صوتی برای برقراری یک مکالمه دوطرفه با دستیار خود استفاده کنید.
برای شروع استفاده از دستیار صوتی، به تنظیمات → قابلیتهای جدید در اپلیکیشن موبایل بروید و گزینهی مکالمات صوتی را فعال کنید. سپس، دکمهی هدفون را که در گوشهی بالا سمت راست صفحهی اصلی قرار دارد بزنید و یکی از پنج دستیار صوتی موجود را به دلخواه انتخاب کنید.
قابلیت جدید دستیار صوتی با استفاده از یک مدل تبدیل متن به گفتار جدید قدرت میگیرد که میتواند تنها با متن و چند ثانیه نمونهی صدا، صدایی مشابه انسان تولید کند. ما برای ساخت هر یک از دستیارهای صوتی با گویندگان حرفهای همکاری کردهایم. همچنین از Whisper، سیستم تشخیص گفتار متنباز خود، برای تبدیل گفتار شما به متن استفاده میکنیم.
اکنون میتوانید یک یا چند تصویر به ChatGPT نشان دهید. مشکل روشن نشدن گریل خود را بررسی کنید، محتوای یخچالتان را برای برنامهریزی یک وعده غذایی بررسی کنید، یا یک نمودار پیچیده مربوط به دادههای کاری را تحلیل کنید. برای تمرکز روی بخش خاصی از تصویر، میتوانید از ابزار طراحی در اپلیکیشن موبایل ما استفاده کنید.
یک یا چند تصویر به ChatGPT نشان دهید.
برای شروع، دکمهی انتخاب عکس را بزنید تا تصویری ثبت یا انتخاب کنید. اگر از iOS یا Android استفاده میکنید، ابتدا دکمهی بعلاوه را بزنید. همچنین میتوانید چند تصویر انتخاب کنید یا از ابزار طراحی ما برای راهنمایی دستیار خود استفاده کنید.
درک تصویر با استفاده از مدلهای چندحالته GPT‑3.5 و GPT‑4 قدرت میگیرد. این مدلها مهارتهای استدلال زبانی خود را بر روی انواع گستردهای از تصاویر، مانند عکسها، اسکرینشاتها و اسنادی که شامل متن و تصویر هستند، اعمال میکنند.
هدف OpenAI ساخت AGI ایمن و سودمند است. ما به ارائه تدریجی ابزارهایمان باور داریم، که به ما اجازه میدهد به مرور زمان بهبودهایی اعمال کنیم و راهکارهای کاهش ریسک را اصلاح نماییم، و در عین حال همه را برای سیستمهای قدرتمندتر در آینده آماده کنیم. این استراتژی در مواجهه با مدلهای پیشرفتهتری که شامل دستیار صوتی و قابلیت دیداری هستند، اهمیت بیشتری پیدا میکند.
فناوری جدید دستیار صوتی—که قادر است تنها با چند ثانیه صدای واقعی، صداهای مصنوعی واقعگرایانه تولید کند—دربهای بسیاری را به سوی کاربردهای خلاقانه و مبتنی بر دسترسیپذیری میگشاید. با این حال، این قابلیتها همچنین خطرات جدیدی را به همراه دارند، مانند احتمال سوءاستفاده افراد مخرب برای جعل هویت چهرههای عمومی یا ارتکاب کلاهبرداری.
به همین دلیل، ما از این فناوری برای پشتیبانی از یک کاربرد خاص استفاده میکنیم— دستیار صوتی گفتوگو. دستیار صوتی گفتوگو با همکاری گویندگانی ایجاد شده است که مستقیماً با آنها کار کردهایم. ما همچنین به شیوهای مشابه با دیگران همکاری میکنیم. برای مثال، اسپاتیفای از قدرت این فناوری برای اجرای آزمایشی قابلیت ترجمه صوتی(در یک پنجره جدید باز میشود) استفاده میکند؛ قابلیتی که به پادکسترها کمک میکند دامنهی داستانگویی خود را با ترجمهی پادکستها به زبانهای دیگر، آن هم با صدای خودِ پادکستر، گسترش دهند.
مدلهای مبتنی بر قابلیت دیداری همچنین چالشهای جدیدی را به همراه دارند، از توهمات مربوط به افراد گرفته تا تکیه بر تفسیر مدل از تصاویر در حوزههای حساس و پرخطر. پیش از استقرار گستردهتر، ما مدل را با همکاری رد تیمها برای ارزیابی ریسک در حوزههایی مانند افراطگرایی و توانایی علمی، و همچنین مجموعهای متنوع از تستکنندگان آلفا آزمایش کردیم. تحقیقات ما این امکان را فراهم کرد تا بر چند جزئیات کلیدی برای استفادهی مسئولانه توافق کنیم.
مانند سایر ویژگیهای ChatGPT، قابلیت دیداری نیز برای کمک به شما در زندگی روزمره طراحی شده است. این قابلیت زمانی بهترین عملکرد را دارد که بتواند آنچه را شما میبینید، ببیند.
این رویکرد مستقیماً از طریق همکاری ما با Be My Eyes، یک اپلیکیشن موبایلی رایگان برای افراد نابینا و کمبینا، برای درک کاربردها و محدودیتها شکل گرفته است. کاربران به ما گفتهاند که داشتن مکالمههای عمومی دربارهی تصاویری که بهطور تصادفی افراد را در پسزمینه نشان میدهند، برایشان ارزشمند است، مثلاً وقتی کسی در تلویزیون ظاهر میشود در حالیکه شما در حال تنظیم کنترل از راه دور خود هستید.
ما همچنین اقدامات فنیای انجام دادهایم تا توانایی ChatGPT در تحلیل و ارائهی اظهارات مستقیم دربارهی افراد را بهطور قابلتوجهی محدود کنیم، چرا که ChatGPT همیشه دقیق نیست و این سیستمها باید به حریم خصوصی افراد احترام بگذارند.
استفاده در دنیای واقعی و بازخورد به ما کمک میکند تا این محافظتها را حتی بهبود دهیم و در عین حال ابزار را مفید نگه داریم.
ممکن است کاربران برای موضوعات تخصصی، مثلاً در زمینههایی مانند تحقیقات، به ChatGPT متکی باشند. ما دربارهی محدودیتهای مدل شفاف هستیم و استفاده در موارد پرریسک را بدون تأیید مناسب توصیه نمیکنیم. علاوه بر این، این مدل در تبدیل گفتار به متن انگلیسی مهارت دارد، اما در برخی زبانهای دیگر، بهویژه زبانهایی با خط غیر رومی، عملکرد ضعیفی دارد. ما به کاربران غیرانگلیسیزبان توصیه میکنیم که از ChatGPT برای این منظور استفاده نکنند.
شما میتوانید اطلاعات بیشتری دربارهی رویکرد ما نسبت به ایمنی و همکاریمان با Be My Eyes را در کارت سیستم برای ورودی تصویر بخوانید.
کاربران Plus و Enterprise در دو هفته آینده تجربه دستیار صوتی و تصاویر را خواهند داشت. ما هیجانزدهایم که به زودی این قابلیتها را برای گروههای دیگر کاربران، از جمله توسعهدهندگان، ارائه کنیم.
نویسنده
تقدیر و تشکر
تحقیق اصلی حالت دستیار صوتی
Alec Radford، Tao Xu، Jong Wook Kim
تحقیق اصلی استقرار دیداری
Raul Puri، Jamie Kiros، Hyeonwoo Noh، Long Ouyang، Sandhini Agarwal


