پرش به محتوای اصلی
OpenAI

۳ مهر ۱۴۰۲

محصول

ChatGPT اکنون می‌تواند ببیند، بشنود و صحبت کند

ChatGPT اکنون می‌تواند ببیند بشنود و صحبت کند.

ما در حال شروع عرضه‌ی قابلیت‌های جدید دستیار صوتی و تصویری در ChatGPT هستیم. این قابلیت‌ها نوعی رابط کاربری جدید و شهودی‌تر ارائه می‌دهند که به شما امکان می‌دهند مکالمه‌ای صوتی داشته باشید یا به ChatGPT نشان دهید درباره‌ی چه چیزی صحبت می‌کنید.

دستیار صوتی و تصویر راه‌های بیشتری برای استفاده از ChatGPT در زندگی شما فراهم می‌کنند. در سفر، از یک مکان دیدنی عکس بگیرید و مکالمه‌ای زنده درباره‌ی نکات جالب آن داشته باشید. در خانه، از یخچال و انباری خود عکس بگیرید تا بفهمید شام چه چیزی درست کنید (و با پرسیدن سؤالات بعدی، دستور پخت مرحله‌به‌مرحله دریافت کنید). بعد از شام، با گرفتن عکس از یک مسئله ریاضی، مشخص کردن مجموعه مسائل، و دریافت راهنمایی، به فرزندتان در حل آن کمک کنید.

ما در حال عرضه‌ی دستیار‌های صوتی و تصویری در ChatGPT برای کاربران Plus و Enterprise طی دو هفته‌ی آینده هستیم. دستیار صوتی در iOS و Android ارائه می‌شود (با فعال‌سازی دستی در تنظیمات)، و تصاویر در تمام پلتفرم‌ها در دسترس خواهند بود.

با ChatGPT صحبت کنید و پاسخ صوتی دریافت کنید

اکنون می‌توانید با استفاده از دستیار صوتی، وارد مکالمه‌ای دوطرفه با دستیار خود شوید. در حال حرکت با آن صحبت کنید، یک داستان شب برای خانواده‌تان درخواست کنید، یا یک بحث سر میز شام را حل‌وفصل کنید.

از دستیار صوتی برای برقراری یک مکالمه دوطرفه با دستیار خود استفاده کنید.

برای شروع استفاده از دستیار صوتی، به تنظیمات → قابلیت‌های جدید در اپلیکیشن موبایل بروید و گزینه‌ی مکالمات صوتی را فعال کنید. سپس، دکمه‌ی هدفون را که در گوشه‌ی بالا سمت راست صفحه‌ی اصلی قرار دارد بزنید و یکی از پنج دستیار صوتی موجود را به دلخواه انتخاب کنید.

قابلیت جدید دستیار صوتی با استفاده از یک مدل تبدیل متن به گفتار جدید قدرت می‌گیرد که می‌تواند تنها با متن و چند ثانیه نمونه‌ی صدا، صدایی مشابه انسان تولید کند. ما برای ساخت هر یک از دستیارهای صوتی با گویندگان حرفه‌ای همکاری کرده‌ایم. همچنین از Whisper، سیستم تشخیص گفتار متن‌باز خود، برای تبدیل گفتار شما به متن استفاده می‌کنیم.

در حال بارگذاری...

گفت‌وگو درباره‌ی تصاویر

اکنون می‌توانید یک یا چند تصویر به ChatGPT نشان دهید. مشکل روشن نشدن گریل خود را بررسی کنید، محتوای یخچال‌تان را برای برنامه‌ریزی یک وعده غذایی بررسی کنید، یا یک نمودار پیچیده مربوط به داده‌های کاری را تحلیل کنید. برای تمرکز روی بخش خاصی از تصویر، می‌توانید از ابزار طراحی در اپلیکیشن موبایل ما استفاده کنید.

یک یا چند تصویر به ChatGPT نشان دهید.

برای شروع، دکمه‌ی انتخاب عکس را بزنید تا تصویری ثبت یا انتخاب کنید. اگر از iOS یا Android استفاده می‌کنید، ابتدا دکمه‌ی بعلاوه را بزنید. همچنین می‌توانید چند تصویر انتخاب کنید یا از ابزار طراحی ما برای راهنمایی دستیار خود استفاده کنید.

درک تصویر با استفاده از مدل‌های چندحالته GPT‑3.5 و GPT‑4 قدرت می‌گیرد. این مدل‌ها مهارت‌های استدلال زبانی خود را بر روی انواع گسترده‌ای از تصاویر، مانند عکس‌ها، اسکرین‌شات‌ها و اسنادی که شامل متن و تصویر هستند، اعمال می‌کنند.

ما در حال استقرار تدریجی قابلیت‌های تصویری و دستیار صوتی هستیم

هدف OpenAI ساخت AGI ایمن و سودمند است. ما به ارائه تدریجی ابزارهایمان باور داریم، که به ما اجازه می‌دهد به مرور زمان بهبودهایی اعمال کنیم و راهکارهای کاهش ریسک را اصلاح نماییم، و در عین حال همه را برای سیستم‌های قدرتمندتر در آینده آماده کنیم. این استراتژی در مواجهه با مدل‌های پیشرفته‌تری که شامل دستیار صوتی و قابلیت دیداری هستند، اهمیت بیشتری پیدا می‌کند.

دستیار صوتی

فناوری جدید دستیار صوتی—که قادر است تنها با چند ثانیه صدای واقعی، صداهای مصنوعی واقع‌گرایانه تولید کند—درب‌های بسیاری را به سوی کاربردهای خلاقانه و مبتنی بر دسترسی‌پذیری می‌گشاید. با این حال، این قابلیت‌ها همچنین خطرات جدیدی را به همراه دارند، مانند احتمال سوءاستفاده افراد مخرب برای جعل هویت چهره‌های عمومی یا ارتکاب کلاهبرداری.

به همین دلیل، ما از این فناوری برای پشتیبانی از یک کاربرد خاص استفاده می‌کنیم— دستیار صوتی گفت‌وگو. دستیار صوتی گفت‌وگو با همکاری گویندگانی ایجاد شده است که مستقیماً با آن‌ها کار کرده‌ایم. ما همچنین به شیوه‌ای مشابه با دیگران همکاری می‌کنیم. برای مثال، اسپاتیفای از قدرت این فناوری برای اجرای آزمایشی قابلیت ترجمه صوتی(در یک پنجره جدید باز می‌شود) استفاده می‌کند؛ قابلیتی که به پادکسترها کمک می‌کند دامنه‌ی داستان‌گویی خود را با ترجمه‌ی پادکست‌ها به زبان‌های دیگر، آن هم با صدای خودِ پادکستر، گسترش دهند.

ورودی تصویری

مدل‌های مبتنی بر قابلیت دیداری همچنین چالش‌های جدیدی را به همراه دارند، از توهمات مربوط به افراد گرفته تا تکیه بر تفسیر مدل از تصاویر در حوزه‌های حساس و پرخطر. پیش از استقرار گسترده‌تر، ما مدل را با همکاری رد تیم‌ها برای ارزیابی ریسک در حوزه‌هایی مانند افراط‌گرایی و توانایی علمی، و همچنین مجموعه‌ای متنوع از تست‌کنندگان آلفا آزمایش کردیم. تحقیقات ما این امکان را فراهم کرد تا بر چند جزئیات کلیدی برای استفاده‌ی مسئولانه توافق کنیم.

مفید و ایمن ساختن قابلیت دیداری

مانند سایر ویژگی‌های ChatGPT، قابلیت دیداری نیز برای کمک به شما در زندگی روزمره طراحی شده است. این قابلیت زمانی بهترین عملکرد را دارد که بتواند آنچه را شما می‌بینید، ببیند. 

این رویکرد مستقیماً از طریق همکاری ما با Be My Eyes، یک اپلیکیشن موبایلی رایگان برای افراد نابینا و کم‌بینا، برای درک کاربردها و محدودیت‌ها شکل گرفته است. کاربران به ما گفته‌اند که داشتن مکالمه‌های عمومی درباره‌ی تصاویری که به‌طور تصادفی افراد را در پس‌زمینه نشان می‌دهند، برایشان ارزشمند است، مثلاً وقتی کسی در تلویزیون ظاهر می‌شود در حالی‌که شما در حال تنظیم کنترل از راه دور خود هستید.

ما همچنین اقدامات فنی‌ای انجام داده‌ایم تا توانایی ChatGPT در تحلیل و ارائه‌ی اظهارات مستقیم درباره‌ی افراد را به‌طور قابل‌توجهی محدود کنیم، چرا که ChatGPT همیشه دقیق نیست و این سیستم‌ها باید به حریم خصوصی افراد احترام بگذارند.

استفاده در دنیای واقعی و بازخورد به ما کمک می‌کند تا این محافظت‌ها را حتی بهبود دهیم و در عین حال ابزار را مفید نگه داریم.

شفافیت درباره محدودیت‌های مدل

ممکن است کاربران برای موضوعات تخصصی، مثلاً در زمینه‌هایی مانند تحقیقات، به ChatGPT متکی باشند. ما درباره‌ی محدودیت‌های مدل شفاف هستیم و استفاده در موارد پرریسک را بدون تأیید مناسب توصیه نمی‌کنیم. علاوه بر این، این مدل در تبدیل گفتار به متن انگلیسی مهارت دارد، اما در برخی زبان‌های دیگر، به‌ویژه زبان‌هایی با خط غیر رومی، عملکرد ضعیفی دارد. ما به کاربران غیرانگلیسی‌زبان توصیه می‌کنیم که از ChatGPT برای این منظور استفاده نکنند.

شما می‌توانید اطلاعات بیشتری درباره‌ی رویکرد ما نسبت به ایمنی و همکاری‌مان با Be My Eyes را در کارت سیستم برای ورودی تصویر بخوانید.

ما دسترسی را گسترش خواهیم داد

کاربران Plus و Enterprise در دو هفته آینده تجربه دستیار صوتی و تصاویر را خواهند داشت. ما هیجان‌زده‌ایم که به زودی این قابلیت‌ها را برای گروه‌های دیگر کاربران، از جمله توسعه‌دهندگان، ارائه کنیم.

نویسنده

OpenAI

تقدیر و تشکر

تحقیق اصلی حالت دستیار صوتی

Alec Radford، Tao Xu، Jong Wook Kim

تحقیق اصلی استقرار دیداری

Raul Puri، Jamie Kiros، Hyeonwoo Noh، Long Ouyang، Sandhini Agarwal

مشاهده‌ی کار فنی و نویسندگان GPT-4V(ision)