25 سبتمبر 2023

يستطيع ChatGPT الآن أن يرى ويسمع ويتحدث

بدأنا في إطلاق قدرات جديدة للصوت والصورة في ChatGPT. إنها توفر نوعًا جديدًا وأكثر سهولة من الواجهة، مما يسمح لك بإجراء محادثة صوتية أو عرض ما تتحدث عنه لـ ChatGPT.

الصوت والصورة يقدمان لك طرقًا جديدة لاستخدام ChatGPT في حياتك. التقط صورة لأحد المعالم في أثناء السفر وأجرِ محادثة مباشرة حول ما يثير اهتمامك فيها. عندما تكون في المنزل، التقط صورًا لثلاجتك وخزائن الطعام لتقرر ما ستطبخه على العشاء، واطرح أسئلة متابعة للحصول على وصفة خطوة بخطوة. وبعد العشاء، ساعد طفلك في حل مسألة رياضيات بالتقاط صورة لها، وتحديد المسألة، ثم اطلب من ChatGPT تقديم تلميحات لكما معًا.

نحن بصدد إطلاق ميزات الصوت والصور في ChatGPT لمستخدمي Plus و Enterprise خلال الأسبوعين المقبلين. الصوت متاح على نظامي iOS و Android (يمكنك الاشتراك من الإعدادات) والصور ستكون متاحة على جميع المنصات.

تحدث مع ChatGPT ودعه يرد عليك

يمكنك الآن استخدام الصوت للمشاركة في محادثة متبادلة مع مساعدك. تحدث معه في أثناء التنقل، أو اطلب قصة قبل النوم لعائلتك، أو احسم نقاش مائدة العشاء.

استخدم الصوت للمشاركة في محادثة متبادلة مع مساعدك.

للبدء باستخدام الصوت، انتقل إلى الإعدادات ← الميزات الجديدة في تطبيق الهاتف المحمول واختر الدخول في المحادثات الصوتية. بعد ذلك، اضغط على زر السماعات الموجود في الزاوية العلوية اليمنى من الشاشة الرئيسية واختر صوتك المفضل من بين خمسة أصوات مختلفة.

القدرة الجديدة مدعومة من نموذج تحويل نص إلى كلام قادر على إنتاج صوت بشري واقعي من نصوص وحتى من بضع ثوانٍ من عينة صوتية. وقد تعاونّا مع ممثلي أصوات محترفين لإنشاء كل صوت. كما نستخدم Whisper، نظام التعرف على الكلام مفتوح المصدر، لتحويل كلماتك المنطوقة إلى نص.

جاري التحميل...

الدردشة عن الصور

يمكنك الآن عرض صورة واحدة أو أكثر على ChatGPT. حل مشكلة عدم عمل الشواية، استكشاف محتويات ثلاجتك لتخطيط وجبة، أو تحليل رسم بياني معقد لبيانات متعلقة بالعمل. للتركيز على جزء محدد من الصورة، يمكنك استخدام أداة الرسم في تطبيق الهاتف.

اعرض على ChatGPT صورة أو أكثر.

للبدء، اضغط على زر الكاميرا لالتقاط صورة أو اختيار صورة. على نظامَي iOS و Android، اضغط أولًا على زر الإضافة. يمكنك أيضًا مناقشة عدة صور أو استخدام أداة الرسم لتوجيه مساعدك.

ميزة فهم الصور مدعومة من نماذج GPT‑3.5 و GPT‑4 متعددة الوسائط، إذ تطبق هذه النماذج مهاراتها في معالجة اللغة على مجموعة واسعة من الصور، بما في ذلك الصور الفوتوغرافية، لقطات الشاشة، والمستندات التي تحتوي على نصوص وصور معًا.

نطرح قدرات الصور والصوت تدريجيًا

هدف OpenAI هو بناء ذكاء عام اصطناعي (AGI) يكون آمنًا ونافعًا. فنحن نؤمن بإتاحة أدواتنا بشكل تدريجي، ما يتيح لنا تحسينها وصقل آليات الحد من المخاطر بمرور الوقت، وفي الوقت نفسه إعداد الجميع للتعامل مع أنظمة أكثر قوة في المستقبل. وتزداد أهمية هذه الاستراتيجية مع النماذج المتقدمة التي تتضمن الصوت والرؤية.

الصوت

تفتح تقنية الصوت الجديدة - القادرة على إنشاء أصوات اصطناعية واقعية انطلاقًا من بضع ثوانٍ فقط من الكلام الحقيقي - آفاقًا واسعة لتطبيقات إبداعية وتطبيقات داعمة لإمكانية الوصول. غير أن هذه القدرات تطرح أيضًا مخاطر جديدة، مثل احتمالية انتحال الشخصيات العامة أو ارتكاب عمليات احتيال من قِبل جهات خبيثة.

ولهذا السبب نستخدم هذه التقنية حاليًا في حالة استخدام محددة، وهي الدردشة الصوتية. وقد تم تطوير الدردشة الصوتية بالتعاون مع ممثلي أصوات عملنا معهم مباشرةً. كما نتعاون بطريقة مماثلة مع جهات أخرى، فعلى سبيل المثال، تستخدم Spotify قوة هذه التقنية في النسخة التجريبية من ميزة ترجمة الصوت⁠(يفتح في نافذة جديدة) الخاصة بها، التي تساعد صانعي البودكاست على توسيع نطاق وصول محتواهم من خلال ترجمة الحلقات إلى لغات إضافية بأصواتهم نفسها.

إدخال الصور

تطرح النماذج القائمة على الرؤية تحديات جديدة أيضًا، تتراوح بين توليد معلومات خطأ عن الأشخاص والاعتماد على تفسير النموذج للصور في مجالات عالية الحساسية. وقبل الإطلاق على نطاق أوسع، اختبرنا النموذج بالتعاون مع فِرق اختبار تحدي المخاطر في مجالات مثل التطرف والكفاءة العلمية، إلى جانب مجموعة متنوعة من المختبرين الأوائل. وقد مكنتنا أبحاثنا من الاتفاق على عدد من المبادئ الأساسية للاستخدام المسؤول.

جعل الرؤية مفيدة وآمنة في آنٍ واحد

مثل غيرها من ميزات ChatGPT، تهدف ميزة الرؤية إلى مساعدتك في حياتك اليومية، وتحقق هذه الغاية بفاعلية عندما تتمكن من رؤية ما تراه أنت.

وقد استند هذا النهج مباشرةً إلى عملنا مع تطبيق Be My Eyes، وهو تطبيق مجاني للهواتف المحمولة مخصص للمكفوفين وضعاف البصر، لفهم الاستخدامات والحدود. وقد أخبرنا المستخدمون أنهم يجدون فائدة في إجراء محادثات عامة حول صور قد يظهر فيها أشخاص في الخلفية، مثل ظهور شخص على شاشة التلفاز في أثناء محاولتك ضبط إعدادات جهاز التحكم عن بُعد.

لقد اتخذنا أيضًا تدابير تقنية للحد بشكل كبير من قدرة ChatGPT على تحليل الأشخاص أو الإدلاء بتصريحات مباشرة عنهم، إذ إن ChatGPT ليس دقيقًا دائمًا، وينبغي لهذه الأنظمة أن تحترم خصوصية الأفراد.

وسيساعدنا الاستخدام الواقعي والملاحظات على تحسين هذه الضمانات بشكل أكبر، مع الحفاظ على فائدة الأداة.

الشفافية بشأن حدود النموذج

قد يعتمد المستخدمون على ChatGPT في موضوعات متخصصة، مثل مجالات البحث على سبيل المثال. نحن نوضح بجلاء حدود قدرات النموذج ونحذّر من استخدامه في الحالات عالية المخاطر دون التحقق المناسب. إضافةً إلى ذلك، يتقن النموذج نسخ النصوص الإنجليزية، لكنه يقدّم أداءً ضعيفًا مع بعض اللغات الأخرى، خاصة تلك التي تستخدم أنظمة كتابة غير لاتينية؛ لذلك ننصح مستخدمينا غير الناطقين بالإنجليزية بعدم الاعتماد على ChatGPT لهذا الغرض.

يمكنك قراءة المزيد عن نهجنا في السلامة وعملنا مع تطبيق Be My Eyes في بطاقة النظام لإدخال الصور⁠.

سنوسّع نطاق التوفّر

سيتمكن مستخدمو Plus و Enterprise من تجربة الصوت والصور خلال الأسبوعين القادمين. إننا متحمسون لطرح هذه القدرات لمجموعات أخرى من المستخدمين، بما في ذلك المطورون، بعد فترة وجيزة.

المؤلف

OpenAI

الشكر والتقدير

البحث الأساسي لوضع الصوت

أليك رادفورد، وتاو شو، وجونغ ووك كيم

البحث الأساسي لنشر الرؤية

راؤول بوري، وجيمي كيروس، وهيونوو نوه، ولونغ أويانغ، وساندهيني أغاروال

عرض الأعمال التقنية لنموذج GPT-4V(ision) والمؤلفين⁠