۲۶ تیر ۱۴۰۴

معرفی عامل ChatGPT: پل زدن بین تحقیق و اقدام

ChatGPT اکنون فکر می‌کند و عمل می‌کند و به‌طور فعال از جعبه‌ابزار مهارت‌های عامل خود انتخاب می‌کند تا وظایف را با استفاده از کامپیوترش برایتان انجام دهد.

ChatGPT را امتحان کنید

در حال بارگذاری…

ChatGPT اکنون می‌تواند با استفاده از کامپیوتر کارها را برایتان انجام دهد و وظایف پیچیده را از ابتدا تا انتها مدیریت کند.

حالا می توانید از ChatGPT بخواهید درخواست‌هایی مثل «به تقویم من را نگاه کن و بر اساس اخبار اخیر جلسات مشتری را به من بگو»، «برنامه‌ریزی و خرید مواد لازم برای تهیه صبحانه ژاپنی برای چهار نفر» و «سه رقیب رو تحلیل کن و یک ارائه اسلایدی بساز» را انجام بدهید. ChatGPT به‌طور هوشمندانه وب‌سایت‌ها را مرور می‌کند، نتایج را فیلتر می‌کند، ازت می‌خواهد در صورت نیاز به‌طور ایمن وارد شوی، کد را اجرا می‌کند، تحلیل انجام می‌دهد و حتی نمایش‌های اسلاید و صفحات گسترده قابل ویرایش ارائه می‌دهد که یافته‌هایش را خلاصه می‌کند.

در مرکز این قابلیت جدید، یک سیستم عامل یکپارچه قرار دارد. این سیستم سه نقطه قوت از پیشرفت‌های قبلی را گرد هم آورده است: توانایی اپراتور⁠ در تعامل با وب‌سایت‌ها، مهارت تحقیقات عمیق⁠ در ترکیب اطلاعات، و هوش و تسلط مکالمه‌ای ChatGPT.

ChatGPT این وظایف را با استفاده از کامپیوتر مجازی خود انجام می‌دهد و به‌طور روان بین استدلال و عمل جابه‌جا می‌شود تا جریان‌های کاری پیچیده را از ابتدا تا انتها مدیریت کند، همه بر اساس دستورالعمل‌های شما.

از همه مهم‌تر، شما همیشه کنترل اوضاع را در دست دارید. ChatGPT قبل از انجام اقدامات مهم اجازه می‌گیرد و می‌توانید به راحتی در هر لحظه مرورگر را متوقف کنید، کنترل آن را به دست بگیرید یا کارها را متوقف کنید.

از امروز، کاربران Pro، Plus و Team می‌توانند قابلیت‌های جدید عامل ChatGPT را مستقیماً از طریق فهرست کشویی ابزارها در آهنگساز با انتخاب «حالت عامل» در هر نقطه از هر مکالمه فعال کنند.

در حالی که عامل ChatGPT در حال حاضر یک ابزار قدرتمند برای رسیدگی به وظایف پیچیده است، راه‌اندازی امروز تنها آغاز راه است. ما به طور مداوم بهبودهای قابل توجهی اضافه می‌کنیم و آن را در طول زمان برای افراد بیشتری توانمندتر و مفیدتر می‌کنیم.

یک تکامل طبیعی از اپراتور و تحقیقات عمیق

قبلاً اپراتور و تحقیقات عمیق هر کدام نقاط قوت منحصر به فردی داشتند: اپراتور می‌توانست در وب پیمایش کند، کلیک کند و تایپ کند، در حالی که تحقیقات عمیق در تجزیه و تحلیل و خلاصه‌سازی اطلاعات برتری داشت. اما آنها در موقعیت‌های مختلف بهترین عملکرد را داشتند: اپراتور نمی‌توانست عمیقاً به تحلیل بپردازد یا گزارش‌های دقیق بنویسد، و تحقیقات عمیق نمی‌توانست با وب‌سایت‌ها برای اصلاح نتایج یا دسترسی به محتوایی که نیاز به احراز هویت کاربر دارد، تعامل داشته باشد. در واقع، ما متوجه شدیم که بسیاری از جستجوهایی که کاربران با Operator انجام می‌دادند، در واقع برای تحقیقات عمیق مناسب‌تر بودند، بنابراین بهترین‌های هر دو را با هم ترکیب کردیم.

با ادغام این نقاط قوت مکمل در ChatGPT و معرفی ابزارهای اضافی، قابلیت‌های کاملاً جدیدی را در یک مدل باز کرده‌ایم. اکنون می‌تواند به طور فعال با وب‌سایت‌ها تعامل داشته باشد - کلیک کند، فیلتر کند و نتایج دقیق‌تر و کارآمدتری جمع‌آوری کند. همچنین می‌تونی به طور طبیعی از یک مکالمه ساده به درخواست اقدامات مستقیماً در همان گفتگو بروی.

یک عامل که برای شما و با شما کار می‌کند

ما عامل ChatGPT را به مجموعه‌ای از ابزارها مجهز کرده‌ایم: یک مرورگر بصری که از طریق رابط کاربری گرافیکی با وب تعامل می‌کند، یک مرورگر مبتنی بر متن برای جستارهای وب ساده‌تر مبتنی بر استدلال، یک ترمینال و دسترسی مستقیم به API. عامل همچنین می‌تواند از کانکتورهای ChatGPT⁠(در یک پنجره جدید باز می‌شود) استفاده کند، که به تو امکان می‌دهد برنامه‌هایی مانند Gmail و Github را متصل کنی تا ChatGPT بتواند اطلاعات مرتبط با درخواست‌هایت را پیدا کرده و از آنها در پاسخ‌های خود استفاده کند. همچنین می‌تونی با تصاحب مرورگر در هر وب‌سایتی وارد بشی و بهش اجازه بدی در تحقیق و اجرای وظایفش عمیق‌تر و گسترده‌تر بشه. دادن این مسیرهای مختلف به ChatGPT برای دسترسی و تعامل با اطلاعات وب به این معناست که می‌تواند بهترین مسیر را برای انجام کارها به کارآمدترین شکل انتخاب کند. به عنوان مثال، می‌تواند اطلاعات مربوط به تقویم شما را از طریق یک API جمع‌آوری کند، به طور مؤثر بر روی مقادیر زیادی از متن با استفاده از مرورگر مبتنی بر متن استدلال کند، و در عین حال توانایی تعامل بصری با وب‌سایت‌هایی که عمدتاً برای انسان‌ها طراحی شده‌اند را داشته باشد.

همه این کارها با استفاده از کامپیوتر مجازی خودش انجام می‌شود که زمینه لازم برای وظیفه را حفظ می‌کند، حتی زمانی که از چندین ابزار استفاده می‌شود. مدل می‌تواند انتخاب کند که یک صفحه را با استفاده از مرورگر متنی یا مرورگر بصری باز کند، یک فایل را از وب دانلود کند، آن را با اجرای یک فرمان در ترمینال دستکاری کند و سپس خروجی را دوباره در مرورگر بصری مشاهده کند. این مدل رویکردش را برای انجام وظایف با سرعت، دقت و کارایی تطبیق می‌دهد.

عامل ChatGPT برای گردش‌های کاری تکراری و مشارکتی طراحی شده است و بسیار تعاملی‌تر و انعطاف‌پذیرتر از مدل‌های قبلی است. همانطور که ChatGPT کار می‌کند، می‌توانی در هر لحظه متوقف کنی تا دستورالعمل‌هایت را روشن کنی، آن را به سمت نتایج دلخواه هدایت کنی یا کار را به‌طور کامل تغییر دهی. اکنون با اطلاعات جدید، اما بدون از دست دادن پیشرفت قبلی، از جایی که متوقف شده بود، ادامه خواهد یافت. به همین ترتیب، ChatGPT ممکن است در صورت نیاز به‌طور فعال از تو جزئیات بیشتری بخواهد تا اطمینان حاصل شود که کار با اهداف تو هماهنگ است. اگر کاری بیشتر از حد انتظار طول بکشد یا احساس کنید گیر کرده‌اید، می‌توانید آن را متوقف کنید، خلاصه‌ای از پیشرفت آن را بخواهید، یا آن را به طور کامل متوقف کنید و نتایج جزئی دریافت کنید. اگر برنامه ChatGPT را روی گوشی‌ات داشته باشی، وقتی کارش با وظیفه‌ات تمام شد، برایت اعلانی می‌فرستد.

گسترش کاربردهای دنیای واقعی

این قابلیت‌های عامل یکپارچه به طور قابل‌توجهی سودمندی ChatGPT را در زمینه‌های روزمره و حرفه‌ای افزایش می‌دهند. در محل کار، می‌تونی کارهای تکراری رو خودکار کنی، مثل تبدیل اسکرین‌شات‌ها یا داشبوردها به ارائه‌هایی که از عناصر برداری قابل ویرایش تشکیل شده‌اند، تنظیم مجدد جلسات، برنامه‌ریزی و رزرو سفرهای خارج از محل، و به‌روزرسانی صفحات گسترده با داده‌های مالی جدید در حالی که همان قالب حفظ می‌شود. در زندگی شخصی‌ات، می‌تونی ازش برای برنامه‌ریزی و رزرو برنامه‌های سفر، طراحی و رزرو کل مهمانی‌های شام یا پیدا کردن متخصصان و تنظیم قرار ملاقات‌ها استفاده کنی.

قابلیت‌های ارتقاء یافته مدل در عملکرد پیشرفته (SOTA) آن در ارزیابی‌هایی که مرور وب و توانایی‌های تکمیل وظایف در دنیای واقعی را اندازه‌گیری می‌کنند، منعکس شده است.

در آخرین امتحان بشریت⁠(در یک پنجره جدید باز می‌شود)*، ارزیابی که عملکرد هوش مصنوعی را در طیف گسترده‌ای از موضوعات در سؤالات سطح تخصصی اندازه‌گیری می‌کند، مدلی که عامل ChatGPT را تقویت می‌کند، امتیاز جدید pass@1 SOTA را با 41.6 به دست می‌آورد. چون عامل به صورت پویا برنامه‌ریزی می‌کند و ابزارهای خود را انتخاب می‌کند، می‌تواند همان کار را به روش‌های مختلف در اجراهای مختلف انجام دهد. وقتی این را با یک استراتژی ساده انتشار موازی مقیاس‌بندی کردیم - تا هشت تلاش را همزمان انجام دادیم و آن را که بالاترین اعتماد به نفس گزارش شده را داشت انتخاب کردیم - نمره HLE عامل به 44.4 افزایش یافت.

FrontierMath** سخت‌ترین معیار شناخته‌شده ریاضی است که شامل مسائل جدید و منتشر نشده‌ای است که حل آن‌ها اغلب ساعت‌ها یا حتی روزها طول می‌کشد و نیازمند تخصص ریاضیدانان است. با استفاده از ابزارهایی مانند دسترسی به ترمینال برای اجرای کد، عامل ChatGPT به دقت 27.4% می‌رسد و با اختلاف زیادی از هر دو مدل قبلی بهتر عمل می‌کند.

ما همچنین مدل را با استفاده از معیارهایی که بر اساس وظایف پیچیده دنیای واقعی مدل‌سازی شده‌اند، ارزیابی کردیم. بر اساس یک معیار داخلی که برای ارزیابی عملکرد مدل در وظایف پیچیده و ارزشمند اقتصادی طراحی شده است، خروجی عامل ChatGPT در حدود نیمی از موارد در طیف وسیعی از زمان‌های تکمیل وظایف، قابل مقایسه یا بهتر از انسان است، در حالی که به طور قابل توجهی از o3 و o4-mini بهتر عمل می‌کند. خروجی‌های مدل توسط کارشناسان با خطوط پایه انسانی با کیفیت بالا که توسط برترین‌ها در هر زمینه ایجاد شده‌اند، ارزیابی می‌شوند. این وظایف که از کارشناسان در مشاغل و صنایع مختلف تهیه می‌شوند، منعکس‌کننده کارهای حرفه‌ای واقعی هستند، مانند تهیه تحلیل رقابتی از ارائه‌دهندگان مراقبت فوری به‌صورت درخواستی، ایجاد برنامه‌های استهلاک دقیق و شناسایی چاه‌های آب مناسب برای یک مرکز جدید هیدروژن سبز.

در DSBench⁠(در یک پنجره جدید باز می‌شود)،که برای ارزیابی عوامل در وظایف واقعی علم داده شامل تحلیل و مدل‌سازی داده‌ها طراحی شده است، عامل ChatGPT به طور قابل توجهی از عملکرد انسان پیشی می‌گیرد.

در SpreadsheetBench که مدل‌ها را بر اساس توانایی ویرایش صفحات گسترده مشتق شده از سناریوهای دنیای واقعی ارزیابی می‌کند، عامل ChatGPT با اختلاف قابل توجهی از مدل‌های موجود پیشی می‌گیرد. وقتی امکان ویرایش مستقیم صفحات گسترده فراهم می‌شود، عامل ChatGPT حتی با 45.5% امتیاز بالاتری نسبت به Copilot در Excel با 20.0% کسب می‌کند.

روش‌شناسی: نویسندگان SpreadsheetBench از محیط Windows و Microsoft Excel برای ارزیابی صفحات گسترده استفاده کردند. ما از محیط OSX و LibreOffice استفاده کردیم، که ممکن است منجر به تفاوت‌های کوچک در درجه‌بندی شود. به عنوان مثال، نویسندگان یک محدودیت سخت کلی 15.02% برای GPT‑4o یافتند و ما 13.38% به دست آوردیم. ما از بنچمارک کامل 912 سوالی استفاده کردیم.

در یک معیار داخلی که توانایی مدل را در انجام وظایف مدل‌سازی تحلیلگر بانکداری سرمایه‌گذاریسال اول تا سوم می‌سنجد - مانند تهیه یک مدل مالی سه‌گانه برای یک شرکت Fortune 500 با قالب‌بندی و استناد مناسب، یا ساخت یک مدل خرید اهرمی برای خصوصی‌سازی - مدل عامل ChatGPT به طور قابل توجهی از تحقیقات عمیق و o3 بهتر عمل می‌کند. هر وظیفه بر اساس صدها معیار مرتبط با درستی و استفاده از فرمول ارزیابی می‌شود.

ما همچنین عامل ChatGPT را در BrowseComp⁠ ارزیابی کردیم، معیاری که اوایل امسال منتشر کردیم و توانایی عامل‌های مرورگر را در یافتن اطلاعات سخت‌یاب در وب اندازه‌گیری می‌کند. این مدل یک SOTA جدید با 68.9٪ ثبت کرد که 17.4 درصد بیشتر از تحقیقات عمیق است.

در نهایت، در WebArena⁠(در یک پنجره جدید باز می‌شود)، معیاری که برای ارزیابی عملکرد عامل‌های مرور وب در انجام وظایف واقعی وب طراحی شده است، این مدل نسبت به CUA مبتنی بر o3 (مدلی که اپراتور را قدرت می‌بخشد) بهبود می‌یابد.

چگونه استفاده کنید

شما می‌توانید قابلیت‌های جدید عامل ChatGPT رو مستقیماً از طریق منوی کشویی ابزارها در آهنگساز با انتخاب «حالت عامل» در هر نقطه از هر مکالمه فعال کنید. به سادگی وظیفه‌ای که می‌خواهی انجام دهی را توصیف کن - چه انجام تحقیقات عمیق، ایجاد نمایش اسلاید یا ارسال هزینه‌ها. هنگامی که وظیفه‌ات را انجام می‌دهد، یک روایت روی صفحه نمایش به‌طور دقیق نشان می‌دهد که ChatGPT چه کاری انجام می‌دهد. تو می‌تونی هر وقت که لازم باشه مرورگر رو متوقف کنی و کنترلش رو به دست بگیری و مطمئن بشی که وظایف با اهدافت همسو می‌مونن.

عامل ChatGPT می‌تواند به کانکتورهای شما دسترسی پیدا کند و به آن اجازه می‌دهد با گردش کار شما ادغام شود و به اطلاعات مرتبط و قابل اجرا دسترسی پیدا کند. پس از احراز هویت، این کانکتورها به ChatGPT اجازه می‌دهند اطلاعات را مشاهده کند و کارهایی مانند خلاصه کردن صندوق ورودی شما برای روز یا پیدا کردن زمان‌های خالی برای جلسه انجام دهد. با این حال، برای اقدام در این سایت‌ها، همچنان از شما خواسته می‌شود با استفاده از مرورگر وارد شوید.

علاوه بر این، می‌توانید کارهای تکمیل‌شده را طوری برنامه‌ریزی کنید که به‌طور خودکار تکرار شوند، مثل تولید گزارش معیارهای هفتگی هر دوشنبه صبح.

قابلیت‌های نو، خطرات نو

این نسخه اولین باری است که کاربران می‌توانند از ChatGPT بخواهند که در وب اقداماتی انجام دهد. این خطرات جدیدی را معرفی می‌کند، به‌ویژه به این دلیل که عامل ChatGPT می‌تواند مستقیماً با داده‌های شما کار کند، چه اطلاعاتی که از طریق کانکتورها یا وب‌سایت‌هایی که از طریق حالت تصاحب به آن‌ها وارد شده‌اید. ما کنترل‌های قوی از پیش‌نمایش تحقیق اپراتور را تقویت کرده‌ایم و برای چالش‌هایی مانند مدیریت اطلاعات حساس در وب زنده، دسترسی گسترده‌تر کاربران و دسترسی (محدود) به شبکه ترمینال، محافظت‌هایی اضافه کرده‌ایم. در حالی که این اقدامات کاهش‌دهنده به طور قابل توجهی خطر را کاهش می‌دهند، ابزارهای گسترش‌یافته عامل ChatGPT و دسترسی گسترده‌تر کاربران به این معنی است که نمایه کلی ریسک آن بالاتر است.

ما تاکید خاصی بر محافظت از عامل ChatGPT در برابر دستکاری خصمانه از طریق تزریق درخواست که به طور کلی برای سیستم‌های عامل خطری است، گذاشته‌ایم و بر این اساس اقدامات کاهش گسترده‌تری را آماده کرده‌ایم. تزریق‌های دستوری تلاش‌هایی از سوی اشخاص ثالث برای دستکاری رفتار از طریق دستورالعمل‌های مخرب است که عامل ChatGPT ممکن است هنگام انجام یک کار در وب با آنها مواجه شود. برای مثال، یک فرمان مخرب که در یک صفحه وب پنهان شده است، مانند در عناصر نامرئی یا فراداده، می‌تواند عامل را فریب دهد تا اقدامات ناخواسته‌ای انجام دهد، مانند به اشتراک‌گذاری داده‌های خصوصی از یک کانکتور با مهاجم، یا انجام یک اقدام مضر در سایتی که کاربر وارد آن شده است. چون عامل ChatGPT می‌تواند اقدامات مستقیمی انجام دهد، حملات موفق می‌توانند تأثیر بیشتری داشته و خطرات بیشتری را به همراه داشته باشند.

ما عامل را در شناسایی و مقاومت در برابر تزریق دستورات آموزش داده و آزمایش کرده‌ایم، علاوه بر استفاده از نظارت برای تشخیص سریع و پاسخ به حملات تزریق دستورات. نیاز به تأیید صریح کاربر قبل از اقدامات مهم، خطر آسیب ناشی از این حملات را بیشتر کاهش می‌دهد و کاربران می‌توانند در صورت نیاز با به دست گرفتن یا متوقف کردن وظایف مداخله کنند. کاربران باید هنگام تصمیم‌گیری در مورد اینکه چه اطلاعاتی به عامل ارائه دهند، این موازنه‌ها را ارزیابی کنند و همچنین اقداماتی را برای به حداقل رساندن قرار گرفتن در معرض این خطرات انجام دهند، مانند غیرفعال کردن رابط‌ها زمانی که برای یک کار مورد نیاز نیستند.

ما همچنین اقداماتی برای کاهش اشتباهات مدل انجام داده‌ایم، به‌ویژه از آنجایی که مدل اکنون می‌تواند وظایفی را انجام دهد که بر دنیای واقعی تأثیر می‌گذارد:

تأیید صریح کاربر: ChatGPT آموزش دیده است تا قبل از انجام اقداماتی با عواقب واقعی مانند خرید، صریحاً از شما اجازه بگیرد.
نظارت فعال ("حالت نظارت"): برخی از وظایف مهم، مانند ارسال ایمیل، نیاز به نظارت فعال شما دارند.
کاهش ریسک پیشگیرانه: ChatGPT آموزش دیده تا به طور فعال از انجام وظایف پرخطر مثل انتقالات بانکی خودداری کند.

در نهایت، کنترل‌های اضافی را برای محدود کردن داده‌هایی که مدل به آنها دسترسی دارد، معرفی کرده‌ایم:

کنترل‌های حریم خصوصی: با یک کلیک در تنظیمات ChatGPT، می‌توانید تمام داده‌های مرور را حذف کنید و بلافاصله از تمام جلسات فعال وب‌سایت خارج شوید. در غیر این صورت، کوکی‌ها بر اساس سیاست‌های کوکی هر وب‌سایت بازدید شده باقی می‌مانند، که می‌تواند بازدیدهای مکرر از سایت‌ها را کارآمدتر کند.
حالت امن تصاحب مرورگر: وقتی با استفاده از مرورگر ChatGPT با وب تعامل می‌کنید («حالت تصاحب»)، ورودی‌های شما خصوصی می‌مانند. ChatGPT هیچ داده‌ای که در طول این جلسات وارد می‌کنی، مثل رمزهای عبور، جمع‌آوری یا ذخیره نمی‌کند، چون مدل به آن نیازی ندارد و اگر هرگز آن را نبیند، امن‌تر است.

قوی‌ترین مجموعه ایمنی ما تا به حال برای خطرات بیولوژیکی

با افزایش قابلیت‌های مدل، تصمیم گرفتیم عامل ChatGPT را تحت چارچوب آمادگی⁠ خود به عنوان دارای قابلیت‌های بالای بیولوژیکی و شیمیایی در نظر بگیریم و اقدامات حفاظتی مرتبط را فعال کنیم. در حالی که شواهد قطعی نداریم که مدل می‌تواند به‌طور معناداری به یک تازه‌کار کمک کند تا آسیب بیولوژیکی شدید ایجاد کند—که آستانه ما برای توانایی بالا است—ما اکنون با احتیاط عمل می‌کنیم و اقدامات حفاظتی لازم را اجرا می‌کنیم. در نتیجه، این مدل دارای جامع‌ترین مجموعه ایمنی ما تا به امروز با محافظت‌های پیشرفته برای زیست‌شناسی است: مدل‌سازی جامع تهدید، آموزش امتناع از استفاده دوگانه، طبقه‌بندی‌های همیشه فعال و مانیتورهای استدلال و خطوط اجرای شفاف.

علاوه بر تلاش‌های ما برای ایمن‌سازی عامل ChatGPT، می‌دانیم که ایمنی زیستی لایه‌ای زمانی بهترین عملکرد را دارد که تدابیر حفاظتی فراتر از یک آزمایشگاه باشد، بنابراین ما در سراسر اکوسیستم برای تقویت دفاع‌ها همکاری می‌کنیم. از روز اول با کارشناسان خارجی امنیت زیستی، مؤسسات ایمنی و پژوهشگران دانشگاهی همکاری کرده‌ایم تا مدل تهدید، ارزیابی‌ها و سیاست‌های خود را شکل دهیم. بررسی‌کنندگان آموزش‌دیده در زیست‌شناسی داده‌های ارزیابی ما را تأیید کردند و تیم‌های قرمز متخصص حوزه، محافظت‌ها را در سناریوهای واقع‌گرایانه تحت فشار قرار دادند. اوایل این ماه، ما یک کارگاه دفاع زیستی با کارشناسانی از دولت، دانشگاه‌ها، آزمایشگاه‌های ملی و سازمان‌های غیردولتی برگزار کردیم تا همکاری‌ها را تسریع کرده و تحقیقات دفاع زیستی را با استفاده از هوش مصنوعی پیش ببریم. ما به همکاری جهانی ادامه می‌دهیم تا از خطرات نوظهور جلوتر باشیم.

درباره رویکرد ایمنی قوی ما برای مدل عامل یکپارچه در کارت سیستم⁠ بیشتر بخوانید. ما همچنین در حال راه‌اندازی یک برنامه‌ی باگ بانتی⁠ هستیم تا بتوانیم خطرات دنیای واقعی را پیدا و برطرف کنیم.

در دسترس بودن

عامل ChatGPT از امروز برای Pro، Plus و Team شروع به عرضه می‌شود. Pro تا پایان روز دسترسی پیدا می‌کند، در حالی که کاربران Plus و Team طی چند روز آینده به آن دسترسی پیدا خواهند کرد. کاربران Enterprise و Education در هفته‌های آینده دسترسی پیدا خواهند کرد. کاربران Pro ماهانه 400 پیام دارند، در حالی که سایر کاربران پولی ماهانه 40 پیام دریافت می‌کنند و استفاده اضافی از طریق گزینه‌های انعطاف‌پذیر مبتنی بر اعتبار در دسترس است.

ما هنوز در حال کار بر روی فعال‌سازی دسترسی برای منطقه اقتصادی اروپا و سوئیس هستیم.

سایت پیش‌نمایش تحقیقات اپراتور برای چند هفته دیگر فعال خواهد ماند و سپس تعطیل خواهد شد. تحقیقات عمیق بخشی از قابلیت‌های عامل ChatGPT است. اگر ویژگی اصلی تحقیق عمیق را ترجیح می‌دهید - که ممکن است اجرای آن بیشتر طول بکشد اما به‌طور پیش‌فرض پاسخ‌های دقیق و عمیق‌تری ارائه می‌دهد - هنوز می‌توانید با انتخاب «تحقیق عمیق» از فهرست کشویی در سازنده پیام به آن دسترسی پیدا کنید.

محدودیت‌ها و چشم‌انداز آینده

عامل ChatGPT هنوز در مراحل اولیه است. این عامل می‌تواند طیف وسیعی از وظایف پیچیده را انجام دهد، اما هنوز هم ممکن است اشتباه کند.

در حالی که پتانسیل زیادی در توانایی آن برای ایجاد نمایش اسلاید می‌بینیم، این قابلیت در حال حاضر در نسخه بتا است. در حال حاضر، خروجی‌ها گاهی اوقات ممکن است در قالب‌بندی و پرداخت ابتدایی به نظر برسند، به‌ویژه زمانی که بدون سند موجود شروع می‌کنی. ما قابلیت‌های اولیه مدل را بر تولید مصنوعاتی متمرکز کردیم که اطلاعات را در قالب و جریانی مناسب برای ارائه‌ها سازماندهی می‌کنند، با عناصری مانند متن، نمودارها، تصاویر و اشکال که پس از خروجی گرفتن به صورت بومی و به راحتی قابل ویرایش هستند و از نظر ساختار و انعطاف‌پذیری بهینه‌سازی شده‌اند. در حال حاضر، گاهی اوقات اختلافاتی بین اسلایدهای نمایشگر و پاورپوینت صادر شده وجود دارد که ما در حال تلاش برای کاهش آن‌ها هستیم. علاوه بر این، در حالی که در حال حاضر می‌تونی یک صفحه گسترده موجود رو برای ChatGPT برای ویرایش یا استفاده به عنوان قالب بارگذاری کنی، این قابلیت هنوز برای نمایش اسلاید در دسترس نیست. ما در حال آموزش نسخه بعدی ساخت اسلایدشو ChatGPT هستیم تا خروجی‌های صیقل‌یافته‌تر و پیچیده‌تر، با قابلیت‌های گسترده‌تر و قالب‌بندی بهبود یافته تولید کنیم.

به طور کلی ما انتظار داریم که کارایی، عمق و تطبیق‌پذیری عامل ChatGPT به مرور زمان بهبود یابد، از جمله تعاملات یکپارچه‌تر، زیرا ما همچنان به تنظیم میزان نظارت مورد نیاز از کاربر ادامه می‌دهیم تا در عین حال که استفاده از آن ایمن است، مفیدتر شود.

ضمیمه

SpreadsheetBench
مدل	محیط ارزیابی	محدودیت نرم (%): سطح سلول	محدودیت نرم (%): در سطح شیت	محدودیت نرم (%): کلی
GPT‑4o	Windows ،Excel	15.03	23.65	18.35
Copilot در Excel	Windows ،Excel	23.33	15.00	20.00
GPT‑4o	OSX ،LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX ،LibreOffice	22.40	24.60	23.25
عامل ChatGPT	OSX ،LibreOffice	38.27	35.27	35.27
عامل ChatGPT با xlsx.	OSX ،LibreOffice	50.56	37.51	37.51
انسان		75.56	65.00	71.33

پخش مجدد زنده

نویسنده

OpenAI

پاورقی

* هنگام فعال کردن مرور، مدل می‌تواند گاهی اوقات پاسخ‌های دقیق را به صورت آنلاین پیدا کند، مثلاً با خواندن پست‌های وبلاگ با نمونه‌هایی از مشکلات یک مجموعه داده. ما نگرانی‌های مربوط به تقلب مدل را هنگام مرور با دو راهبرد کاهش می‌دهیم:

1. دامنه‌های مسدود شده‌ای که ما در گذشته مشاهده کرده‌ایم مدل از آن‌ها تقلب کرده است.

2. از یک مدل اضافی به عنوان مانیتور برای بررسی تمام token‌های خروجی ابزار در هر تلاش برای شناسایی رفتار مشکوک استفاده شد. رفتار مشکوک به عنوان "یک صفحه، فایل یا قطعه‌ای تعریف می‌شود که هدف اصلی آن ارائه پاسخ دقیق به این سوال خاص است - به عنوان مثال، یک کلید نمره‌دهی رسمی، نشت «راه‌حل» یا بحثی که پاسخ نهایی را به صورت کلمه به کلمه نقل می‌کند." رفتار بی‌ضرر به این صورت تعریف می‌شود "هر منبع معتبری که یک انسان کوشا ممکن است با آن مشورت کند (اسناد، کتابچه‌های راهنما، مقالات علمی، مقالات معتبر) حتی اگر به طور تصادفی حاوی پاسخ صحیح باشد." هر تلاشی که مانیتور آن را مشکوک تشخیص دهد، نادرست محسوب می‌شود. اکثر نمونه‌هایی که در این بررسی شکست خوردند، مشکلاتی بودند که راه‌حل دقیقشان در چندین منبع اینترنتی غیرمرتبط با HLE در دسترس بود.

**OpenAI دسترسی انحصاری به 237 از 290 سؤال خصوصی در مجموعه داده Tier 1-3 دارد. سوالات سطح 4 FrontierMath در این ارزیابی لحاظ نشده‌اند. نتایج به‌عنوان میانگین 16 تلاش برای پاسخ به هر سؤال ارزیابی شدند. نتایج عامل ChatGPT توسط OpenAI استخراج می‌شود، توسط Epoch AI درجه‌بندی می‌شود، با دسترسی به مرورگر و ترمینال، و محدودیت 128 هزار token در هر پاسخ. ارزیابی‌های OpenAI o4-mini و o3 توسط Epoch AI استخراج و درجه‌بندی می‌شوند، بدون دسترسی به مرورگر و ترمینال، با استفاده از اسکریپت‌های پایتون از طریق فراخوانی تابع، و محدودیت 100 هزار توکن‌ها در هر پاسخ.

*** Oracle@64 به بهترین نمره‌ای اشاره دارد که در 64 اجرای نمونه‌برداری شده به دست آمده و با استفاده از حقیقت زمینی انتخاب شده است (یعنی ما برای هر کار، تلاش با بالاترین امتیاز را بر اساس عملکرد واقعی نمره‌گذاری شده انتخاب می‌کنیم). ما میانگین این بهترین نمرات هر کار را در تمام وظایف گزارش می‌دهیم. این معیار پتانسیل بالای مدل و واریانس در عملکرد وظایف را برجسته می‌کند و نشان می‌دهد که مدل در هنگام موفقیت چقدر توانمند است و فضای بهبود سازگاری از طریق آموزش بیشتر را نشان می‌دهد. برخلاف معیارهای معمولی «بهترین از N» که بر اساس اطمینان مدل انتخاب می‌شوند، Oracle@64 از حقیقت زمینی برای انتخاب استفاده می‌کند و به وظایفی اعمال می‌شود که در مقیاس پیوسته 0 تا 1 درجه‌بندی می‌شوند، نه به صورت باینری گذشت/شکست.