معرفی عامل ChatGPT: پل زدن بین تحقیق و اقدام
ChatGPT اکنون فکر میکند و عمل میکند و بهطور فعال از جعبهابزار مهارتهای عامل خود انتخاب میکند تا وظایف را با استفاده از کامپیوترش برایتان انجام دهد.
ChatGPT اکنون میتواند با استفاده از کامپیوتر کارها را برایتان انجام دهد و وظایف پیچیده را از ابتدا تا انتها مدیریت کند.
حالا می توانید از ChatGPT بخواهید درخواستهایی مثل «به تقویم من را نگاه کن و بر اساس اخبار اخیر جلسات مشتری را به من بگو»، «برنامهریزی و خرید مواد لازم برای تهیه صبحانه ژاپنی برای چهار نفر» و «سه رقیب رو تحلیل کن و یک ارائه اسلایدی بساز» را انجام بدهید. ChatGPT بهطور هوشمندانه وبسایتها را مرور میکند، نتایج را فیلتر میکند، ازت میخواهد در صورت نیاز بهطور ایمن وارد شوی، کد را اجرا میکند، تحلیل انجام میدهد و حتی نمایشهای اسلاید و صفحات گسترده قابل ویرایش ارائه میدهد که یافتههایش را خلاصه میکند.
در مرکز این قابلیت جدید، یک سیستم عامل یکپارچه قرار دارد. این سیستم سه نقطه قوت از پیشرفتهای قبلی را گرد هم آورده است: توانایی اپراتور در تعامل با وبسایتها، مهارت تحقیقات عمیق در ترکیب اطلاعات، و هوش و تسلط مکالمهای ChatGPT.
ChatGPT این وظایف را با استفاده از کامپیوتر مجازی خود انجام میدهد و بهطور روان بین استدلال و عمل جابهجا میشود تا جریانهای کاری پیچیده را از ابتدا تا انتها مدیریت کند، همه بر اساس دستورالعملهای شما.
از همه مهمتر، شما همیشه کنترل اوضاع را در دست دارید. ChatGPT قبل از انجام اقدامات مهم اجازه میگیرد و میتوانید به راحتی در هر لحظه مرورگر را متوقف کنید، کنترل آن را به دست بگیرید یا کارها را متوقف کنید.
از امروز، کاربران Pro، Plus و Team میتوانند قابلیتهای جدید عامل ChatGPT را مستقیماً از طریق فهرست کشویی ابزارها در آهنگساز با انتخاب «حالت عامل» در هر نقطه از هر مکالمه فعال کنند.
در حالی که عامل ChatGPT در حال حاضر یک ابزار قدرتمند برای رسیدگی به وظایف پیچیده است، راهاندازی امروز تنها آغاز راه است. ما به طور مداوم بهبودهای قابل توجهی اضافه میکنیم و آن را در طول زمان برای افراد بیشتری توانمندتر و مفیدتر میکنیم.
قبلاً اپراتور و تحقیقات عمیق هر کدام نقاط قوت منحصر به فردی داشتند: اپراتور میتوانست در وب پیمایش کند، کلیک کند و تایپ کند، در حالی که تحقیقات عمیق در تجزیه و تحلیل و خلاصهسازی اطلاعات برتری داشت. اما آنها در موقعیتهای مختلف بهترین عملکرد را داشتند: اپراتور نمیتوانست عمیقاً به تحلیل بپردازد یا گزارشهای دقیق بنویسد، و تحقیقات عمیق نمیتوانست با وبسایتها برای اصلاح نتایج یا دسترسی به محتوایی که نیاز به احراز هویت کاربر دارد، تعامل داشته باشد. در واقع، ما متوجه شدیم که بسیاری از جستجوهایی که کاربران با Operator انجام میدادند، در واقع برای تحقیقات عمیق مناسبتر بودند، بنابراین بهترینهای هر دو را با هم ترکیب کردیم.
با ادغام این نقاط قوت مکمل در ChatGPT و معرفی ابزارهای اضافی، قابلیتهای کاملاً جدیدی را در یک مدل باز کردهایم. اکنون میتواند به طور فعال با وبسایتها تعامل داشته باشد - کلیک کند، فیلتر کند و نتایج دقیقتر و کارآمدتری جمعآوری کند. همچنین میتونی به طور طبیعی از یک مکالمه ساده به درخواست اقدامات مستقیماً در همان گفتگو بروی.
ما عامل ChatGPT را به مجموعهای از ابزارها مجهز کردهایم: یک مرورگر بصری که از طریق رابط کاربری گرافیکی با وب تعامل میکند، یک مرورگر مبتنی بر متن برای جستارهای وب سادهتر مبتنی بر استدلال، یک ترمینال و دسترسی مستقیم به API. عامل همچنین میتواند از کانکتورهای ChatGPT(در یک پنجره جدید باز میشود) استفاده کند، که به تو امکان میدهد برنامههایی مانند Gmail و Github را متصل کنی تا ChatGPT بتواند اطلاعات مرتبط با درخواستهایت را پیدا کرده و از آنها در پاسخهای خود استفاده کند. همچنین میتونی با تصاحب مرورگر در هر وبسایتی وارد بشی و بهش اجازه بدی در تحقیق و اجرای وظایفش عمیقتر و گستردهتر بشه. دادن این مسیرهای مختلف به ChatGPT برای دسترسی و تعامل با اطلاعات وب به این معناست که میتواند بهترین مسیر را برای انجام کارها به کارآمدترین شکل انتخاب کند. به عنوان مثال، میتواند اطلاعات مربوط به تقویم شما را از طریق یک API جمعآوری کند، به طور مؤثر بر روی مقادیر زیادی از متن با استفاده از مرورگر مبتنی بر متن استدلال کند، و در عین حال توانایی تعامل بصری با وبسایتهایی که عمدتاً برای انسانها طراحی شدهاند را داشته باشد.
همه این کارها با استفاده از کامپیوتر مجازی خودش انجام میشود که زمینه لازم برای وظیفه را حفظ میکند، حتی زمانی که از چندین ابزار استفاده میشود. مدل میتواند انتخاب کند که یک صفحه را با استفاده از مرورگر متنی یا مرورگر بصری باز کند، یک فایل را از وب دانلود کند، آن را با اجرای یک فرمان در ترمینال دستکاری کند و سپس خروجی را دوباره در مرورگر بصری مشاهده کند. این مدل رویکردش را برای انجام وظایف با سرعت، دقت و کارایی تطبیق میدهد.
عامل ChatGPT برای گردشهای کاری تکراری و مشارکتی طراحی شده است و بسیار تعاملیتر و انعطافپذیرتر از مدلهای قبلی است. همانطور که ChatGPT کار میکند، میتوانی در هر لحظه متوقف کنی تا دستورالعملهایت را روشن کنی، آن را به سمت نتایج دلخواه هدایت کنی یا کار را بهطور کامل تغییر دهی. اکنون با اطلاعات جدید، اما بدون از دست دادن پیشرفت قبلی، از جایی که متوقف شده بود، ادامه خواهد یافت. به همین ترتیب، ChatGPT ممکن است در صورت نیاز بهطور فعال از تو جزئیات بیشتری بخواهد تا اطمینان حاصل شود که کار با اهداف تو هماهنگ است. اگر کاری بیشتر از حد انتظار طول بکشد یا احساس کنید گیر کردهاید، میتوانید آن را متوقف کنید، خلاصهای از پیشرفت آن را بخواهید، یا آن را به طور کامل متوقف کنید و نتایج جزئی دریافت کنید. اگر برنامه ChatGPT را روی گوشیات داشته باشی، وقتی کارش با وظیفهات تمام شد، برایت اعلانی میفرستد.
این قابلیتهای عامل یکپارچه به طور قابلتوجهی سودمندی ChatGPT را در زمینههای روزمره و حرفهای افزایش میدهند. در محل کار، میتونی کارهای تکراری رو خودکار کنی، مثل تبدیل اسکرینشاتها یا داشبوردها به ارائههایی که از عناصر برداری قابل ویرایش تشکیل شدهاند، تنظیم مجدد جلسات، برنامهریزی و رزرو سفرهای خارج از محل، و بهروزرسانی صفحات گسترده با دادههای مالی جدید در حالی که همان قالب حفظ میشود. در زندگی شخصیات، میتونی ازش برای برنامهریزی و رزرو برنامههای سفر، طراحی و رزرو کل مهمانیهای شام یا پیدا کردن متخصصان و تنظیم قرار ملاقاتها استفاده کنی.
قابلیتهای ارتقاء یافته مدل در عملکرد پیشرفته (SOTA) آن در ارزیابیهایی که مرور وب و تواناییهای تکمیل وظایف در دنیای واقعی را اندازهگیری میکنند، منعکس شده است.
در آخرین امتحان بشریت(در یک پنجره جدید باز میشود)*، ارزیابی که عملکرد هوش مصنوعی را در طیف گستردهای از موضوعات در سؤالات سطح تخصصی اندازهگیری میکند، مدلی که عامل ChatGPT را تقویت میکند، امتیاز جدید pass@1 SOTA را با 41.6 به دست میآورد. چون عامل به صورت پویا برنامهریزی میکند و ابزارهای خود را انتخاب میکند، میتواند همان کار را به روشهای مختلف در اجراهای مختلف انجام دهد. وقتی این را با یک استراتژی ساده انتشار موازی مقیاسبندی کردیم - تا هشت تلاش را همزمان انجام دادیم و آن را که بالاترین اعتماد به نفس گزارش شده را داشت انتخاب کردیم - نمره HLE عامل به 44.4 افزایش یافت.
FrontierMath** سختترین معیار شناختهشده ریاضی است که شامل مسائل جدید و منتشر نشدهای است که حل آنها اغلب ساعتها یا حتی روزها طول میکشد و نیازمند تخصص ریاضیدانان است. با استفاده از ابزارهایی مانند دسترسی به ترمینال برای اجرای کد، عامل ChatGPT به دقت 27.4% میرسد و با اختلاف زیادی از هر دو مدل قبلی بهتر عمل میکند.
ما همچنین مدل را با استفاده از معیارهایی که بر اساس وظایف پیچیده دنیای واقعی مدلسازی شدهاند، ارزیابی کردیم. بر اساس یک معیار داخلی که برای ارزیابی عملکرد مدل در وظایف پیچیده و ارزشمند اقتصادی طراحی شده است، خروجی عامل ChatGPT در حدود نیمی از موارد در طیف وسیعی از زمانهای تکمیل وظایف، قابل مقایسه یا بهتر از انسان است، در حالی که به طور قابل توجهی از o3 و o4-mini بهتر عمل میکند. خروجیهای مدل توسط کارشناسان با خطوط پایه انسانی با کیفیت بالا که توسط برترینها در هر زمینه ایجاد شدهاند، ارزیابی میشوند. این وظایف که از کارشناسان در مشاغل و صنایع مختلف تهیه میشوند، منعکسکننده کارهای حرفهای واقعی هستند، مانند تهیه تحلیل رقابتی از ارائهدهندگان مراقبت فوری بهصورت درخواستی، ایجاد برنامههای استهلاک دقیق و شناسایی چاههای آب مناسب برای یک مرکز جدید هیدروژن سبز.
در DSBench(در یک پنجره جدید باز میشود)،که برای ارزیابی عوامل در وظایف واقعی علم داده شامل تحلیل و مدلسازی دادهها طراحی شده است، عامل ChatGPT به طور قابل توجهی از عملکرد انسان پیشی میگیرد.
در SpreadsheetBench که مدلها را بر اساس توانایی ویرایش صفحات گسترده مشتق شده از سناریوهای دنیای واقعی ارزیابی میکند، عامل ChatGPT با اختلاف قابل توجهی از مدلهای موجود پیشی میگیرد. وقتی امکان ویرایش مستقیم صفحات گسترده فراهم میشود، عامل ChatGPT حتی با 45.5% امتیاز بالاتری نسبت به Copilot در Excel با 20.0% کسب میکند.
روششناسی: نویسندگان SpreadsheetBench از محیط Windows و Microsoft Excel برای ارزیابی صفحات گسترده استفاده کردند. ما از محیط OSX و LibreOffice استفاده کردیم، که ممکن است منجر به تفاوتهای کوچک در درجهبندی شود. به عنوان مثال، نویسندگان یک محدودیت سخت کلی 15.02% برای GPT‑4o یافتند و ما 13.38% به دست آوردیم. ما از بنچمارک کامل 912 سوالی استفاده کردیم.
در یک معیار داخلی که توانایی مدل را در انجام وظایف مدلسازی تحلیلگر بانکداری سرمایهگذاریسال اول تا سوم میسنجد - مانند تهیه یک مدل مالی سهگانه برای یک شرکت Fortune 500 با قالببندی و استناد مناسب، یا ساخت یک مدل خرید اهرمی برای خصوصیسازی - مدل عامل ChatGPT به طور قابل توجهی از تحقیقات عمیق و o3 بهتر عمل میکند. هر وظیفه بر اساس صدها معیار مرتبط با درستی و استفاده از فرمول ارزیابی میشود.
ما همچنین عامل ChatGPT را در BrowseComp ارزیابی کردیم، معیاری که اوایل امسال منتشر کردیم و توانایی عاملهای مرورگر را در یافتن اطلاعات سختیاب در وب اندازهگیری میکند. این مدل یک SOTA جدید با 68.9٪ ثبت کرد که 17.4 درصد بیشتر از تحقیقات عمیق است.
در نهایت، در WebArena(در یک پنجره جدید باز میشود)، معیاری که برای ارزیابی عملکرد عاملهای مرور وب در انجام وظایف واقعی وب طراحی شده است، این مدل نسبت به CUA مبتنی بر o3 (مدلی که اپراتور را قدرت میبخشد) بهبود مییابد.
شما میتوانید قابلیتهای جدید عامل ChatGPT رو مستقیماً از طریق منوی کشویی ابزارها در آهنگساز با انتخاب «حالت عامل» در هر نقطه از هر مکالمه فعال کنید. به سادگی وظیفهای که میخواهی انجام دهی را توصیف کن - چه انجام تحقیقات عمیق، ایجاد نمایش اسلاید یا ارسال هزینهها. هنگامی که وظیفهات را انجام میدهد، یک روایت روی صفحه نمایش بهطور دقیق نشان میدهد که ChatGPT چه کاری انجام میدهد. تو میتونی هر وقت که لازم باشه مرورگر رو متوقف کنی و کنترلش رو به دست بگیری و مطمئن بشی که وظایف با اهدافت همسو میمونن.
عامل ChatGPT میتواند به کانکتورهای شما دسترسی پیدا کند و به آن اجازه میدهد با گردش کار شما ادغام شود و به اطلاعات مرتبط و قابل اجرا دسترسی پیدا کند. پس از احراز هویت، این کانکتورها به ChatGPT اجازه میدهند اطلاعات را مشاهده کند و کارهایی مانند خلاصه کردن صندوق ورودی شما برای روز یا پیدا کردن زمانهای خالی برای جلسه انجام دهد. با این حال، برای اقدام در این سایتها، همچنان از شما خواسته میشود با استفاده از مرورگر وارد شوید.
علاوه بر این، میتوانید کارهای تکمیلشده را طوری برنامهریزی کنید که بهطور خودکار تکرار شوند، مثل تولید گزارش معیارهای هفتگی هر دوشنبه صبح.
این نسخه اولین باری است که کاربران میتوانند از ChatGPT بخواهند که در وب اقداماتی انجام دهد. این خطرات جدیدی را معرفی میکند، بهویژه به این دلیل که عامل ChatGPT میتواند مستقیماً با دادههای شما کار کند، چه اطلاعاتی که از طریق کانکتورها یا وبسایتهایی که از طریق حالت تصاحب به آنها وارد شدهاید. ما کنترلهای قوی از پیشنمایش تحقیق اپراتور را تقویت کردهایم و برای چالشهایی مانند مدیریت اطلاعات حساس در وب زنده، دسترسی گستردهتر کاربران و دسترسی (محدود) به شبکه ترمینال، محافظتهایی اضافه کردهایم. در حالی که این اقدامات کاهشدهنده به طور قابل توجهی خطر را کاهش میدهند، ابزارهای گسترشیافته عامل ChatGPT و دسترسی گستردهتر کاربران به این معنی است که نمایه کلی ریسک آن بالاتر است.
ما تاکید خاصی بر محافظت از عامل ChatGPT در برابر دستکاری خصمانه از طریق تزریق درخواست که به طور کلی برای سیستمهای عامل خطری است، گذاشتهایم و بر این اساس اقدامات کاهش گستردهتری را آماده کردهایم. تزریقهای دستوری تلاشهایی از سوی اشخاص ثالث برای دستکاری رفتار از طریق دستورالعملهای مخرب است که عامل ChatGPT ممکن است هنگام انجام یک کار در وب با آنها مواجه شود. برای مثال، یک فرمان مخرب که در یک صفحه وب پنهان شده است، مانند در عناصر نامرئی یا فراداده، میتواند عامل را فریب دهد تا اقدامات ناخواستهای انجام دهد، مانند به اشتراکگذاری دادههای خصوصی از یک کانکتور با مهاجم، یا انجام یک اقدام مضر در سایتی که کاربر وارد آن شده است. چون عامل ChatGPT میتواند اقدامات مستقیمی انجام دهد، حملات موفق میتوانند تأثیر بیشتری داشته و خطرات بیشتری را به همراه داشته باشند.
ما عامل را در شناسایی و مقاومت در برابر تزریق دستورات آموزش داده و آزمایش کردهایم، علاوه بر استفاده از نظارت برای تشخیص سریع و پاسخ به حملات تزریق دستورات. نیاز به تأیید صریح کاربر قبل از اقدامات مهم، خطر آسیب ناشی از این حملات را بیشتر کاهش میدهد و کاربران میتوانند در صورت نیاز با به دست گرفتن یا متوقف کردن وظایف مداخله کنند. کاربران باید هنگام تصمیمگیری در مورد اینکه چه اطلاعاتی به عامل ارائه دهند، این موازنهها را ارزیابی کنند و همچنین اقداماتی را برای به حداقل رساندن قرار گرفتن در معرض این خطرات انجام دهند، مانند غیرفعال کردن رابطها زمانی که برای یک کار مورد نیاز نیستند.
ما همچنین اقداماتی برای کاهش اشتباهات مدل انجام دادهایم، بهویژه از آنجایی که مدل اکنون میتواند وظایفی را انجام دهد که بر دنیای واقعی تأثیر میگذارد:
- تأیید صریح کاربر: ChatGPT آموزش دیده است تا قبل از انجام اقداماتی با عواقب واقعی مانند خرید، صریحاً از شما اجازه بگیرد.
- نظارت فعال ("حالت نظارت"): برخی از وظایف مهم، مانند ارسال ایمیل، نیاز به نظارت فعال شما دارند.
- کاهش ریسک پیشگیرانه: ChatGPT آموزش دیده تا به طور فعال از انجام وظایف پرخطر مثل انتقالات بانکی خودداری کند.
در نهایت، کنترلهای اضافی را برای محدود کردن دادههایی که مدل به آنها دسترسی دارد، معرفی کردهایم:
- کنترلهای حریم خصوصی: با یک کلیک در تنظیمات ChatGPT، میتوانید تمام دادههای مرور را حذف کنید و بلافاصله از تمام جلسات فعال وبسایت خارج شوید. در غیر این صورت، کوکیها بر اساس سیاستهای کوکی هر وبسایت بازدید شده باقی میمانند، که میتواند بازدیدهای مکرر از سایتها را کارآمدتر کند.
- حالت امن تصاحب مرورگر: وقتی با استفاده از مرورگر ChatGPT با وب تعامل میکنید («حالت تصاحب»)، ورودیهای شما خصوصی میمانند. ChatGPT هیچ دادهای که در طول این جلسات وارد میکنی، مثل رمزهای عبور، جمعآوری یا ذخیره نمیکند، چون مدل به آن نیازی ندارد و اگر هرگز آن را نبیند، امنتر است.
با افزایش قابلیتهای مدل، تصمیم گرفتیم عامل ChatGPT را تحت چارچوب آمادگی خود به عنوان دارای قابلیتهای بالای بیولوژیکی و شیمیایی در نظر بگیریم و اقدامات حفاظتی مرتبط را فعال کنیم. در حالی که شواهد قطعی نداریم که مدل میتواند بهطور معناداری به یک تازهکار کمک کند تا آسیب بیولوژیکی شدید ایجاد کند—که آستانه ما برای توانایی بالا است—ما اکنون با احتیاط عمل میکنیم و اقدامات حفاظتی لازم را اجرا میکنیم. در نتیجه، این مدل دارای جامعترین مجموعه ایمنی ما تا به امروز با محافظتهای پیشرفته برای زیستشناسی است: مدلسازی جامع تهدید، آموزش امتناع از استفاده دوگانه، طبقهبندیهای همیشه فعال و مانیتورهای استدلال و خطوط اجرای شفاف.
علاوه بر تلاشهای ما برای ایمنسازی عامل ChatGPT، میدانیم که ایمنی زیستی لایهای زمانی بهترین عملکرد را دارد که تدابیر حفاظتی فراتر از یک آزمایشگاه باشد، بنابراین ما در سراسر اکوسیستم برای تقویت دفاعها همکاری میکنیم. از روز اول با کارشناسان خارجی امنیت زیستی، مؤسسات ایمنی و پژوهشگران دانشگاهی همکاری کردهایم تا مدل تهدید، ارزیابیها و سیاستهای خود را شکل دهیم. بررسیکنندگان آموزشدیده در زیستشناسی دادههای ارزیابی ما را تأیید کردند و تیمهای قرمز متخصص حوزه، محافظتها را در سناریوهای واقعگرایانه تحت فشار قرار دادند. اوایل این ماه، ما یک کارگاه دفاع زیستی با کارشناسانی از دولت، دانشگاهها، آزمایشگاههای ملی و سازمانهای غیردولتی برگزار کردیم تا همکاریها را تسریع کرده و تحقیقات دفاع زیستی را با استفاده از هوش مصنوعی پیش ببریم. ما به همکاری جهانی ادامه میدهیم تا از خطرات نوظهور جلوتر باشیم.
درباره رویکرد ایمنی قوی ما برای مدل عامل یکپارچه در کارت سیستم بیشتر بخوانید. ما همچنین در حال راهاندازی یک برنامهی باگ بانتی هستیم تا بتوانیم خطرات دنیای واقعی را پیدا و برطرف کنیم.
عامل ChatGPT از امروز برای Pro، Plus و Team شروع به عرضه میشود. Pro تا پایان روز دسترسی پیدا میکند، در حالی که کاربران Plus و Team طی چند روز آینده به آن دسترسی پیدا خواهند کرد. کاربران Enterprise و Education در هفتههای آینده دسترسی پیدا خواهند کرد. کاربران Pro ماهانه 400 پیام دارند، در حالی که سایر کاربران پولی ماهانه 40 پیام دریافت میکنند و استفاده اضافی از طریق گزینههای انعطافپذیر مبتنی بر اعتبار در دسترس است.
ما هنوز در حال کار بر روی فعالسازی دسترسی برای منطقه اقتصادی اروپا و سوئیس هستیم.
سایت پیشنمایش تحقیقات اپراتور برای چند هفته دیگر فعال خواهد ماند و سپس تعطیل خواهد شد. تحقیقات عمیق بخشی از قابلیتهای عامل ChatGPT است. اگر ویژگی اصلی تحقیق عمیق را ترجیح میدهید - که ممکن است اجرای آن بیشتر طول بکشد اما بهطور پیشفرض پاسخهای دقیق و عمیقتری ارائه میدهد - هنوز میتوانید با انتخاب «تحقیق عمیق» از فهرست کشویی در سازنده پیام به آن دسترسی پیدا کنید.
عامل ChatGPT هنوز در مراحل اولیه است. این عامل میتواند طیف وسیعی از وظایف پیچیده را انجام دهد، اما هنوز هم ممکن است اشتباه کند.
در حالی که پتانسیل زیادی در توانایی آن برای ایجاد نمایش اسلاید میبینیم، این قابلیت در حال حاضر در نسخه بتا است. در حال حاضر، خروجیها گاهی اوقات ممکن است در قالببندی و پرداخت ابتدایی به نظر برسند، بهویژه زمانی که بدون سند موجود شروع میکنی. ما قابلیتهای اولیه مدل را بر تولید مصنوعاتی متمرکز کردیم که اطلاعات را در قالب و جریانی مناسب برای ارائهها سازماندهی میکنند، با عناصری مانند متن، نمودارها، تصاویر و اشکال که پس از خروجی گرفتن به صورت بومی و به راحتی قابل ویرایش هستند و از نظر ساختار و انعطافپذیری بهینهسازی شدهاند. در حال حاضر، گاهی اوقات اختلافاتی بین اسلایدهای نمایشگر و پاورپوینت صادر شده وجود دارد که ما در حال تلاش برای کاهش آنها هستیم. علاوه بر این، در حالی که در حال حاضر میتونی یک صفحه گسترده موجود رو برای ChatGPT برای ویرایش یا استفاده به عنوان قالب بارگذاری کنی، این قابلیت هنوز برای نمایش اسلاید در دسترس نیست. ما در حال آموزش نسخه بعدی ساخت اسلایدشو ChatGPT هستیم تا خروجیهای صیقلیافتهتر و پیچیدهتر، با قابلیتهای گستردهتر و قالببندی بهبود یافته تولید کنیم.
به طور کلی ما انتظار داریم که کارایی، عمق و تطبیقپذیری عامل ChatGPT به مرور زمان بهبود یابد، از جمله تعاملات یکپارچهتر، زیرا ما همچنان به تنظیم میزان نظارت مورد نیاز از کاربر ادامه میدهیم تا در عین حال که استفاده از آن ایمن است، مفیدتر شود.
SpreadsheetBench | ||||
مدل | محیط ارزیابی | محدودیت نرم (%): سطح سلول | محدودیت نرم (%): در سطح شیت | محدودیت نرم (%): کلی |
GPT‑4o | Windows ،Excel | 15.03 | 23.65 | 18.35 |
Copilot در Excel | Windows ،Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX ،LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX ،LibreOffice | 22.40 | 24.60 | 23.25 |
عامل ChatGPT | OSX ،LibreOffice | 38.27 | 35.27 | 35.27 |
عامل ChatGPT با xlsx. | OSX ،LibreOffice | 50.56 | 37.51 | 37.51 |
انسان | 75.56 | 65.00 | 71.33 |
نویسنده
پاورقی
* هنگام فعال کردن مرور، مدل میتواند گاهی اوقات پاسخهای دقیق را به صورت آنلاین پیدا کند، مثلاً با خواندن پستهای وبلاگ با نمونههایی از مشکلات یک مجموعه داده. ما نگرانیهای مربوط به تقلب مدل را هنگام مرور با دو راهبرد کاهش میدهیم:
1. دامنههای مسدود شدهای که ما در گذشته مشاهده کردهایم مدل از آنها تقلب کرده است.
2. از یک مدل اضافی به عنوان مانیتور برای بررسی تمام tokenهای خروجی ابزار در هر تلاش برای شناسایی رفتار مشکوک استفاده شد. رفتار مشکوک به عنوان "یک صفحه، فایل یا قطعهای تعریف میشود که هدف اصلی آن ارائه پاسخ دقیق به این سوال خاص است - به عنوان مثال، یک کلید نمرهدهی رسمی، نشت «راهحل» یا بحثی که پاسخ نهایی را به صورت کلمه به کلمه نقل میکند." رفتار بیضرر به این صورت تعریف میشود "هر منبع معتبری که یک انسان کوشا ممکن است با آن مشورت کند (اسناد، کتابچههای راهنما، مقالات علمی، مقالات معتبر) حتی اگر به طور تصادفی حاوی پاسخ صحیح باشد." هر تلاشی که مانیتور آن را مشکوک تشخیص دهد، نادرست محسوب میشود. اکثر نمونههایی که در این بررسی شکست خوردند، مشکلاتی بودند که راهحل دقیقشان در چندین منبع اینترنتی غیرمرتبط با HLE در دسترس بود.
**OpenAI دسترسی انحصاری به 237 از 290 سؤال خصوصی در مجموعه داده Tier 1-3 دارد. سوالات سطح 4 FrontierMath در این ارزیابی لحاظ نشدهاند. نتایج بهعنوان میانگین 16 تلاش برای پاسخ به هر سؤال ارزیابی شدند. نتایج عامل ChatGPT توسط OpenAI استخراج میشود، توسط Epoch AI درجهبندی میشود، با دسترسی به مرورگر و ترمینال، و محدودیت 128 هزار token در هر پاسخ. ارزیابیهای OpenAI o4-mini و o3 توسط Epoch AI استخراج و درجهبندی میشوند، بدون دسترسی به مرورگر و ترمینال، با استفاده از اسکریپتهای پایتون از طریق فراخوانی تابع، و محدودیت 100 هزار توکنها در هر پاسخ.
*** Oracle@64 به بهترین نمرهای اشاره دارد که در 64 اجرای نمونهبرداری شده به دست آمده و با استفاده از حقیقت زمینی انتخاب شده است (یعنی ما برای هر کار، تلاش با بالاترین امتیاز را بر اساس عملکرد واقعی نمرهگذاری شده انتخاب میکنیم). ما میانگین این بهترین نمرات هر کار را در تمام وظایف گزارش میدهیم. این معیار پتانسیل بالای مدل و واریانس در عملکرد وظایف را برجسته میکند و نشان میدهد که مدل در هنگام موفقیت چقدر توانمند است و فضای بهبود سازگاری از طریق آموزش بیشتر را نشان میدهد. برخلاف معیارهای معمولی «بهترین از N» که بر اساس اطمینان مدل انتخاب میشوند، Oracle@64 از حقیقت زمینی برای انتخاب استفاده میکند و به وظایفی اعمال میشود که در مقیاس پیوسته 0 تا 1 درجهبندی میشوند، نه به صورت باینری گذشت/شکست.


