ChatGPT агентын танилцуулга: судалгаа ба үйлдлийг холбох нь
ChatGPT одоо сэтгэж, үйлдэж, өөрийн компьютероор танд зориулсан даалгаврыг гүйцээхийн тулд агент чадварын хэрэгслүүдээс идэвхтэй сонгодог боллоо.
ChatGPT одоо өөрийн компьютерийг ашиглан танд ажил хийж, төвөгтэй даалгавруудыг эхнээс нь дуустал гүйцэтгэж чадна.
Одоо та ChatGPT‑ээс “миний календарыг харж, сүүлийн үеийн мэдээнд тулгуурлан удахгүй болох харилцагчийн уулзалтуудын талаар товч мэдээлэл өг,” “дөрвөн хүнд зориулсан Япон өглөөний цай хийхээр төлөвлөж, орц худалдаж ав,” мөн “гурван өрсөлдөгчид дүн шинжилгээ хийж, слайдын багц үүсгэ” гэх мэт хүсэлтүүдийг гүйцэтгүүлэх боломжтой. ChatGPT вэбсайтуудаар ухаалгаар шилжин ажиллаж, үр дүнг шүүж, шаардлагатай үед аюулгүй нэвтрэхийг сануулж, код ажиллуулж, дүн шинжилгээ хийж, бүр цаашлаад олсон дүгнэлтээ нэгтгэсэн засварлах боломжтой слайд шоу болон хүснэгтүүдийг хүргэнэ.
Энэ шинэ чадварын гол цөм нь нэгдмэл агент систем юм. Энэ нь өмнөх дэвшлүүдийн гурван давуу талыг нэгтгэдэг: Operator-ийн вэбсайттай харилцах чадвар, гүн судалгааны мэдээллийг нэгтгэн боловсруулах чадвар, мөн ChatGPT‑ийн оюун ухаан ба ярианы чөлөөтэй байдал.
ChatGPT эдгээр даалгаврыг өөрийн виртуал компьютерээр гүйцэтгэж, таны зааварт тулгуурлан эхнээс нь дуустал төвөгтэй ажлын урсгалыг шийдэхийн тулд сэтгэн бодох ба үйлдлийн хооронд уян хатан шилжинэ.
Хамгийн чухал нь хяналт үргэлж таны гарт байна. ChatGPT үр дагавартай үйлдэл хийхээс өмнө зөвшөөрөл хүсдэг бөгөөд та хүссэн үедээ тасалдуулж, хөтчийг өөрөө авч, эсвэл даалгаврыг зогсоож болно.
Өнөөдрөөс эхлэн Pro, Plus, Team хэрэглэгчид ChatGPT‑ийн шинэ агент чадваруудыг дурын ярианы аль ч үед мессеж бичих хэсгийн хэрэгслүүдийн цэснээс ‘agent mode’-ийг сонгон шууд идэвхжүүлэх боломжтой.
ChatGPT агент аль хэдийн төвөгтэй даалгавар гүйцэтгэх хүчирхэг хэрэгсэл болсон ч өнөөдрийн нээлт бол зөвхөн эхлэл юм. Бид тогтмол томоохон сайжруулалтуудыг үе шаттайгаар нэмсээр байх бөгөөд ингэснээр цаг хугацааны явцад илүү олон хүнд илүү чадвартай, илүү хэрэгтэй болно.
Өмнө нь Operator ба гүн судалгаа тус бүр өөрийн онцгой давуу талтай байсан: Operator вэб дээр гүйлгэж, дарж, бичиж чаддаг байсан бол гүн судалгаа мэдээлэлд дүн шинжилгээ хийж, нэгтгэн дүгнэхдээ гаргууд байв. Гэхдээ тэд өөр өөр нөхцөлд илүү сайн ажилладаг байсан: Operator гүнзгий дүн шинжилгээ хийх эсвэл дэлгэрэнгүй тайлан бичих боломжгүй, харин гүн судалгаа үр дүнг нарийвчлан сайжруулахын тулд вэбсайттай харилцах, эсвэл хэрэглэгчийн баталгаажуулалт шаардсан контентод хандах боломжгүй байв. Үнэндээ хэрэглэгчдийн Operator-оор хийхийг оролдсон олон асуулт нь гүн судалгаанд илүү тохиромжтой байсныг бид харсан тул бид хоёулангийнх нь шилдэг талыг нэгтгэсэн.
Эдгээр харилцан нөхөх давуу талуудыг ChatGPT‑д нэгтгэж, нэмэлт хэрэгслүүдийг танилцуулснаар бид нэг загвар дотор цоо шинэ чадваруудыг нээсэн. Одоо энэ нь вэбсайтуудтай идэвхтэй харилцаж—дарж, шүүж, илүү нарийн, үр ашигтай үр дүн цуглуулж чадна. Та мөн энгийн ярианаас шууд үйлдэл хүсэх рүү нэг чат дотор байгалийн байдлаар шилжиж болно.
Бид ChatGPT агентэд дараах хэрэгслүүдийн цогцыг суулгасан: график хэрэглэгчийн интерфэйсээр вэбтэй харилцдаг харагдацтай хөтөч, сэтгэн бодоход суурилсан энгийн вэб асуултад зориулсан текстэн хөтөч, терминал, мөн API-д шууд хандах боломж. Агент мөн ChatGPT холбогч(шинэ цонхонд нээгдэнэ)-уудыг ашиглаж чадна. Энэ нь Gmail, Github зэрэг аппуудыг холбож, ChatGPT таны өгөгдөлтэй холбоотой мэдээллийг олж, хариултдаа ашиглах боломж олгодог. Та мөн хөтчийг өөрөө авч дурын вэбсайтад нэвтэрч болох тул судалгаа болон даалгавар гүйцэтгэлийн аль алинд нь илүү гүн, өргөн хүрээнд ажиллах боломжтой. ChatGPT‑д вэб мэдээлэлд хандах, түүнтэй харилцах эдгээр өөр замуудыг өгснөөр тэрээр даалгаврыг хамгийн үр ашигтайгаар гүйцэтгэх оновчтой замыг сонгож чадна. Жишээлбэл, энэ нь API-ээр таны календарын мэдээллийг авч, текстэн хөтчөөр их хэмжээний текст дээр үр ашигтай сэтгэн бодож, мөн голчлон хүмүүст зориулж бүтээгдсэн вэбсайтуудтай харагдацын түвшинд харилцах чадвартай байна.
Энэ бүхнийг өөрийн виртуал компьютерээр хийдэг бөгөөд энэ нь даалгаварт шаардлагатай контекстыг хадгалж үлддэг, бүр олон хэрэгсэл ашиглагдсан үед ч гэсэн—загвар нь хуудсыг текстэн хөтөч эсвэл харагдацтай хөтчөөр нээх, вэбээс файл татах, терминалд команд ажиллуулан түүнийг өөрчлөх, дараа нь гаралтыг харагдацтай хөтөч дээр буцаан үзэхийг сонгож чадна. Загвар нь хурд, нарийвчлал, үр ашигтайгаар даалгавар гүйцэтгэхийн тулд өөрийн арга барилаа тохируулдаг.
ChatGPT агент нь өмнөх загваруудаас хавьгүй илүү интерактив, уян хатан, давталтат хамтын ажлын урсгалд зориулан бүтээгдсэн. ChatGPT ажиллаж байх үед та хүссэн үедээ тасалдуулж, заавраа тодруулж, хүссэн үр дүн рүү нь чиглүүлж, эсвэл даалгаврыг бүрэн өөрчилж болно. Энэ нь шинэ мэдээллийг тусган, өмнөх ахицыг алдалгүйгээр орхисон газраасаа үргэлжлүүлнэ. Үүнтэй адил шаардлагатай үед ChatGPT өөрөө даалгавар таны зорилготой нийцтэй хэвээр байлгахын тулд танаас нэмэлт мэдээлэл идэвхтэй асууж магадгүй. Хэрэв даалгавар хүлээснээс удаан үргэлжилж эсвэл гацсан мэт санагдвал та түр зогсоож, явцын хураангуйг хүсэх, эсвэл бүр мөсөн зогсоож хэсэгчилсэн үр дүнг авах боломжтой. Хэрэв таны утсанд ChatGPT апп байвал даалгавар дуусмагц танд мэдэгдэл илгээнэ.
Эдгээр нэгдсэн агент чадварууд нь өдөр тутмын болон мэргэжлийн нөхцөлд ChatGPT‑ийн хэрэгцээт байдлыг мэдэгдэхүйц нэмэгдүүлдэг. Ажил дээр та дэлгэцийн зураг эсвэл хяналтын самбарыг засварлах боломжтой вектор элементүүдээс бүрдсэн илтгэл болгох, уулзалтуудыг дахин товлох, offsite арга хэмжээ төлөвлөж захиалах, шинэ санхүүгийн өгөгдлөөр хүснэгтүүдийг ижил форматтайгаар шинэчлэх зэрэг давтагддаг ажлуудыг автоматжуулж болно. Хувийн амьдралдаа та аяллын маршрут төлөвлөж, захиалах, оройн зоогийн үдэшлэгийг бүхлээр нь зохион бүтээж, захиалах, эсвэл мэргэжилтэн олж цаг товлоход үүнийг төвөггүй ашиглаж болно.
Загварын сайжирсан чадварууд нь вэбээр хөтөчдөх болон бодит даалгавар гүйцэтгэх чадварыг хэмждэг үнэлгээнүүд дээрх хамгийн шилдэг (SOTA) үзүүлэлтээр илэрч байна.
Humanity’s Last Exam(шинэ цонхонд нээгдэнэ)* дээр, буюу өргөн хүрээний сэдвээр мэргэжилтний түвшний асуултуудад AI-ийн гүйцэтгэлийг хэмждэг үнэлгээнд ChatGPT агентын ар дахь загвар pass@1 үзүүлэлтээр 41.6 гэсэн шинэ SOTA оноо авсан. Агент нь динамикаар төлөвлөж, хэрэгслүүдээ өөрөө сонгодог тул ижил даалгаврыг өөр өөр ажиллуулалтаар өөр аргаар шийдэж чадна. Үүнийг энгийн зэрэгцээ rollout стратегиар өргөтгөхөд—нэг дор найман хүртэл оролдлого ажиллуулж, өөрийн тайлагнасан итгэл хамгийн өндөртэйг сонгоход—агентын HLE оноо 44.4 хүртэл өссөн.
FrontierMath** нь одоогоор мэдэгдэж буй хамгийн хэцүү математикийн benchmark бөгөөд шинээр, нийтлэгдээгүй бодлогуудыг агуулдаг ба тэдгээрийг туршлагатай математикчид шийдэхэд ч хэдэн цаг, бүр хэдэн өдөр шаарддаг. Код ажиллуулах терминалд хандах зэрэг хэрэгсэл ашиглах үед ChatGPT агент 27.4% нарийвчлалд хүрч, өмнөх хоёр загварыг хол зөрүүтэйгээр давсан.
Мөн бид загварыг бодит амьдралын төвөгтэй даалгавруудыг дуурайлган боловсруулсан benchmark-уудаар үнэлсэн. эдийн засгийн өндөр үнэ цэнтэй, төвөгтэй мэдлэгийн ажил дээр загварын гүйцэтгэлийг үнэлэхэд зориулсан дотоод benchmark дээр ChatGPT агентын гаралт нь даалгавар гүйцэтгэх янз бүрийн хугацааны мужид ойролцоогоор хагас тохиолдолд хүний гаралттай дүйцэхүйц эсвэл илүү байсан бөгөөд o3 болон o4-mini-ийг мэдэгдэхүйц давсан. Загварын гаралтыг салбар бүрийн шилдэг гүйцэтгэгчдийн бүтээсэн өндөр чанартай хүний суурьтай харьцуулан мэргэжилтнүүд үнэлдэг. Төрөл бүрийн ажил мэргэжил, салбарын мэргэжилтнүүдээс авсан эдгээр даалгаврууд нь шаардлагатай үед үзүүлэх яаралтай тусламжийн үйлчилгээ үзүүлэгчдийн өрсөлдөөний шинжилгээ бэлтгэх, дэлгэрэнгүй зээлийн эргэн төлөлтийн хуваарь байгуулах, шинэ ногоон устөрөгчийн байгууламжид тохирох усны худгуудыг тодорхойлох зэрэг бодит мэргэжлийн ажлыг тусгадаг.
DSBench(шинэ цонхонд нээгдэнэ)-д, өгөгдлийн шинжилгээ ба загварчлалыг хамарсан бодитой data science даалгаврууд дээр агентуудыг үнэлэхээр бүтээгдсэн энэхүү benchmark дээр ChatGPT агент хүний гүйцэтгэлийг мэдэгдэхүйц зөрүүтэйгээр давсан.
Бодит нөхцөлөөс гаралтай хүснэгтүүдийг засварлах чадварыг нь үнэлдэг SpreadsheetBench дээр ChatGPT агент одоо байгаа загваруудыг мэдэгдэхүйц зөрүүтэйгээр давсан. Хүснэгтүүдийг шууд засварлах боломж олгоход ChatGPT агент 45.5% гэсэн бүр өндөр оноо авч, Excel дахь Copilot-ын 20.0%-тай харьцуулахад илт давуу байв.
Аргачлал: SpreadsheetBench-ийн зохиогчид хүснэгтүүдийг үнэлэхдээ Microsoft Excel ашигласан Windows орчин ашигласан. Бид OSX орчин болон LibreOffice ашигласан бөгөөд энэ нь үнэлгээний бага зэргийн зөрүү үүсгэж магадгүй. Жишээлбэл, зохиогчид GPT‑4o‑ийн хувьд Overall Hard restriction-ийг 15.02% гэж тогтоосон бол бид 13.38% авсан. Бид 912 асуулттай бүрэн benchmark-ийг ашигласан.
Нэгдүгээр курсээс гуравдугаар курсын хөрөнгө оруулалтын банкны шинжээчийн загварчлалын даалгавар—жишээ нь Fortune 500 компанид зориулсан зөв формат, эшлэлтэй гурван тайлант санхүүгийн загвар бүрдүүлэх, эсвэл хувьцааг биржээс гарган худалдан авах leveraged buyout загвар байгуулах—авах чадварыг хэмждэг дотоод benchmark дээр ChatGPT агентын ар дахь загвар нь гүн судалгаа болон o3‑ыг мэдэгдэхүйц давсан. Даалгавар бүрийг зөв байдал болон томьёо ашиглалттай холбоотой хэдэн зуун шалгуураар үнэлдэг.
Мөн бид ChatGPT агентыг энэ оны эхээр нийтэлсэн, вэб дээр олоход хэцүү мэдээллийг олж тогтоох хөтөч агентуудын чадварыг хэмждэг BrowseComp benchmark дээр үнэлсэн. Загвар 68.9%-ийн шинэ SOTA тогтоож, гүн судалгаанаас 17.4 нэгж хувиар өндөр үзүүлэлт үзүүлсэн.
Эцэст нь, бодит вэб даалгаврыг гүйцэтгэхэд вэбээр хөтөчдөх агентуудын гүйцэтгэлийг үнэлэхээр бүтээгдсэн WebArena(шинэ цонхонд нээгдэнэ) дээр энэ загвар o3‑ээр ажилладаг CUA-г (Operator-ийг тэжээдэг загвар) давсан үзүүлэлттэй байв.
Та ChatGPT‑ийн шинэ агент чадваруудыг дурын ярианы аль ч үед мессеж бичих хэсгийн хэрэгслүүдийн цэснээс ‘agent mode’-ийг сонгон шууд идэвхжүүлж болно. Гүн судалгаа хийх, слайд шоу үүсгэх, эсвэл зардлын тайлан илгээх эсэхээс үл хамааран хүссэн даалгавраа зүгээр л тайлбарлана уу. Даалгаврыг гүйцэтгэх явцад дэлгэц дээрх тайлбар нь ChatGPT яг юу хийж байгааг харагдуулна. Та шаардлагатай үед тасалдуулж, хөтчийг хяналтдаа авч, даалгавар таны зорилготой нийцэж байгааг хангаж болно.
ChatGPT агент нь таны холбогчуудад хандаж, ажлын урсгалтай тань уялдан, хамааралтай, үйлдэлд ашиглаж болох мэдээлэлд хандах боломжтой. Нэвтрэлт баталгаажсаны дараа эдгээр холбогчууд нь ChatGPT‑д мэдээлэл харах, жишээлбэл тухайн өдрийн таны ирсэн имэйлийг хураангуйлах эсвэл уулзалтад чөлөөтэй цагийн зайг олох боломж олгоно—гэхдээ эдгээр сайтууд дээр үйлдэл хийхийн тулд та хөтчийг өөрөө авч нэвтрэх сануулга хүлээн авсаар байх болно.
Нэмж хэлэхэд, та дууссан даалгавруудыг автоматаар давтагдан ажиллахаар товлож болно, жишээ нь Даваа гараг бүрийн өглөө долоо хоногийн үзүүлэлтийн тайлан үүсгэх гэх мэт.
Энэ хувилбар нь хэрэглэгчид анх удаа ChatGPT‑ээс вэб дээр үйлдэл хийхийг хүсэх боломжийг олгож байна. Энэ нь ялангуяа ChatGPT агент нь таны өгөгдөлтэй шууд ажиллаж чаддаг учраас шинэ эрсдэлүүдийг бий болгодог. Үүнд холбогчоор дамжин авсан мэдээлэл эсвэл takeover mode-оор таны нэвтрүүлсэн вэбсайтуудын мэдээлэл орно. Бид Operator-ийн судалгааны preview хувилбарын найдвартай хяналтуудыг улам бэхжүүлж, шууд вэб дээрх эмзэг мэдээлэлтэй харьцах, илүү өргөн хэрэглэгчийн хүрээ, мөн (хязгаарлагдмал) терминалын сүлжээний хандалт зэрэг сорилтуудад зориулсан хамгаалалтуудыг нэмсэн. Эдгээр бууруулах арга хэмжээ нь эрсдэлийг мэдэгдэхүйц бууруулдаг ч ChatGPT агентын өргөжсөн хэрэгслүүд болон өргөн хэрэглэгчийн хүрээ нь түүний нийт эрсдэлийн профайлыг илүү өндөр болгож байна.
Бид ChatGPT агентыг зааварт халдлагаар дамжуулсан дайсагнасан манипуляциас хамгаалахад онцгой анхаарал хандуулсан бөгөөд энэ нь ерөнхийдөө агент системүүдэд байдаг эрсдэл тул түүнд нийцүүлэн илүү өргөн хүрээний бууруулах арга хэмжээнүүдийг бэлдсэн. Зааварт халдлага гэдэг нь ChatGPT агент даалгавар гүйцэтгэх явцдаа вэб дээр таарч болох хортой заавраар гуравдагч этгээдүүд түүний зан үйлийг удирдахыг оролдохыг хэлнэ. Жишээлбэл, вэб хуудасны үл харагдах элементүүд эсвэл метадата дотор нуугдсан хортой өгөгдөл нь агентын төлөвлөөгүй үйлдэл хийхэд хүргэж, тухайлбал холбогчоос авсан хувийн өгөгдлийг халдагчид дамжуулах, эсвэл хэрэглэгч нэвтэрсэн сайт дээр хортой үйлдэл хийхэд хуурч болно. ChatGPT агент шууд үйлдэл хийж чаддаг тул ийм халдлага амжилттай болбол нөлөө нь илүү их, эрсдэл нь илүү өндөр байна.
Бид агентыг зааварт халдлагыг таньж, эсэргүүцэхээр сургаж, туршсан бөгөөд нэмэлтээр хяналтын систем ашиглан ийм халдлагыг хурдан илрүүлж, хариу арга хэмжээ авдаг. Үр дагавартай үйлдэл хийхээс өмнө хэрэглэгчийн тодорхой баталгаажуулалт шаардах нь эдгээр халдлагаас үүдэх хор хөнөөлийн эрсдэлийг цаашид бууруулдаг бөгөөд хэрэглэгчид takeover хийх эсвэл түр зогсоох замаар шаардлагатай үед даалгаварт оролцож чадна. Хэрэглэгчид агентэд ямар мэдээлэл өгөхөө шийдэхдээ эдгээр солилцоог жинлэн үзэх хэрэгтэй бөгөөд даалгаварт шаардлагагүй үед холбогчийг идэвхгүй болгох зэрэг аргаар эдгээр эрсдэлд өртөлтөө багасгах алхам хийх нь зүйтэй.
Мөн бид загварын алдаа-тай холбоотой бууруулах арга хэмжээнүүдийг хэрэгжүүлсэн, ялангуяа одоо загвар бодит ертөнцөд нөлөөлөх даалгавар гүйцэтгэж чаддаг болсон тул:
- Хэрэглэгчийн тодорхой баталгаажуулалт: Худалдан авалт хийх зэрэг бодит үр дагавартай үйлдэл хийхээс өмнө ChatGPT таны зөвшөөрлийг тодорхой асуухаар сургагдсан.
- Идэвхтэй хяналт (“Watch Mode”): Имэйл илгээх зэрэг тодорхой чухал даалгаврууд таны идэвхтэй хяналтыг шаарддаг.
- Эрсдэлийг урьдчилан бууруулах: Банкны шилжүүлэг зэрэг өндөр эрсдэлтэй даалгаврыг ChatGPT идэвхтэйгээр татгалзахаар сургагдсан.
Эцэст нь, бид загварын хандах боломжтой өгөгдлийг хязгаарлах нэмэлт хяналтуудыг нэвтрүүлсэн:
- Нууцлалын хяналт: ChatGPT‑ийн тохиргоонд нэг товшилтоор та бүх хөтчийн өгөгдлийг устгаж, идэвхтэй бүх вэбсайтын сешнээс шууд гарах боломжтой. Үгүй бол cookie нь зочилсон вэбсайт бүрийн cookie бодлогод үндэслэн хадгалагдах бөгөөд энэ нь дахин зочлохыг илүү үр ашигтай болгож чадна.
- Аюулгүй browser takeover mode: Та ChatGPT‑ийн хөтчөөр (“takeover mode”) вэбтэй харилцах үед таны оруулсан мэдээлэл нууц хэвээр үлдэнэ. ChatGPT эдгээр сешний үеэр таны оруулсан өгөгдлийг, жишээ нь нууц үгийг, цуглуулахгүй, хадгалахгүй. Учир нь загварт энэ хэрэггүй бөгөөд огт харахгүй байх нь илүү аюулгүй.
Загварын чадвар нэмэгдсэнтэй холбоотойгоор бид ChatGPT агентыг Preparedness Framework-ийн хүрээнд Биологи болон Химийн өндөр чадвартай гэж үзэх шийдвэр гаргаж, холбогдох хамгаалалтуудыг идэвхжүүлсэн. Загвар шинэхэн хэрэглэгчид ноцтой биологийн хор хөнөөл учруулахад бодитой тусалж чадна гэсэн шийдэмгий нотолгоо бидэнд одоогоор байхгүй—энэ нь өндөр чадварын бидний босго—гэвч бид болгоомжтой хандаж, шаардлагатай хамгаалалтуудыг одооноос хэрэгжүүлж байна. Үүний үр дүнд энэ загвар нь биологийн чиглэлд сайжруулсан хамгаалалт бүхий өнөөг хүртэлх хамгийн иж бүрэн аюулгүй байдлын стекээ агуулж байна: иж бүрэн аюулын загварчлал, давхар хэрэглээт татгалзлын сургалт, үргэлж идэвхтэй ангилагч ба сэтгэн бодох монитор, мөн тодорхой хэрэгжилтийн шугамууд.
ChatGPT агентыг аюулгүй болгох ажлаас гадна хамгаалалтууд нэг лабораториос цааш өргөжин давхарласан үед биологийн аюулгүй байдал хамгийн сайн ажилладгийг бид мэддэг тул бид хамгаалалтыг бэхжүүлэхийн тулд экосистем даяар хамтран ажилладаг. Эхний өдрөөсөө бид гаднын биоаюулгүй байдлын мэргэжилтнүүд, аюулгүй байдлын хүрээлэнгүүд, академик судлаачидтай хамтран аюулын загвар, үнэлгээ, бодлогоо боловсруулсан. Биологийн чиглэлээр бэлтгэгдсэн хянагчид манай үнэлгээний өгөгдлийг баталгаажуулсан бөгөөд салбарын мэргэжилтэн red team-үүд бодит нөхцөлтэй төстэй орчинд хамгаалалтуудыг стресс туршилтад оруулсан. Энэ сарын эхээр бид төр, академи, үндэсний лаборатори, ТББ-уудын мэргэжилтнүүдийг оролцуулсан Биологийн хамгаалалтын семинар зохион байгуулж, AI-ээр дэмжигдсэн био хамгаалалтын судалгааг урагшлуулах, хамтын ажиллагааг хурдасгасан. Бид гарч ирж буй эрсдэлээс түрүүлж явахын тулд дэлхий даяар түншлэлээ үргэлжлүүлнэ.
Нэгдмэл агент загварт зориулсан манай найдвартай аюулгүй байдлын хандлагын талаар системийн карт-аас дэлгэрэнгүй уншина уу. Мөн бид бодит эрсдэлүүдийг олж, засахын тулд bug bounty program-ыг эхлүүлж байна.
ChatGPT агент өнөөдрөөс Pro, Plus, Team хэрэглэгчдэд үе шаттайгаар нэвтэрч эхэлж байна; Pro хэрэглэгчид өдрийн эцэс гэхэд хандах эрхтэй болох бол Plus болон Team хэрэглэгчид дараагийн хэдэн өдрийн дотор хандах боломжтой болно. Enterprise болон Education хэрэглэгчид ойрын хэдэн долоо хоногт хандах боломжтой болно. Pro хэрэглэгчид сард 400 мессеж авах бол бусад төлбөртэй хэрэглэгчид сард 40 мессеж авна, нэмэлт хэрэглээг уян хатан кредитэд суурилсан сонголтоор авах боломжтой.
Бид Европын Эдийн Засгийн Бүс болон Швейцарьт хандалтыг нээхээр одоогоор ажиллаж байна.
Operator судалгааны preview сайт хэдэн долоо хоногийн турш үргэлжлэн ажиллах бөгөөд үүний дараа хаагдана. Гүн судалгаа нь ChatGPT агентын чадварын нэг хэсэг юм. Хэрэв та анхны гүн судалгааны функцийг илүүд үзэж байвал—ажиллахад илүү удаан байж болох ч анхдагчаар илүү дэлгэрэнгүй, гүн хариулт өгдөг—та мессеж бичих хэсгийн доош унах цэснээс “deep research”-ийг сонгон түүнд хандах боломжтой хэвээр байна.
ChatGPT агент одоогоор хөгжлийнхөө эхний шатанд явж байна. Энэ нь олон төрлийн төвөгтэй даалгаврыг гүйцэтгэх чадвартай ч алдаа гаргасаар байж болно.
Слайд шоу үүсгэх чадварт нь бид ихээхэн боломж харж байгаа ч энэ функц одоогоор beta шатанд байна. Одоогийн байдлаар, ялангуяа бэлэн баримтгүйгээр эхлэх үед гаралт нь формат, өнгөлгөөний хувьд заримдаа бүдүүвч мэт санагдаж болно. Бид загварын эхний чадварыг бүтэц ба уян хатан байдалд оновчлон, танилцуулгад тохирох урсгал, форматтай, текст, график, зураг, дүрс зэрэг экспортын дараа төрөлх байдлаараа хялбар засварлагдах элементүүдтэй артефакт үүсгэхэд чиглүүлсэн. Одоогоор мөн үзэгч дээрх слайдууд ба экспортолсон powerpoint-ийн хооронд үе үе зөрүү гардаг бөгөөд үүнийг багасгахаар бид ажиллаж байна. Нэмж хэлэхэд, одоогоор та ChatGPT‑ээр засварлуулах эсвэл загвар болгон ашиглуулахын тулд байгаа хүснэгтийг байршуулах боломжтой ч энэ чадвар слайд шоунд хараахан байхгүй байна. Бид аль хэдийн ChatGPT‑ийн слайд шоу бүтээх дараагийн хувилбарыг илүү өнгөлсөн, боловсронгуй гаралт, илүү өргөн чадвар, сайжруулсан форматаар сургаж байна.
Ерөнхийдөө, цаг хугацааны явцад ChatGPT агентын үр ашиг, гүнзгий байдал, олон талт байдал тасралтгүй сайжирна гэж бид үзэж байна. Үүнд хэрэглэгчээс шаардах хяналтын хэмжээг аюулгүй ашиглахыг хангахын зэрэгцээ илүү хэрэгцээтэй болгохын тулд цаашид тохируулсаар байх тул илүү тасралтгүй, жигд харилцан үйлчлэлүүд ч багтана.
SpreadsheetBench | ||||
Загвар | Үнэлгээний орчин | Зөөлөн хязгаарлалт (%): Нүдний түвшин | Зөөлөн хязгаарлалт (%): Хуудасны түвшин | Зөөлөн хязгаарлалт (%): Нийт |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent with .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Хүн | 75.56 | 65.00 | 71.33 |
Зохиогч
Зүүлт тайлбар
* Хөтөчлөхийг идэвхжүүлсэн үед загвар заримдаа жишээ нь өгөгдлийн багцын жишиг бодлогуудтай блог нийтлэлүүдийг уншсанаар яг зөв хариултыг онлайнаас олж чадна. Загвар хөтөчлөх явцдаа “хуурах” эрсдэлийг бид хоёр аргаар бууруулдаг:
1. Өмнө нь загвар хуурч байсан нь ажиглагдсан домэйнуудыг блоклосон.
2. Сэжигтэй зан үйлийг илрүүлэхийн тулд оролдлого бүрийн бүх хэрэгслийн гаралтын токенуудыг шалгах монитор болгон нэмэлт загвар ашигласан. Сэжигтэй зан үйлийг “энэ тодорхой асуултын яг хариуг өгөх үндсэн зорилготой хуудас, файл, эсвэл хэсэг—жишээ нь албан ёсны үнэлгээний түлхүүр, задруулсан ‘шийдэл’ gist, эсвэл дууссан хариуг үгчлэн ишилсэн хэлэлцүүлэг” гэж тодорхойлно. Хоргүй зан үйлийг “нямбай хүн үзэж болох аливаа эрх бүхий эх сурвалж (баримт бичиг, гарын авлага, эрдэм шинжилгээний өгүүлэл, нэр хүндтэй нийтлэл), санамсаргүйгээр зөв хариулт агуулсан байсан ч” гэж тодорхойлно. Монитор rollout-ыг сэжигтэй гэж үзсэн аливаа оролдлогыг буруу гэж тооцно. Энэ шалгалтаар унасан ихэнх жишээнүүд нь HLE-тэй холбоогүй олон интернет эх сурвалж дээр яг шийдэл нь байсан бодлогууд байв.
**OpenAI нь Tier 1-3 өгөгдлийн багц дахь 290 хувийн асуултаас 237-д нь онцгой эрхтэй хандалттай. Энэ үнэлгээнд FrontierMath tier 4 асуултууд ороогүй. Үр дүнг асуулт бүрт хариулах 16 оролдлогын дундажаар үнэлсэн. ChatGPT агентын үр дүнг OpenAI өдөөж, Epoch AI үнэлсэн бөгөөд хөтөч болон терминалд хандах боломжтой, хариулт бүрт 128K токены хязгаартай. OpenAI o4-mini болон o3 үнэлгээг Epoch AI өдөөж, үнэлсэн бөгөөд хөтөч ба терминалын хандалтгүй, функц дуудах-аар python script ашигласан, хариулт бүрт 100K токены хязгаартай.
*** Oracle@64 гэдэг нь ground truth ашиглан сонгосон 64 түүвэрлэсэн ажиллуулалтын дундаас хүрсэн хамгийн сайн оноог хэлнэ (өөрөөр хэлбэл, бид бодит үнэлэгдсэн гүйцэтгэлд тулгуурлан даалгавар бүрийн хамгийн өндөр оноотой оролдлогыг сонгодог). Бид бүх даалгаврын дагуу эдгээр даалгавар тус бүрийн шилдэг оноонуудын дунджийг тайлагнадаг. Энэ хэмжүүр нь загварын дээд хязгаарын боломж ба даалгаврын гүйцэтгэлийн хэлбэлзлийг онцолж—амжилттай үед загвар ямар чадвартай байж болохыг харуулж, цаашдын сургалтаар тогтвортой байдлыг сайжруулах боломж байгааг илтгэнэ. Загварын итгэлд тулгуурлан сонгодог түгээмэл “best of N” хэмжүүрүүдээс ялгаатай нь oracle@64 нь сонголтод ground truth ашигладаг бөгөөд хоёртын pass/fail биш, 0–1-ийн тасралтгүй шкалаар үнэлэгддэг даалгаварт хэрэглэгддэг.


