Біз GPT‑4‑ті жасадық — бұл OpenAI-дің терең оқытуды масштабтау бағытындағы жұмысының ең жаңа белесі. GPT‑4 — үлкен мультимодальды модель (кескін және мәтін кірістерін қабылдап, мәтін шығыстарын береді); ол көптеген шынайы жағдайларда адамдардан әлсіздеу болса да, түрлі кәсіби және академиялық бенчмарктарда адам деңгейіндегі нәтижелер көрсетеді. Мысалы, ол модельденген адвокаттық емтиханды тапсырушылардың шамамен жоғарғы 10%-ына сәйкес нәтижемен тапсырады; ал GPT‑3.5 нәтижесі шамамен төменгі 10% деңгейінде болды. Біз 6 ай бойы қарсыластық тестілеу бағдарламамыздан және ChatGPT‑тен алынған сабақтарды пайдаланып GPT‑4‑ті итеративті түрде сәйкестендірдік, соның нәтижесінде фактілік, басқарылғыштық және қоршау шектерінен шықпау бойынша бүгінгі ең жақсы нәтижелерімізге жеттік (бірақ әлі мінсіз емес).
Соңғы екі жылда біз бүкіл терең оқыту стегімізді қайта құрдық және Azure-пен бірге жүктемемізге арнап суперкомпьютерді нөлден бастап бірлесіп жобаладық. Бір жыл бұрын жүйенің алғашқы «сынақ жүгіртімі» ретінде GPT‑3.5‑ті үйреттік. Кейбір қателерді тауып түзеттік және теориялық негіздерімізді жақсарттық. Соның нәтижесінде GPT‑4 үйрету жүгіртімі біз үшін бұрын-соңды болмағандай тұрақты болды және үйрету өнімділігін алдын ала дәл болжай алған алғашқы үлкен моделімізге айналды. Сенімді масштабтауға назар аудара отырып, болашақ қабілеттерді барған сайын ертерек болжауға және оларға дайындалуға көмектесетін әдістемемізді жетілдіруді көздейміз—біз мұны қауіпсіздік үшін аса маңызды деп санаймыз.
Біз GPT‑4‑тің мәтіндік кіріс қабілетін ChatGPT және API арқылы (бір күту тізімімен) ұсынамыз. Кескіндік кіріс қабілетін кеңірек қолжетімді етуге дайындау үшін, бастапқы кезеңде бір серіктеспен(жаңа терезеде ашылады) тығыз жұмыс істеп жатырмыз. Сондай-ақ AI модельдері өнімділігін автоматты бағалауға арналған қаңқамыз OpenAI Evals(жаңа терезеде ашылады)-ті ашық кодты етіп отырмыз, осылайша кез келген адам әрі қарайғы жақсартуларға бағыт беру үшін модельдеріміздің кемшіліктерін хабарлай алады.
Кәдімгі әңгімеде GPT‑3.5 пен GPT‑4 арасындағы айырмашылық тым нәзік болуы мүмкін. Айырма тапсырманың күрделілігі жеткілікті шекке жеткенде байқалады—GPT‑4 сенімдірек, креативтірек және GPT‑3.5‑ке қарағанда әлдеқайда нәзік нұсқауларды орындай алады.
Екі модельдің айырмасын түсіну үшін біз оларды әртүрлі бенчмарктарда сынадық, соның ішінде бастапқыда адамдарға арналған емтихандарды модельдеуді де қамтыдық. Бұл үшін біз ең соңғы көпшілікке қолжетімді тесттерді (олимпиадалар мен AP еркін жауап сұрақтары жағдайында) пайдаландық немесе 2022–2023 жылдардағы жаттығу емтихандарының басылымдарын сатып алдық. Біз бұл емтихандар үшін арнайы үйрету жүргізген жоқпыз. Емтихандардағы тапсырмалардың аз бөлігі модельге үйрету кезінде таныс болған, бірақ нәтижелерді репрезентативті деп санаймыз—толығырақ мәліметті техникалық есебімізден(жаңа терезеде ашылады) қараңыз.
ішкі сілтеме 1
Біз GPT‑4‑ті машинамен оқыту модельдеріне арналған дәстүрлі бенчмарктарда да бағаладық. GPT‑4 бар үлкен тілдік модельдерден, сондай-ақ бенчмаркке арнайы бейімдеу не қосымша үйрету хаттамаларын қамтуы мүмкін ең озық (SOTA) модельдердің көбінен айтарлықтай озық:
Қолданыстағы ML бенчмарктарының көбі ағылшын тілінде жазылған. Басқа тілдердегі қабілеттер туралы бастапқы түсінік алу үшін біз MMLU бенчмаркін—57 пәнді қамтитын 14 000 көп таңдаулы тапсырмалар жинағын—Azure Translate көмегімен әртүрлі тілдерге аудардық (қараңыз: Қосымша). Сыналған 26 тілдің 24-інде GPT‑4 GPT‑3.5 пен басқа LLM модельдерінің (Chinchilla, PaLM) ағылшын тіліндегі нәтижелерінен асып түседі, соның ішінде латыш, уэльс және суахили сияқты ресурсы аз тілдерде де:
Біз GPT‑4‑ті қолдау, сату, контентті модерациялау және бағдарламалау сияқты функцияларда елеулі әсермен ішкі түрде де қолданып келеміз. Сондай-ақ оны AI шығыстарын бағалауда адамдарға көмектесу үшін пайдаланамыз, осылайша alignment стратегиямыздың екінші кезеңін бастап отырмыз.
GPT‑4 мәтін мен кескіндерден тұратын көмексөзді қабылдай алады, бұл — тек мәтіндік режимдегідей — пайдаланушыға кез келген көру не тіл тапсырмасын белгілеуге мүмкіндік береді. Нақтырақ айтқанда, ол мәтін мен кескіндер аралас берілген кірістерге жауап ретінде мәтіндік шығыстарды (табиғи тіл, код және т.б.) шығарады. Мәтін мен фотосуреттері бар құжаттарды, диаграммаларды немесе скриншоттарды қоса алғанда, әртүрлі домендерде GPT‑4 тек мәтіндік кірістердегімен ұқсас қабілеттер көрсетеді. Бұдан бөлек, оны тек мәтіндік тіл модельдері үшін әзірленген тест уақытындағы тәсілдермен күшейтуге болады, соның ішінде few-shot және ойлау тізбегі(жаңа терезеде ашылады) көмексөздері арқылы. Кескін кірістері әзірге зерттеу preview кезеңінде және көпшілікке қолжетімді емес.
Біз GPT‑4 өнімділігін стандартты академиялық көру бенчмарктарының тар жиынтығында бағалау арқылы алдын ала көрсетеміз. Алайда бұл сандар оның қабілеттерінің толық ауқымын көрсетпейді, өйткені модель шеше алатын жаңа әрі қызықты тапсырмаларды үнемі ашып келеміз. Жақын арада қосымша талдаулар мен бағалау сандарын, сондай-ақ тест уақытындағы тәсілдердің әсерін жан-жақты зерттеуді жариялауды жоспарлап отырмыз.
ішкі ескертпеA
Біз AI жүйелерінің мінез-құлқын айқындау туралы жазбамызда көрсетілген жоспардың әр қырымен, соның ішінде басқарылғыштықпен де жұмыс істеп келеміз. Тұрақты көпсөзділік, тон және стильге ие классикалық ChatGPT тұлғасының орнына, енді әзірлеушілер (жақында ChatGPT пайдаланушылары да) «system» хабарламасында сол бағыттарды сипаттау арқылы өз AI жүйесінің стилі мен тапсырмасын белгілей алады. System хабарламалары API пайдаланушыларына өз пайдаланушыларының тәжірибесін шектеулер аясында(жаңа терезеде ашылады) едәуір теңшеуге мүмкіндік береді. Біз бұл бағытта жақсартуларды жалғастырамыз (әсіресе system хабарламалары қазіргі модельді «jailbreak» жасаудың ең оңай жолы екенін білеміз, яғни шектеулерді сақтау мінсіз емес), бірақ сізді мұны қолданып көріп, не ойлайтыныңызды айтуға шақырамыз.
Қабілеттеріне қарамастан, GPT‑4‑те бұрынғы GPT модельдеріндегідей шектеулер бар. Ең бастысы, ол әлі толық сенімді емес («галлюцинациялап» фактілерді ойдан шығарады және ой қорыту қателерін жібереді). Тілдік модель шығыстарын қолданғанда, әсіресе салдары жоғары контексттерде, аса мұқият болу керек; нақты хаттама (мысалы, адам шолуы, қосымша контекст арқылы негіздеу немесе мұндай қолданулардан мүлде бас тарту) нақты қолдану жағдайының қажеттіліктеріне сай болуы тиіс.
Бұл әлі де нақты мәселе болғанымен, GPT‑4 алдыңғы модельдермен салыстырғанда галлюцинацияларды айтарлықтай азайтады (олардың өздері де әр итерация сайын жақсарып келеді). GPT‑4 ішкі қарсыластық фактілік бағалауларымызда ең соңғы GPT‑3.5 моделімізден 40% жоғары ұпай жинайды:
Біз TruthfulQA сияқты сыртқы бенчмарктарда да ілгеріледік; ол модельдің фактіні қасақана таңдалған қате мәлімдемелер жиынтығынан ажырату қабілетін тексереді. Бұл сұрақтар статистикалық тұрғыдан тартымды, бірақ фактілік тұрғыдан қате жауаптармен жұптастырылған.
GPT‑4‑тің бастапқы моделі бұл тапсырмада GPT‑3.5‑тен сәл ғана жақсы; алайда RLHF post-training-інен кейін (GPT‑3.5‑пен қолданған сол үдерісті пайдаланып) айырмашылық айтарлықтай өседі. Төмендегі кейбір мысалдарды қарасақ, GPT‑4 кең таралған мақал-мәтелдерді таңдауға қарсы тұрады (кәрі итке жаңа айла үйрете алмайсың), бірақ бәрібір нәзік бөлшектерді жіберіп алуы мүмкін (Elvis Presley актердің ұлы болмаған).
Модельдің шығыстарында әртүрлі бұрмалаулар болуы мүмкін—бұл бағытта ілгеріледік, бірақ әлі де жасалатын жұмыс бар. Жуырдағы блог жазбамызға сәйкес, біз құратын AI жүйелерінің әдепкі мінез-құлқы пайдаланушылар құндылықтарының кең ауқымын ақылға қонымды түрде көрсетуін, бұл жүйелердің кең шектер аясында теңшелуін және сол шектер қандай болуы керектігі туралы қоғам пікірінің ескерілуін мақсат етеміз.
GPT‑4 деректерінің басым көпшілігі тоқтайтын уақыттан (2021 жылғы қыркүйек) кейін болған оқиғалар туралы, әдетте, білімге ие емес және өз тәжірибесінен үйренбейді. Кейде ол соншама көп саладағы құзыретіне сай келмейтіндей қарапайым ой қорыту қателерін жібере алады немесе пайдаланушының анық жалған мәлімдемелерін тым оңай қабылдауы мүмкін. Кейде адамдар сияқты күрделі мәселелерде қателеседі, мысалы өзі шығарған кодқа қауіпсіздік осалдықтарын енгізуі мүмкін.
GPT‑4 болжамдарында өзіне сенімді түрде қате де болуы мүмкін, яғни қателесу ықтималдығы жоғары кезде жұмысын қайта тексеруге ұқыптылық танытпайды. Қызығы, бастапқы алдын ала үйретілген модель жоғары дәрежеде калибрленген (оның жауапқа деген болжанған сенімділігі, әдетте, оның дұрыс болу ықтималдығына сәйкес келеді). Алайда қазіргі post-training үдерісіміз арқылы бұл калибрлеу төмендейді.
Біз GPT‑4‑ті үйретудің басынан-ақ қауіпсізірек және жақсырақ сәйкестендірілген ету үшін оны итеративті түрде жетілдіріп келеміз; бұл жұмысқа алдын ала үйрету деректерін іріктеу мен сүзгілеу, бағалаулар мен сарапшыларды тарту, модель қауіпсіздігін жақсарту, сондай-ақ мониторинг пен қадағалау кіреді.
GPT‑4 бұрынғы модельдердегідей тәуекелдер тудырады, мысалы зиянды кеңес, қате код немесе нақтылығы төмен ақпарат шығару. Алайда GPT‑4‑тің қосымша қабілеттері жаңа тәуекел беттерін туғызады. Бұл тәуекелдердің ауқымын түсіну үшін біз AI alignment тәуекелдері, киберқауіпсіздік, биологиялық тәуекел, trust and safety және халықаралық қауіпсіздік сияқты салалардан 50-ден астам сарапшыны модельді қарсыластық түрде сынауға тарттық. Олардың қорытындылары бізге бағалау үшін арнайы білімді қажет ететін жоғары тәуекел аймақтарындағы модель мінез-құлқын сынауға нақты мүмкіндік берді. Бұл сарапшылардың пікірі мен деректері модельге арналған жұмсарту шаралары мен жақсартуларымызға енді; мысалы, GPT‑4‑тің қауіпті химиялық заттарды синтездеу туралы сұраулардан бас тарту қабілетін жақсарту үшін қосымша деректер жинадық.
GPT‑4 зиянды шығыстарды (біздің пайдалану нұсқаулықтарымызда(жаңа терезеде ашылады) анықталғандай) азайту үшін RLHF үйретуінде қосымша қауіпсіздік марапат сигналын қамтиды; бұл модельді мұндай контентке сұраулардан бас тартуға үйрету арқылы іске асады. Марапат қауіпсіздікке қатысты көмексөздер бойынша қауіпсіздік шектері мен completion стилін бағалайтын GPT‑4 мысалсыз классификаторы арқылы беріледі. Модель жарамды сұраулардан бас тартып қоймауы үшін, біз әртүрлі көздерден (мысалы, таңбаланған production деректері, адам red-teaming, модель жасаған көмексөздер) әртүрлі деректер жинаймыз және қауіпсіздік марапат сигналын (оң не теріс мәнмен) рұқсат етілген де, тыйым салынған да санаттарға қолданамыз.
Жұмсарту шараларымыз GPT‑3.5‑пен салыстырғанда GPT‑4‑тің көптеген қауіпсіздік қасиеттерін едәуір жақсартты. Біз GPT‑3.5‑пен салыстырғанда модельдің тыйым салынған контентке сұрауларға жауап беру бейімділігін 82%-ға азайттық, ал GPT‑4 сезімтал сұрауларға (мысалы, медициналық кеңес және өзіне зиян келтіру) саясаттарымызға сәйкес 29%-ға жиірек жауап береді.
Жалпы алғанда, модель деңгейіндегі араласуларымыз зиянды мінез-құлықты туындатуды қиындатады, бірақ мұны істеу әлі де мүмкін. Оған қоса, біздің пайдалану нұсқаулықтарымызды бұзатын контентті жасауға мүмкіндік беретін «jailbreak» тәсілдері әлі де бар. AI жүйелерінің «токенге шаққандағы тәуекелі» артқан сайын, бұл араласуларда аса жоғары сенімділік деңгейіне жету шешуші мәнге ие болады; әзірге бұл шектеулерді теріс пайдалануды бақылау сияқты енгізу кезіндегі қауіпсіздік тәсілдерімен толықтыру маңызды.
GPT‑4 және одан кейінгі модельдер қоғамға пайдалы да, зиянды да түрде елеулі ықпал ете алады. Біз ықтимал әсерлерді қалай түсініп, бағалайтынымызды жақсарту, сондай-ақ болашақ жүйелерде пайда болуы мүмкін қауіпті қабілеттерге арналған бағалаулар құру үшін сыртқы зерттеушілермен бірлесіп жұмыс істеп жатырмыз. Жақында GPT‑4 пен өзге де AI жүйелерінің ықтимал әлеуметтік және экономикалық әсерлері туралы ойларымызбен толығырақ бөлісеміз.
Бұрынғы GPT модельдері сияқты, GPT‑4‑тің бастапқы моделі құжаттағы келесі сөзді болжауға үйретілді және көпшілікке қолжетімді деректерді (мысалы, интернет деректері), сондай-ақ лицензияланған деректерімізді пайдаланып үйретілді. Деректер — веб ауқымындағы корпус; оған математика есептерінің дұрыс және қате шешімдері, әлсіз және күшті ой қорыту, өзіне қайшы және бірізді мәлімдемелер, сондай-ақ сан алуан идеологиялар мен идеялар кіреді.
Сондықтан сұрақ берілгенде, бастапқы модель пайдаланушы ниетінен алшақ болуы мүмкін өте алуан түрде жауап бере алады. Оны қоршау шектері аясында пайдаланушы ниетіне сәйкестендіру үшін біз модель мінез-құлқын адам кері байланысына негізделген күшейтпелі оқыту (RLHF) арқылы жұқа баптаймыз.
Модель қабілеттері негізінен алдын ала үйрету үдерісінен туындайтынын ескеріңіз—RLHF емтихан нәтижесін жақсартпайды (белсенді күш салынбаса, тіпті нашарлатады). Ал модельді бағыттау post-training үдерісінен келеді—сұрақтарға жауап беру керектігін түсіну үшін де бастапқы модельге көмексөз инженериясы қажет.
GPT‑4 жобасының негізгі назарларының бірі болжамды масштабталатын терең оқыту стегін құру болды. Басты себеп — GPT‑4 сияқты өте үлкен үйрету жүгіртімдері үшін модельге арнайы кең ауқымды баптау жүргізу іс жүзінде мүмкін емес. Біз бірнеше ауқымда мінез-құлқы өте болжамды болатын инфрақұрылым мен оңтайландыруды әзірледік. Осы масштабталуды тексеру үшін, дәл сол әдістемемен, бірақ 10 000 есе аз есептеумен үйретілген модельдерден экстраполяция жасау арқылы, ішкі код базамыздағы (үйрету жиынына кірмейтін) GPT‑4‑тің соңғы loss мәнін алдын ала дәл болжадық:
Енді үйрету барысында оңтайландыратын метриканы (loss) дәл болжай алатын болғандықтан, түсіндіруге ыңғайлырақ метрикаларды болжау әдістемесін әзірлей бастадық. Мысалы, біз HumanEval(жаңа терезеде ашылады) деректер жиынының бір ішкі жиынындағы өту үлесін сәтті болжадық, мұнда 1 000 есе аз есептеу пайдаланған модельдерден экстраполяция жасадық:
Кейбір қабілеттерді болжау әлі де қиын. Мысалы, Inverse Scaling Prize модельге жұмсалатын есептеу артқан сайын нашарлайтын метриканы табуға арналған байқау болды, ал hindsight neglect(жаңа терезеде ашылады) жеңімпаздардың бірі болды. Жақындағы басқа бір нәтижедегідей,(жаңа терезеде ашылады) GPT‑4 бұл үрдісті кері бұрады:
Болашақтағы машинамен оқыту қабілеттерін дәл болжау қауіпсіздіктің маңызды бөлігі деп санаймыз, бірақ оған ықтимал әсерімен салыстырғанда жеткілікті назар аударылмайды (дегенмен бірнеше мекемедегі күш-жігер бізді жігерлендірді). Біз қоғамға болашақ жүйелерден не күтуге болатыны жөнінде жақсырақ бағдар беретін әдістерді әзірлеу жұмысын кеңейтіп жатырмыз және бұл саладағы ортақ мақсатқа айналады деп үміттенеміз.
Біз OpenAI Evals(жаңа терезеде ашылады) жобасын ашық кодты етеміз. Бұл — GPT‑4 сияқты модельдерді бағалауға арналған бенчмарктарды жасау және іске қосу, сонымен бірге олардың өнімділігін үлгі бойынша тексеру үшін арналған бағдарламалық қаңқамыз. Біз Evals-ті модельдерімізді дамытуға бағыт беру үшін қолданамыз (кемшіліктерді анықтау да, регрессиялардың алдын алу да), ал пайдаланушыларымыз оны модель нұсқалары арасындағы өнімділікті қадағалау үшін (енді олар тұрақты түрде шығып тұрады) және өнім интеграцияларының эволюциясын бақылау үшін пайдалана алады. Мысалы, Stripe Evals-ті GPT негізіндегі құжаттама құралының дәлдігін өлшеу үшін адам бағалауларын толықтыруға қолданды.
Код толық ашық болғандықтан, Evals арнайы бағалау логикасын(жаңа терезеде ашылады) іске асыратын жаңа кластарды жазуды қолдайды. Алайда біздің тәжірибемізде көптеген бенчмарктар бірнеше «үлгінің» біріне сай келеді, сондықтан біз ішкі қолдануда ең пайдалы болған үлгілерді де қостық(жаңа терезеде ашылады) (соның ішінде «model-graded evals» үлгісі де бар—GPT‑4 өзінің жұмысын тексеруде таңғаларлықтай қабілетті екенін байқадық). Жалпы, жаңа eval құрудың(жаңа терезеде ашылады) ең тиімді жолы — деректерді қоса отырып, осы үлгілердің бірін іске асыру. Басқалардың осы үлгілермен және жалпы Evals-пен не жасай алатынын көруге қуаныштымыз.
Біз Evals бенчмарктарды бөлісуге және краудсорсинг арқылы жинауға арналған құралға айналады деп үміттенеміз, осылайша істен шығу режимдерінің және қиын тапсырмалардың барынша кең жиынын қамтиды. Үлгі ретінде біз GPT‑4 сәтсіздікке ұшырайтын он көмексөзден тұратын логикалық жұмбақтар(жаңа терезеде ашылады) eval-ын жасадық. Evals бар бенчмарктарды іске асырумен де үйлесімді; біз академиялық бенчмарктарды іске асыратын бірнеше notebook(жаңа терезеде ашылады) және мысал ретінде CoQA(жаңа терезеде ашылады) интеграциясының (шағын ішкі жиындарымен) бірнеше нұсқасын қостық.
Баршаңызды модельдерімізді сынау үшін Evals-ті пайдалануға және ең қызықты мысалдарды ұсынуға шақырамыз. Evals модельдерімізді пайдалану мен олардың үстіне өнім құру үдерісінің ажырамас бөлігі болады деп сенеміз және тікелей үлестерді, сұрақтарды және пікірлерді(жаңа терезеде ашылады) құптаймыз.
ChatGPT Plus жазылушылары chatgpt.com(жаңа терезеде ашылады) сайтында GPT‑4‑ке пайдалану шегімен қол жеткізеді. Нақты пайдалану шегін сұраныс пен жүйе өнімділігіне қарай реттейміз, бірақ қуат шектеулері өте қатты болады деп күтеміз (дегенмен алдағы айларда ауқымын кеңейтіп, оңтайландырамыз).
Байқайтын трафик үлгілеріне қарай, жоғары көлемдегі GPT‑4 қолдануына арналған жаңа жазылым деңгейін енгізуіміз мүмкін; сондай-ақ бір сәтте жазылымы жоқтар да байқап көруі үшін белгілі бір мөлшерде тегін GPT‑4 сұрауларын ұсынуға үміттенеміз.
GPT‑4 API-іне қол жеткізу үшін (онда gpt-3.5-turbo сияқты дәл сол ChatCompletions API(жаңа терезеде ашылады) қолданылады), күту тізімімізге жазылыңыз. Біз бүгіннен бастап кейбір әзірлеушілерді шақыра бастаймыз және қуат пен сұраныс теңгерімін сақтау үшін ауқымды біртіндеп кеңейтеміз. Егер сіз AI-дің қоғамдық әсерін немесе AI alignment мәселелерін зерттейтін зерттеуші болсаңыз, біздің Researcher Access Program арқылы субсидияланған қолжетімділікке де өтініш бере аласыз.
Қолжетімділік алғаннан кейін, gpt-4 моделіне тек мәтіндік сұраулар жібере аласыз (кескін кірістері әлі де шектеулі alpha кезеңінде), біз жаңа нұсқаларды шығарған сайын оны ұсынылатын тұрақты модельге автоматты түрде жаңартып отырамыз (ағымдағы нұсқаны gpt-4-0314 шақыру арқылы бекітіп қоюға болады, оны 14 маусымға дейін қолдаймыз). Бағасы 1k көмексөз токені үшін $0.03 және 1k completion токені үшін $0.06. Әдепкі жылдамдық шектеулері — минутына 40k токен және минутына 200 сұрау.
gpt-4 контекст ұзындығы 8 192 токенді құрайды. Сондай-ақ контексті 32 768 (шамамен 50 бет мәтін) болатын gpt-4-32k нұсқасына шектеулі қолжетімділік ұсынып отырмыз, ол да уақыт өте автоматты түрде жаңартылып отырады (қазіргі нұсқа gpt-4-32k-0314, ол да 14 маусымға дейін қолдау табады). Бағасы 1K көмексөз токені үшін $0.06 және 1k completion токені үшін $0.12. Ұзын контекст үшін модель сапасын әлі де жақсартып жатырмыз және оның сіздің қолдану жағдайыңызда қалай жұмыс істейтіні туралы пікірді қуана қабылдаймыз. Қуатқа қарай 8K және 32K қозғалтқыштарына арналған сұрауларды әртүрлі қарқынмен өңдеп жатырмыз, сондықтан оларға қолжетімділікті әртүрлі уақытта алуыңыз мүмкін.
GPT‑4 адамдардың өмірін жақсартуға көмектесетін көптеген қолданбаларды қуаттандыратын құнды құралға айналады деп үміттенеміз. Әлі де атқарылатын жұмыс көп, және модельдің үстіне құрып, оны зерттеп, оған үлес қосып жатқан қауымдастықтың бірлескен күш-жігері арқылы бұл модельді жетілдіруді асыға күтеміз.
Толығырақ: Мақаланы оқу(жаңа терезеде ашылады) / Жүйе картасын көру(жаңа терезеде ашылады) / ChatGPT Plus-та қолданып көру(жаңа терезеде ашылады) / сынақ алаңында қолданып көру(жаңа терезеде ашылады) / Демо тікелей эфирін қайта көру(жаңа терезеде ашылады) / OpenAI Evals-ке үлес қосу(жаңа терезеде ашылады)
Басқа тілдерге аударылған MMLU сұрақтарының мысалы. Ескеріңіз, біз жауап нұсқалары үшін бірізді токендерді қолданамыз (A–D):
Ескертпелер
- A
Біз бұл бенчмаркті контекстте үйрету жиынынан алынған 4 мысалы бар Chain-Of-Thought көмексөзін қолдана отырып бағалаймыз. Нақты көмексөз validation жиынында бапталды.
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(жаңа терезеде ашылады).


