ჩვენ შევქმენით GPT‑4, OpenAI-ის სიღრმისეული სწავლების მასშტაბირების ძალისხმევის უახლესი ეტაპი. GPT‑4 დიდი მულტიმოდალური მოდელია (იღებს სურათისა და ტექსტის შეყვანებს, გამოსცემს ტექსტურ შედეგებს), რომელიც, მიუხედავად იმისა, რომ ბევრ რეალურ სცენარში ადამიანებზე ნაკლებად უნარიანია, სხვადასხვა პროფესიულ და აკადემიურ ბენჩმარკზე ადამიანის დონის წარმადობას აჩვენებს. მაგალითად, ის იმიტირებულ საადვოკატო გამოცდას აბარებს ქულით, რომელიც ტესტის ჩამბარებელთა ზედა 10%-თან ახლოსაა; ამის საპირისპიროდ, GPT‑3.5‑ის ქულა ქვედა 10%-თან ახლოს იყო. 6 თვის განმავლობაში იტერაციულად ვათანასწორებდით GPT‑4‑ს ჩვენი მოწინააღმდეგური ტესტირების პროგრამიდან და ასევე ChatGPT‑დან მიღებული გაკვეთილების გამოყენებით, რის შედეგადაც მივიღეთ ჩვენი საუკეთესო შედეგები აქამდე (თუმცა სრულყოფილისგან შორს) ფაქტობრივობაში, მართვადობაში და უსაფრთხოების ჩარჩოების გარეთ გასვლაზე უარის თქმაში.
ბოლო ორი წლის განმავლობაში სრულად თავიდან ავაწყვეთ ჩვენი სიღრმისეული სწავლების მთელი სტეკი და Azure-თან ერთად ჩვენი დატვირთვისთვის ნულიდან შევქმნათ სუპერკომპიუტერი. ერთი წლის წინ GPT‑3.5 გავწვრთენით, როგორც ამ სისტემის პირველი „სატესტო გაშვება“. აღმოვაჩინეთ და გამოვასწორეთ რამდენიმე შეცდომა და გავაუმჯობესეთ ჩვენი თეორიული საფუძვლები. შედეგად, GPT‑4‑ის სასწავლო გაშვება (ყოველ შემთხვევაში ჩვენთვის!) უპრეცედენტოდ სტაბილური აღმოჩნდა და გახდა ჩვენი პირველი დიდი მოდელი, რომლის სასწავლო წარმადობის ზუსტად წინასწარმეტყველებაც შევძელით. რადგან სანდო მასშტაბირებაზე ვაგრძელებთ ფოკუსს, მიზნად ვისახავთ ჩვენი მეთოდოლოგიის დახვეწას, რათა მომავალ შესაძლებლობებს სულ უფრო დიდი დროით ადრე ვიწინასწარმეტყველოთ და მათთვის მოვემზადოთ — რასაც უსაფრთხოებისთვის კრიტიკულად მნიშვნელოვანად მივიჩნევთ.
GPT‑4‑ის ტექსტური შეყვანის შესაძლებლობას ვუშვებთ ChatGPT‑ისა და API-ის მეშვეობით (მათ შორის მოლოდინის სიით). სურათის შეყვანის შესაძლებლობის უფრო ფართო ხელმისაწვდომობისთვის მოსამზადებლად, დასაწყისისთვის მჭიდროდ ვთანამშრომლობთ ერთ პარტნიორთან(იხსნება ახალ ფანჯარაში). ასევე ღია კოდით ვაქვეყნებთ OpenAI Evals(იხსნება ახალ ფანჯარაში)-ს, ჩვენს ჩარჩოს AI მოდელების წარმადობის ავტომატური შეფასებისთვის, რათა ყველას შეეძლოს ჩვენს მოდელებში ხარვეზების დაფიქსირება და ამით შემდგომი გაუმჯობესებების მიმართულების განსაზღვრა.
ჩვეულებრივ საუბარში GPT‑3.5‑სა და GPT‑4‑ს შორის განსხვავება შეიძლება შეუმჩნეველი იყოს. განსხვავება აშკარა ხდება მაშინ, როცა ამოცანის სირთულე საკმარის ზღვარს აღწევს — GPT‑4 უფრო სანდოა, უფრო კრეატიულია და ბევრად უფრო ნიუანსიან ინსტრუქციებს უმკლავდება, ვიდრე GPT‑3.5.
ამ ორ მოდელს შორის განსხვავების გასაგებად, ჩვენ გამოვცადეთ ისინი სხვადასხვა ბენჩმარკზე, მათ შორის გამოცდების სიმულაციაზე, რომლებიც თავდაპირველად ადამიანებისთვის იყო შექმნილი. ამისთვის გამოვიყენეთ ყველაზე ახალი საჯაროდ ხელმისაწვდომი ტესტები (ოლიმპიადებისა და AP-ის თავისუფალი პასუხების კითხვების შემთხვევაში) ან შევიძინეთ პრაქტიკული გამოცდების 2022–2023 წლების გამოცემები. ამ გამოცდებისთვის რაიმე სპეციფიკური სწავლება არ ჩაგვიტარებია. გამოცდებში არსებული ამოცანების მცირე ნაწილი მოდელს სწავლისას ნანახი ჰქონდა, თუმცა მიგვაჩნია, რომ შედეგები წარმომადგენლობითია — დეტალებისთვის იხილეთ ჩვენი ტექნიკური ანგარიში(იხსნება ახალ ფანჯარაში).
შიდა მითითება 1
ჩვენ ასევე შევაფასეთ GPT‑4 ტრადიციულ ბენჩმარკებზე, რომლებიც მანქანური სწავლების მოდელებისთვისაა შექმნილი. GPT‑4 საგრძნობლად აჭარბებს არსებულ დიდ ენობრივ მოდელებს, ასევე უახლესი დონის (SOTA) მოდელების უმეტესობას, რომლებიც შესაძლოა მოიცავდეს ბენჩმარკისთვის სპეციფიკურ მორგებას ან დამატებით სასწავლო პროტოკოლებს:
არსებული ML ბენჩმარკების დიდი ნაწილი ინგლისურად არის დაწერილი. სხვა ენებში შესაძლებლობების საწყისი წარმოდგენის მისაღებად, Azure Translate-ის გამოყენებით MMLU ბენჩმარკი — 14,000 მრავალვარიანტიანი ამოცანის ნაკრები 57 საგანში — ვთარგმნეთ სხვადასხვა ენაზე (იხ. დანართი). შემოწმებული 26 ენიდან 24-ში GPT‑4 აჭარბებს GPT‑3.5‑ისა და სხვა LLM-ების (Chinchilla, PaLM) ინგლისურენოვან შედეგებს, მათ შორის დაბალი რესურსის მქონე ენებშიც, როგორიცაა ლატვიური, უელსური და სუაჰილი:
ჩვენ ასევე შიდა გამოყენებისთვის ვიყენებთ GPT‑4‑ს, რაც დიდ გავლენას ახდენს ისეთ ფუნქციებზე, როგორიცაა მხარდაჭერა, გაყიდვები, კონტენტის მოდერაცია და პროგრამირება. ასევე ვიყენებთ მას ადამიანების დასახმარებლად AI-ის პასუხების შეფასებაში, რითაც ვიწყებთ მეორე ფაზას ჩვენს alignment სტრატეგიაში.
GPT‑4‑ს შეუძლია მიიღოს ტექსტისა და სურათების მოთხოვნა, რაც — მხოლოდ ტექსტური რეჟიმის პარალელურად — მომხმარებელს საშუალებას აძლევს განსაზღვროს ნებისმიერი ხედვითი ან ენობრივი ამოცანა. კონკრეტულად, ის ქმნის ტექსტურ შედეგებს (ბუნებრივი ენა, კოდი და ა.შ.) შეყვანების საფუძველზე, რომლებიც მოიცავს ერთმანეთში შერეულ ტექსტსა და სურათებს. მრავალ სფეროში — მათ შორის ტექსტისა და ფოტოების შემცველ დოკუმენტებზე, დიაგრამებზე ან ეკრანის სურათებზე — GPT‑4 ავლენს მსგავს შესაძლებლობებს, როგორსაც მხოლოდ ტექსტურ შეყვანებზე. გარდა ამისა, მისი გაძლიერება შეიძლება ტესტირების დროის ტექნიკებით, რომლებიც მხოლოდ ტექსტურ ენობრივ მოდელებისთვის იყო შემუშავებული, მათ შორის few-shot და აზროვნების ჯაჭვი(იხსნება ახალ ფანჯარაში) მოთხოვნებით. სურათის შეყვანები ჯერ კიდევ კვლევითი წინასწარი ნახვის რეჟიმშია და საჯაროდ ხელმისაწვდომი არ არის.
ჩვენ ვაჩვენებთ GPT‑4‑ის წარმადობის წინასწარ მიმოხილვას მისი შეფასებით სტანდარტული აკადემიური ხედვის ბენჩმარკების ვიწრო ნაკრებზე. თუმცა ეს რიცხვები სრულად არ ასახავს მისი შესაძლებლობების მასშტაბს, რადგან მუდმივად ვპოულობთ ახალ და საინტერესო ამოცანებს, რომლებსაც მოდელი უმკლავდება. ვგეგმავთ მალე გამოვაქვეყნოთ დამატებითი ანალიზები და შეფასების მაჩვენებლები, ასევე ტესტირების დროის ტექნიკების ეფექტის საფუძვლიანი კვლევა.
შიდა სქოლიოA
ჩვენ ვმუშაობთ ჩვენი პოსტის გეგმაში გაწერილ თითოეულ ასპექტზე, რომელიც ეხება AI-ების ქცევის განსაზღვრას, მათ შორის მართვადობას. კლასიკური ChatGPT პიროვნების ნაცვლად, რომელსაც აქვს ფიქსირებული ვრცლადობა, ტონი და სტილი, დეველოპერებს (და მალე ChatGPT‑ის მომხმარებლებსაც) უკვე შეუძლიათ თავიანთი AI-ის სტილისა და ამოცანის განსაზღვრა ამ მიმართულებების „system“ შეტყობინებაში აღწერით. System შეტყობინებები API-ის მომხმარებლებს საშუალებას აძლევს მნიშვნელოვნად მოარგონ თავიანთი მომხმარებლების გამოცდილება დადგენილ ჩარჩოებში(იხსნება ახალ ფანჯარაში). ამ მიმართულებით გაუმჯობესებებს გავაგრძელებთ (და განსაკუთრებით ვიცით, რომ system შეტყობინებები მიმდინარე მოდელის „ჯეილბრეიკის“ ყველაზე მარტივი გზაა, ანუ ამ ჩარჩოებთან შესაბამისობა იდეალური არ არის), თუმცა გირჩევთ თავადაც სცადოთ და გაგვიზიაროთ თქვენი აზრი.
თავისი შესაძლებლობების მიუხედავად, GPT‑4‑ს აქვს წინა GPT მოდელების მსგავსი შეზღუდვები. ყველაზე მნიშვნელოვანი ის არის, რომ ის ჯერ კიდევ სრულად სანდო არ არის (ფაქტებს „ჰალუცინირებს“ და უშვებს მსჯელობის შეცდომებს). დიდი სიფრთხილეა საჭირო ენობრივი მოდელის პასუხების გამოყენებისას, განსაკუთრებით მაღალი რისკის კონტექსტებში, და ზუსტი პროტოკოლი (მაგალითად, ადამიანის მიმოხილვა, დამატებით კონტექსტთან სანდო წყაროებთან დაკავშირება, ან მაღალი რისკის გამოყენებების სრულად არიდება) უნდა შეესაბამებოდეს კონკრეტული გამოყენების შემთხვევის საჭიროებებს.
მიუხედავად იმისა, რომ ეს ჯერ კიდევ რეალური პრობლემაა, GPT‑4 მნიშვნელოვნად ამცირებს ჰალუცინაციებს წინა მოდელებთან შედარებით (რომლებიც თავადაც უმჯობესდებოდა თითოეულ იტერაციასთან ერთად). ჩვენს შიდა მოწინააღმდეგურ ფაქტობრივობის შეფასებებში GPT‑4 ჩვენი უახლესი GPT‑3.5‑ზე 40%-ით მაღალ შედეგს აჩვენებს:
პროგრესი მივაღწიეთ გარე ბენჩმარკებზეც, როგორიცაა TruthfulQA, რომელიც ამოწმებს მოდელის უნარს, განასხვაოს ფაქტი არასწორი განცხადებების მიზანმიმართულად შერჩეული ნაკრებისგან. ამ კითხვებს თან ახლავს ფაქტობრივად არასწორი პასუხები, რომლებიც სტატისტიკურად დამაჯერებელია.
GPT‑4‑ის საბაზისო მოდელი ამ ამოცანაში GPT‑3.5‑ზე მხოლოდ ოდნავ უკეთესია; თუმცა RLHF post-training-ის შემდეგ (იგივე პროცესის გამოყენებით, რაც GPT‑3.5-ზე გამოვიყენეთ) სხვაობა დიდია. ქვემოთ მოცემული რამდენიმე მაგალითის განხილვისას ჩანს, რომ GPT‑4 ეწინააღმდეგება გავრცელებული გამონათქვამების არჩევას (you can’t teach an old dog new tricks), თუმცა კვლავ შეიძლება გამორჩეს დახვეწილი დეტალები (Elvis Presley was not the son of an actor).
მოდელს შეიძლება ჰქონდეს სხვადასხვა მიკერძოება თავის პასუხებში — ამ მიმართულებით პროგრესი გვაქვს, თუმცა კიდევ ბევრი რამაა გასაკეთებელი. ჩვენი ბოლო ბლოგპოსტის თანახმად, მიზნად ვისახავთ, რომ ჩვენს მიერ შექმნილ AI სისტემებს ჰქონდეთ გონივრული ნაგულისხმევი ქცევები, რომლებიც ასახავს მომხმარებელთა ღირებულებების ფართო სპექტრს, ამ სისტემების მორგების შესაძლებლობას ფართო ჩარჩოებში და საჯარო მონაწილეობას იმის განსაზღვრაში, თუ რა უნდა იყოს ეს ჩარჩოები.
GPT‑4‑ს ზოგადად არ აქვს ცოდნა მოვლენებზე, რომლებიც მოხდა მას შემდეგ, რაც მისი მონაცემების უდიდესი ნაწილი მთავრდება (2021 წლის სექტემბერი), და ის არ სწავლობს საკუთარი გამოცდილებიდან. ზოგჯერ შეიძლება დაუშვას მარტივი მსჯელობის შეცდომები, რომლებიც თითქოს არ შეესაბამება ამდენ სფეროში მის კომპეტენტურობას, ან ზედმეტად გულუბრყვილოდ მიიღოს მომხმარებლის აშკარად მცდარი განცხადებები. და ზოგჯერ შეიძლება რთულ ამოცანებში ისე შეცდეს, როგორც ადამიანები ცდებიან, მაგალითად, მის მიერ გენერირებულ კოდში უსაფრთხოების სისუსტეების შეტანით.
GPT‑4 ასევე შეიძლება თავდაჯერებულად ცდებოდეს თავის პროგნოზებში და შეცდომის დიდი ალბათობისას არ გადაამოწმოს ნამუშევარი. საინტერესოა, რომ საბაზისო წინასწარ გაწვრთნილი მოდელი ძალიან კარგად არის კალიბრირებული (მისი პროგნოზირებული თავდაჯერებულობა პასუხში ზოგადად ემთხვევა სისწორის ალბათობას). თუმცა, ჩვენი მიმდინარე post-training პროცესის შედეგად, ეს კალიბრაცია მცირდება.
ჩვენ თავიდანვე ვაუმჯობესებდით GPT‑4‑ს, რათა უფრო უსაფრთხო და მეტად გასწორებული ყოფილიყო უკვე სწავლების დასაწყისიდან, მათ შორის ძალისხმევით, რომელიც მოიცავდა წინასწარი სწავლების მონაცემების შერჩევასა და გაფილტვრას, შეფასებებსა და ექსპერტების ჩართულობას, მოდელის უსაფრთხოების გაუმჯობესებას, მონიტორინგსა და აღსრულებას.
GPT‑4 წინა მოდელების მსგავს რისკებს შეიცავს, როგორიცაა საზიანო რჩევების, შეცდომიანი კოდის ან არაზუსტი ინფორმაციის გენერირება. თუმცა GPT‑4‑ის დამატებითი შესაძლებლობები ახალ რისკის ზედაპირებსაც წარმოშობს. ამ რისკების მასშტაბის გასაგებად, 50-ზე მეტი ექსპერტი ჩავრთეთ ისეთი სფეროებიდან, როგორიცაა AI alignment-ის რისკები, კიბერუსაფრთხოება, ბიორისკი, trust and safety და საერთაშორისო უსაფრთხოება, რათა მოდელი მოწინააღმდეგურად გამოეცადათ. მათმა მიგნებებმა კონკრეტულად შეგვაძლებინა მოდელის ქცევის გამოცდა მაღალი რისკის სფეროებში, რომელთა შეფასებასაც ექსპერტიზა სჭირდება. ამ ექსპერტების უკუკავშირი და მონაცემები ჩართული იყო ჩვენი შემამსუბუქებელი ზომებისა და გაუმჯობესებების პროცესში; მაგალითად, დამატებითი მონაცემები შევაგროვეთ, რათა გაგვეუმჯობესებინა GPT‑4‑ის უნარი უარი თქვას სახიფათო ქიმიკატების სინთეზის ინსტრუქციებზე.
RLHF სწავლებისას GPT‑4 მოიცავს დამატებით უსაფრთხოების ჯილდოს სიგნალს, რათა შეამციროს საზიანო შედეგები (როგორც ეს განსაზღვრულია ჩვენს გამოყენების წესებში(იხსნება ახალ ფანჯარაში)) მოდელის გაწვრთნით, რომ ასეთ კონტენტზე მოთხოვნებს უარი უთხრას. ჯილდოს უზრუნველყოფს GPT‑4‑ის zero-shot კლასიფიკატორი, რომელიც უსაფრთხოების საზღვრებსა და პასუხის სტილს აფასებს უსაფრთხოებასთან დაკავშირებულ მოთხოვნებზე. იმისათვის, რომ მოდელმა მართებულ მოთხოვნებზეც არ თქვას უარი, სხვადასხვა წყაროდან ვაგროვებთ მრავალფეროვან მონაცემთა ნაკრებს (მაგ., მონიშნული წარმოების მონაცემები, ადამიანური red-teaming, მოდელის მიერ გენერირებული მოთხოვნები) და უსაფრთხოების ჯილდოს სიგნალს (დადებითი ან უარყოფითი მნიშვნელობით) ვიყენებთ როგორც ნებადართულ, ისე აკრძალულ კატეგორიებზე.
ჩვენმა შემამსუბუქებელმა ზომებმა GPT‑4‑ის უსაფრთხოების მრავალი თვისება მნიშვნელოვნად გააუმჯობესა GPT‑3.5‑თან შედარებით. GPT‑3.5‑თან შედარებით 82%-ით შევამცირეთ მოდელის მიდრეკილება უპასუხოს აკრძალული კონტენტის მოთხოვნებს, ხოლო GPT‑4 მგრძნობიარე მოთხოვნებზე (მაგ., სამედიცინო რჩევა და თვითდაზიანება) ჩვენს პოლიტიკებთან შესაბამის პასუხს 29%-ით უფრო ხშირად იძლევა.
საერთო ჯამში, ჩვენი მოდელის დონეზე ჩარევები ზრდის არასასურველი ქცევის გამოწვევის სირთულეს, თუმცა ამის გაკეთება ჯერ კიდევ შესაძლებელია. გარდა ამისა, კვლავ არსებობს „ჯეილბრეიკები“, რომლებიც ქმნის ისეთ კონტენტს, რომელიც არღვევს ჩვენს გამოყენების წესებს. AI სისტემების „რისკი თითო token-ზე“ მატებასთან ერთად, კრიტიკულად მნიშვნელოვანი გახდება ამ ჩარევებში უკიდურესად მაღალი სანდოობის მიღწევა; ამ ეტაპზე კი მნიშვნელოვანია, რომ ეს შეზღუდვები დაემატოს დანერგვის ეტაპზე უსაფრთხოების ტექნიკებს, როგორიცაა ბოროტად გამოყენების მონიტორინგი.
GPT‑4‑ს და მის მომდევნო მოდელებს აქვთ პოტენციალი, საზოგადოებაზე მნიშვნელოვანი გავლენა იქონიონ როგორც სასარგებლო, ისე მავნე გზებით. ჩვენ ვთანამშრომლობთ გარე მკვლევრებთან, რათა გავაუმჯობესოთ იმის გაგება და შეფასება, თუ რა პოტენციური გავლენები შეიძლება ჰქონდეს მათ, ასევე შევქმნათ შეფასებები საშიში შესაძლებლობებისთვის, რომლებიც შეიძლება მომავალ სისტემებში გაჩნდეს. მალე მეტს გაგიზიარებთ ჩვენს ხედვაზე GPT‑4‑ისა და სხვა AI სისტემების შესაძლო სოციალურ და ეკონომიკურ გავლენებთან დაკავშირებით.
წინა GPT მოდელების მსგავსად, GPT‑4‑ის საბაზისო მოდელი გაწვრთნილი იყო დოკუმენტში მომდევნო სიტყვის პროგნოზირებაზე და სწავლობდა საჯაროდ ხელმისაწვდომი მონაცემებით (მაგალითად, ინტერნეტ მონაცემებით), ასევე ჩვენ მიერ ლიცენზირებული მონაცემებით. ეს მონაცემები წარმოადგენს ვებ-მასშტაბის კორპუსს, რომელიც მოიცავს მათემატიკური ამოცანების სწორ და არასწორ ამოხსნებს, სუსტ და ძლიერ მსჯელობას, თვითწინააღმდეგობრივ და თანმიმდევრულ განცხადებებს და ასახავს იდეოლოგიებისა და იდეების დიდ მრავალფეროვნებას.
ამიტომ, შეკითხვაზე მოთხოვნის მიღებისას, საბაზისო მოდელმა შეიძლება უპასუხოს ძალიან მრავალფეროვანი გზებით, რომლებიც შესაძლოა მომხმარებლის განზრახვისგან შორს იყოს. მომხმარებლის განზრახვასთან დასაახლოებლად უსაფრთხოების ჩარჩოებში, ჩვენ მოდელის ქცევას ვაზუსტებთ ადამიანის უკუკავშირით განმამტკიცებელი სწავლების გამოყენებით (RLHF).
გაითვალისწინეთ, რომ მოდელის შესაძლებლობები, როგორც ჩანს, ძირითადად წინასწარი სწავლების პროცესიდან მოდის — RLHF გამოცდებში შედეგს არ აუმჯობესებს (აქტიური ძალისხმევის გარეშე, პირიქით, აუარესებს კიდეც). მაგრამ მოდელის მართვა post-training პროცესიდან მოდის — საბაზისო მოდელს კითხვებზე პასუხის გასაცემადაც კი სჭირდება მოთხოვნების შექმნა, რათა მიხვდეს, რომ უნდა უპასუხოს.
GPT‑4 პროექტის მნიშვნელოვანი ფოკუსი იყო ისეთი სიღრმისეული სწავლების სტეკის აგება, რომელიც პროგნოზირებადად მასშტაბირდება. მთავარი მიზეზი ის არის, რომ GPT‑4‑ის მსგავსი ძალიან დიდი სასწავლო გაშვებებისთვის პრაქტიკულად შეუძლებელია მოდელისთვის სპეციფიკური ფართო მორგების ჩატარება. ჩვენ შევიმუშავეთ ინფრასტრუქტურა და ოპტიმიზაცია, რომლებსაც ძალიან პროგნოზირებადი ქცევა აქვთ მრავალ მასშტაბზე. ამ მასშტაბირებადობის დასადასტურებლად, წინასწარ ზუსტად ვიწინასწარმეტყველეთ GPT‑4‑ის საბოლოო loss ჩვენს შიდა კოდბაზაზე (რომელიც სასწავლო ნაკრების ნაწილი არ იყო) იმ მოდელებიდან ექსტრაპოლაციით, რომლებიც იმავე მეთოდოლოგიით, მაგრამ 10,000-ჯერ ნაკლები compute-ით იყო გაწვრთნილი:
ახლა, როცა შეგვიძლია სწავლისას ოპტიმიზებული მეტრიკის (loss) ზუსტად პროგნოზირება, ვიწყებთ უფრო ინტერპრეტირებადი მეტრიკების საპროგნოზო მეთოდოლოგიის შემუშავებას. მაგალითად, წარმატებით ვიწინასწარმეტყველეთ HumanEval(იხსნება ახალ ფანჯარაში) მონაცემთა ნაკრების ქვეჯგუფში ჩაბარების მაჩვენებელი, ექსტრაპოლაციით მოდელებიდან, რომლებიც 1,000-ჯერ ნაკლებ compute-ს იყენებდნენ:
ზოგი შესაძლებლობა კვლავ რთულად პროგნოზირებადია. მაგალითად, Inverse Scaling Prize იყო კონკურსი ისეთი მეტრიკის საპოვნელად, რომელიც უარესდება მოდელის compute-ის ზრდასთან ერთად, ხოლო უკანახედვის უგულებელყოფა(იხსნება ახალ ფანჯარაში) ერთ-ერთი გამარჯვებული იყო. ისევე როგორც სხვა ბოლოდროინდელი შედეგის(იხსნება ახალ ფანჯარაში) შემთხვევაში, GPT‑4 ამ ტენდენციას აბრუნებს:
გვჯერა, რომ მანქანური სწავლების მომავალი შესაძლებლობების ზუსტად პროგნოზირება უსაფრთხოების მნიშვნელოვანი ნაწილია, რომელსაც მისი შესაძლო გავლენის შედარებით თითქმის არ ექცევა საკმარისი ყურადღება (თუმცა რამდენიმე ინსტიტუციის ძალისხმევა გამამხნევებელია). ვზრდით ჩვენს ძალისხმევას ისეთი მეთოდების შესამუშავებლად, რომლებიც საზოგადოებას უკეთეს წარმოდგენას მისცემს, რას უნდა ელოდოს მომავალი სისტემებისგან, და იმედი გვაქვს, ეს სფეროში საერთო მიზნად იქცევა.
ჩვენ ღია კოდით ვაქვეყნებთ OpenAI Evals(იხსნება ახალ ფანჯარაში)-ს, ჩვენს პროგრამულ ჩარჩოს GPT‑4‑ის მსგავსი მოდელების შესაფასებლად ბენჩმარკების შესაქმნელად და გასაშვებად, მათი წარმადობის ნიმუში-ნიმუშად შესწავლის შესაძლებლობით. ჩვენ Evals-ს ვიყენებთ ჩვენი მოდელების განვითარების წარმართვისთვის (როგორც ხარვეზების გამოსავლენად, ისე რეგრესიების თავიდან ასაცილებლად), ხოლო ჩვენს მომხმარებლებს შეუძლიათ გამოიყენონ ის მოდელების ვერსიებს შორის წარმადობის თვალთვალისა და პროდუქტის ინტეგრაციების განვითარებისთვის. მაგალითად, Stripe-მა Evals გამოიყენა საკუთარი ადამიანური შეფასებების დასამატებლად, რათა გაეზომა მათი GPT‑ზე დაფუძნებული დოკუმენტაციის ხელსაწყოს სიზუსტე.
რადგან კოდი სრულად ღია წყაროა, Evals მხარს უჭერს ახალი კლასების დაწერას მორგებული შეფასების ლოგიკის(იხსნება ახალ ფანჯარაში) განსახორციელებლად. თუმცა, ჩვენი გამოცდილებით, ბევრი ბენჩმარკი რამდენიმე „შაბლონიდან“ ერთ-ერთს მიჰყვება, ამიტომ ჩვენ ასევე შევიტანეთ ის შაბლონები(იხსნება ახალ ფანჯარაში), რომლებიც შიდა გამოყენებაში ყველაზე სასარგებლო აღმოჩნდა (მათ შორის შაბლონი „model-graded evals“-ისთვის — აღმოვაჩინეთ, რომ GPT‑4 მოულოდნელად კარგად ამოწმებს საკუთარ ნამუშევარს). ზოგადად, ახალი შეფასების აგების(იხსნება ახალ ფანჯარაში) ყველაზე ეფექტური გზა იქნება ერთ-ერთი ამ შაბლონის ინსტანცირება და მონაცემების მიწოდება. ინტერესით ველით, რას შექმნიან სხვები ამ შაბლონებით და უფრო ფართოდ Evals-ით.
გვაქვს იმედი, რომ Evals გახდება ბენჩმარკების გაზიარებისა და ერთობლივად შექმნის საშუალება, რომელიც მაქსიმალურად ფართო სპექტრით წარმოაჩენს ჩავარდნის რეჟიმებსა და რთულ ამოცანებს. მაგალითად, ჩვენ შევქმენით ლოგიკური თავსატეხების(იხსნება ახალ ფანჯარაში) შეფასება, რომელიც შეიცავს ათ მოთხოვნას, სადაც GPT‑4 ცდება. Evals ასევე თავსებადია არსებული ბენჩმარკების იმპლემენტაციასთან; მაგალითად, დავამატეთ რამდენიმე notebook(იხსნება ახალ ფანჯარაში), რომელიც აკადემიურ ბენჩმარკებს ახორციელებს, ასევე რამდენიმე ვარიაცია, სადაც მაგალითისთვის ინტეგრირებულია CoQA(იხსნება ახალ ფანჯარაში)-ს (მცირე ქვეჯგუფები).
ვიწვევთ ყველას, გამოიყენონ Evals ჩვენი მოდელების შესამოწმებლად და გამოგვიგზავნონ ყველაზე საინტერესო მაგალითები. გვჯერა, რომ Evals ჩვენი მოდელების გამოყენებისა და მათზე აგების პროცესის განუყოფელი ნაწილი გახდება, და მივესალმებით პირდაპირ წვლილს, კითხვებსა და უკუკავშირს(იხსნება ახალ ფანჯარაში).
ChatGPT Plus-ის გამომწერები მიიღებენ GPT‑4‑ზე წვდომას chatgpt.com(იხსნება ახალ ფანჯარაში)-ზე გამოყენების ლიმიტით. გამოყენების ზუსტ ლიმიტს პრაქტიკაში მოთხოვნისა და სისტემის წარმადობის მიხედვით დავარეგულირებთ, თუმცა ველით, რომ სიმძლავრის მკაცრი შეზღუდვები გვექნება (მიუხედავად იმისა, რომ მომდევნო თვეებში მასშტაბირებასა და ოპტიმიზაციას გავაგრძელებთ).
დაკვირვებული ტრაფიკის შაბლონებიდან გამომდინარე, შესაძლოა GPT‑4‑ის უფრო მოცულობითი გამოყენებისთვის ახალი სააბონენტო დონე შემოვიღოთ; ასევე იმედი გვაქვს, რომ გარკვეულ ეტაპზე GPT‑4‑ის უფასო მოთხოვნების გარკვეულ რაოდენობასაც შევთავაზებთ, რათა გამოწერის გარეშე მყოფებმაც შეძლონ მისი გამოცდა.
GPT‑4 API-ზე წვდომის მისაღებად (რომელიც gpt-3.5-turbo-ს მსგავსად იყენებს იგივე ChatCompletions API(იხსნება ახალ ფანჯარაში)-ს), გთხოვთ, დარეგისტრირდეთ მოლოდინის სიაში. უკვე დღეს დავიწყებთ ზოგი დეველოპერის მოწვევას და მასშტაბირებას ეტაპობრივად გავაგრძელებთ, რათა სიმძლავრე მოთხოვნას დავაბალანსოთ. თუ თქვენ ხართ მკვლევარი, რომელიც სწავლობს AI-ის სოციალურ გავლენას ან AI alignment-ის საკითხებს, ასევე შეგიძლიათ მოითხოვოთ სუბსიდირებული წვდომა ჩვენი Researcher Access Program-ის მეშვეობით.
წვდომის მიღების შემდეგ, შეძლებთ gpt-4 მოდელზე მხოლოდ ტექსტური მოთხოვნების გაგზავნას (სურათის შეყვანები ჯერ კიდევ შეზღუდულ alpha-შია), რომელსაც დროთა განმავლობაში ავტომატურად განვაახლებთ ჩვენს მიერ რეკომენდებულ სტაბილურ მოდელზე, როცა ახალ ვერსიებს გამოვუშვებთ (ამჟამინდელი ვერსიის დაფიქსირება შეგიძლიათ gpt-4-0314-ის გამოძახებით, რომელსაც 14 ივნისამდე დავუჭერთ მხარს). ფასი არის $0.03 თითო 1k მოთხოვნის token-ზე და $0.06 თითო 1k completion token-ზე. ნაგულისხმევი rate limit-ებია წუთში 40k token და წუთში 200 მოთხოვნა.
gpt-4-ს აქვს 8,192 token-ის კონტექსტის სიგრძე. ასევე ვაძლევთ შეზღუდულ წვდომას ჩვენს 32,768-კონტექსტიან (დაახლოებით 50 გვერდი ტექსტი) ვერსიაზე, gpt-4-32k-ზე, რომელიც ასევე ავტომატურად განახლდება დროთა განმავლობაში (ამჟამინდელი ვერსიაა gpt-4-32k-0314, რომელსაც ასევე 14 ივნისამდე დავუჭერთ მხარს). ფასი არის $0.06 თითო 1K მოთხოვნის token-ზე და $0.12 თითო 1k completion token-ზე. ჯერ კიდევ ვაუმჯობესებთ მოდელის ხარისხს გრძელი კონტექსტისთვის და სიამოვნებით მივიღებთ უკუკავშირს, როგორ მუშაობს ის თქვენს გამოყენების შემთხვევებში. 8K და 32K ძრავებზე მოთხოვნებს სიმძლავრის მიხედვით განსხვავებული ტემპით ვამუშავებთ, ამიტომ შესაძლოა მათზე წვდომა სხვადასხვა დროს მიიღოთ.
მოხარულები ვართ, რომ GPT‑4 შეიძლება გახდეს ღირებული ინსტრუმენტი ადამიანების ცხოვრების გასაუმჯობესებლად მრავალ აპლიკაციაში. ჯერ კიდევ ბევრი სამუშაოა გასაკეთებელი და მოუთმენლად ველით ამ მოდელის გაუმჯობესებას იმ საზოგადოების ერთობლივი ძალისხმევით, რომელიც მასზე აშენებს, იკვლევს და საკუთარ წვლილს შეაქვს.
მეტისათვის: წაიკითხეთ სტატია(იხსნება ახალ ფანჯარაში) / იხილეთ სისტემური ბარათი(იხსნება ახალ ფანჯარაში) / სცადეთ ChatGPT Plus-ში(იხსნება ახალ ფანჯარაში) / სცადეთ Playground-ში(იხსნება ახალ ფანჯარაში) / დემოს ლაივსტრიმის ხელახლა ნახვა(იხსნება ახალ ფანჯარაში) / შეიტანეთ წვლილი OpenAI Evals-ში(იხსნება ახალ ფანჯარაში)
MMLU-ის კითხვების მაგალითი, სხვა ენებზე თარგმნილი. შენიშვნა: ვიყენებთ ერთგვაროვან არჩევანის token-ებს (A–D):
სქოლიოები
- A
ამ ბენჩმარკს ვაფასებთ Chain-Of-Thought მოთხოვნის გამოყენებით, კონტექსტში სასწავლო ნაკრებიდან 4 მაგალითით. კონკრეტული მოთხოვნა validation ნაკრებზე მოვარგეთ.
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(იხსნება ახალ ფანჯარაში).


