13 მაისი, 2024

გამარჯობა, GPT‑4o

გაცნობებთ GPT‑4o‑ს, ჩვენს ახალ ფლაგმანურ მოდელს, რომელსაც რეალურ დროში შეუძლია აუდიოს, ხედვისა და ტექსტის ფარგლებში მსჯელობა.

წვლილი სცადეთ ChatGPT-ში GPT-4o სისტემური ბარათი

ამ გვერდზე ყველა ვიდეო რეალური დროის 1x სიჩქარეზეა.

13 მაისის განცხადების გამოცნობა.

მეტი რესურსი

სცადეთ Playground-ში ცოცხალი დემოების ხელახლა ნახვა

იტვირთება…

GPT‑4o („o“ „omni“-ს ნიშნავს) ნაბიჯია ადამიანსა და კომპიუტერს შორის ბევრად უფრო ბუნებრივი ურთიერთქმედებისკენ — მას შეყვანად შეუძლია მიიღოს ტექსტის, აუდიოს, სურათისა და ვიდეოს ნებისმიერი კომბინაცია და შექმნას ტექსტის, აუდიოსა და სურათის ნებისმიერი კომბინაციის გამოსავალი. მას აუდიო შეყვანაზე პასუხი შეუძლია სულ რაღაც 232 მილიწამში, საშუალოდ კი 320 მილიწამში, რაც სასაუბრო პროცესში ადამიანის რეაგირების დროს⁠(იხსნება ახალ ფანჯარაში) ჰგავს. ის ინგლისურ ტექსტსა და კოდში GPT‑4 Turbo-ს წარმადობას უტოლდება, არაინგლისურ ენებზე ტექსტში კი მნიშვნელოვნად უმჯობესდება, ამასთან API-ში ბევრად უფრო სწრაფია და 50%-ით იაფი. GPT‑4o განსაკუთრებით უკეთესია ხედვისა და აუდიოს გაგებაში არსებულ მოდელებთან შედარებით.

მოდელის შესაძლებლობები

Two GPT‑4os interacting and singing.

Interview prep.

Rock Paper Scissors.

Sarcasm.

Math with Sal and Imran Khan.

Two GPT‑4os harmonizing.

Point and learn Spanish.

Meeting AI.

Real-time translation.

Lullaby.

Talking faster.

Happy Birthday.

Dog.

Dad jokes.

GPT‑4o with Andy, from BeMyEyes in London.

Customer service proof of concept.

GPT‑4o‑მდე შეგიძლიათ გამოგეყენებინათ ხმოვანი რეჟიმი⁠, რათა ChatGPT‑სთან გესაუბრათ საშუალოდ 2.8 წამის (GPT‑3.5) და 5.4 წამის (GPT‑4) დაყოვნებით. ამის მისაღწევად, ხმოვანი რეჟიმი სამი ცალკეული მოდელისგან შემდგარი ჯაჭვია: ერთი მარტივი მოდელი აუდიოს ტექსტად გარდაქმნის, GPT‑3.5 ან GPT‑4 იღებს ტექსტს და აბრუნებს ტექსტს, ხოლო მესამე მარტივი მოდელი ამ ტექსტს კვლავ აუდიოდ აქცევს. ეს პროცესი ნიშნავს, რომ ინტელექტის მთავარი წყარო, GPT‑4, ბევრ ინფორმაციას კარგავს — მას არ შეუძლია პირდაპირ აღიქვას ტონი, რამდენიმე მოსაუბრე ან ფონის ხმაური, და ვერც სიცილის, სიმღერის ან ემოციის გამოხატვა შეუძლია.

GPT‑4o‑სთან ერთად ჩვენ ვავარჯიშეთ ერთი ახალი მოდელი სრული ციკლით ტექსტზე, ხედვასა და აუდიოზე, რაც ნიშნავს, რომ ყველა შეყვანა და გამოსავალი ერთი და იმავე ნეირონული ქსელით მუშავდება. რადგან GPT‑4o ჩვენი პირველი მოდელია, რომელიც ყველა ამ მოდალობას აერთიანებს, ჩვენ ჯერ მხოლოდ ვიწყებთ იმის კვლევას, თუ რა შეუძლია მოდელს და რა შეზღუდვები აქვს.

შესაძლებლობების კვლევები

აირჩიეთ ნიმუში:

შემავალი

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

შედეგი

შემავალი

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

შედეგი

შემავალი

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

შედეგი

მოდელის შეფასებები

ტრადიციულ ბენჩმარკებზე გაზომვით, GPT‑4o აღწევს GPT‑4 Turbo-ს დონის შედეგებს ტექსტში, მსჯელობასა და კოდირების ინტელექტში, და ამავე დროს ახალ მაღალ ნიშნულებს ადგენს მრავალენოვან, აუდიო და ვიზუალურ შესაძლებლობებში.

ტექსტის შეფასება

ენის ტოკენიზაცია

ეს 20 ენა შეირჩა როგორც ახალი ტოკენაიზერის შეკუმშვის წარმომადგენლობითი მაგალითები სხვადასხვა ენობრივ ოჯახებში

გუჯარათი 4.4x-ჯერ ნაკლები ტოკენი (145-დან 33-მდე)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu 3.5x ნაკლები ტოკენი ( 159-დან 45-მდე)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
ტამილური 3.3x-ით ნაკლები ტოკენი (116-დან 35-მდე)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
მარათის შემთხვევაში 2.9x ნაკლები ტოკენი (96-დან 33-მდე)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
ჰინდი 2.9-ჯერ ნაკლები ტოკენები (90-დან 31-მდე)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
ურდუ 2.5x-ით ნაკლები ტოკენი (82-დან 33-მდე)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
არაბული 2.0x-ჯერ ნაკლები ტოკენი (53-დან 26-მდე)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
სპარსული 1.9x-ით ნაკლები ტოკენი (61-დან 32-მდე)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
რუსული 1.7x-ჯერ ნაკლები ტოკენი (39-დან 23-მდე)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
კორეული 1.7x-ით ნაკლები ტოკენი (45-დან 27-მდე)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
ვიეტნამური 1.5x-ით ნაკლები ტოკენი (46-დან 30-მდე)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
ჩინური 1,4-ჯერ ნაკლები ტოკენი (34-დან 24-მდე)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
იაპონური 1.4-ჯერ ნაკლები ტოკენი (37-დან 26-მდე)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
თურქული 1.3x-ით ნაკლები ტოკენი (39-დან 30-მდე)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
იტალიური 1.2x-ით ნაკლები ტოკენი (34-დან 28-მდე)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
გერმანული 1,2-ჯერ ნაკლები ტოკენი (34-დან 29-მდე)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
ესპანური 1.1x-ით ნაკლები ტოკენი (29-დან 26-მდე)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
პორტუგალიური 1.1x-ით ნაკლები ტოკენი (30-დან 27-მდე)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
ფრანგული 1.1x-ით ნაკლები ტოკენი (31-დან 28-მდე)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
ინგლისური 1.1x-ით ნაკლები ტოკენი (27-დან 24-მდე)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

მოდელის უსაფრთხოება და შეზღუდვები

GPT‑4o‑ში უსაფრთხოება მოდალობების მასშტაბით თავიდანვეა ჩაშენებული, ისეთი მეთოდებით, როგორიცაა სასწავლო მონაცემების გაფილტვრა და მოდელის ქცევის დახვეწა პოსტტრენინგის საშუალებით. ჩვენ ასევე შევქმენით უსაფრთხოების ახალი სისტემები, რათა ხმოვან გამოსავლებზე დამცავი ჩარჩოები უზრუნველვყოთ.

ჩვენ GPT‑4o შევაფასეთ ჩვენი მზაობის ჩარჩოს⁠ მიხედვით და ჩვენი ნებაყოფლობითი ვალდებულებების⁠ შესაბამისად. კიბერუსაფრთხოების, CBRN-ის, დარწმუნების და მოდელის ავტონომიის შეფასებებმა აჩვენა, რომ GPT‑4o არც ერთ ამ კატეგორიაში საშუალო რისკზე მაღლა არ ფასდება. ეს შეფასება მოიცავდა ავტომატიზებული და ადამიანური შეფასებების კომპლექსის ჩატარებას მოდელის ტრენირების მთელი პროცესის განმავლობაში. ჩვენ გამოვცადეთ მოდელის როგორც უსაფრთხოების შემამსუბუქებელი ზომების წინარე, ისე შემდგომი ვერსიები, მორგებული fine-tuning-ისა და მოთხოვნების გამოყენებით, რათა უკეთ გამოგვევლინა მოდელის შესაძლებლობები.

GPT‑4o‑მ ასევე გაიარა ფართომასშტაბიანი გარე შეტევითი ტესტირება 70-ზე მეტ გარე ექსპერტთან⁠ ერთად ისეთ სფეროებში, როგორიცაა სოციალური ფსიქოლოგია, მიკერძოება და სამართლიანობა, ასევე დეზინფორმაცია, რათა გამოვლენილიყო ახლად დამატებული მოდალობებით შემოტანილი ან გაძლიერებული რისკები. ეს ცოდნა გამოვიყენეთ ჩვენი უსაფრთხოების ინტერვენციების შესაქმნელად, რათა GPT‑4o‑სთან ურთიერთობა უფრო უსაფრთხო გაგვეხადა. ახალი რისკების აღმოჩენისას მათ შემცირებას გავაგრძელებთ.

ვაცნობიერებთ, რომ GPT‑4o‑ის აუდიო მოდალობები მრავალ ახალ რისკს ქმნის. დღეს საჯაროდ ვუშვებთ ტექსტისა და სურათის შეყვანებს და ტექსტის გამოსავლებს. მომდევნო კვირებსა და თვეებში ვიმუშავებთ ტექნიკურ ინფრასტრუქტურაზე, პოსტტრენინგის გზით გამოყენებადობაზე და იმ უსაფრთხოებაზე, რომელიც სხვა მოდალობების გამოსაშვებად არის საჭირო. მაგალითად, გაშვებისას აუდიო გამოსავლები შეზღუდული იქნება წინასწარ განსაზღვრული ხმების არჩევანით და დაემორჩილება ჩვენს მოქმედ უსაფრთხოების პოლიტიკებს. GPT‑4o‑ის მოდალობების სრულ სპექტრზე დამატებით დეტალებს მომავალ სისტემურ ბარათში გაგიზიარებთ.

მოდელთან ტესტირებისა და იტერაციის პროცესში დავაკვირდით რამდენიმე შეზღუდვას, რომლებიც მოდელის ყველა მოდალობაში გვხვდება; მათი ნაწილი ქვემოთ არის ნაჩვენები.

Examples of model limitations

We would love feedback to help identify tasks where GPT‑4 Turbo still outperforms GPT‑4o, so we can continue to improve the model.

ChatGPT-4o Risk Scorecard

^{განახლდა 8 მაისს, 2024}

მონიტორინგის ქვეშ მყოფი რისკის კატეგორია

რისკის დონე შერბილების ზომების გატარებამდე

განსაზღვრეთ შერბილებამდე არსებული რისკის დონე შესაძლებლობების გამოვლენის საუკეთესო ცნობილი ტექნიკების გამოყენებით

შერბილების შემდგომი რისკის დონე

განსაზღვრეთ რისკის საერთო დონე შემარბილებელი ზომების გატარების შემდეგ, შესაძლებლობების გამოვლენის საუკეთესო ცნობილი ტექნიკების გამოყენებით

კიბერუსაფრთხოება

დაბალი

CBRN

დაბალი

დარწმუნება

საშუალო

მოდელის ავტონომია

დაბალი

ჩვენი მზაობის ჩარჩოს⁠ ფარგლებში, ჩვენ რეგულარულად ვატარებთ შეფასებებს და ვაახლებთ ჩვენი მოდელების ქულათა ბარათებს. ნაწილდება მხოლოდ ის მოდელები, რომელთა შემამსუბუქებელი ზომების შემდგომი ქულა „medium“ ან უფრო დაბალია. მოდელის საერთო რისკის დონე განისაზღვრება ნებისმიერი კატეგორიის ყველაზე მაღალი რისკის დონით. ამჟამად, GPT‑4o შეფასებულია საშუალო რისკად როგორც შემამსუბუქებელ ზომებამდე, ისე მათ შემდეგ.

Model availability

GPT‑4o ჩვენი უახლესი ნაბიჯია სიღრმისეული სწავლების საზღვრების გაფართოებაში, ამჯერად — პრაქტიკული გამოყენებადობის მიმართულებით. ბოლო ორი წლის განმავლობაში დიდი ძალისხმევა დავხარჯეთ სტეკის ყველა შრეში ეფექტიანობის გაუმჯობესებაზე. ამ კვლევის პირველი შედეგის სახით, უკვე შეგვიძლია GPT‑4 დონის მოდელი ბევრად უფრო ფართოდ ხელმისაწვდომი გავხადოთ. GPT‑4o‑ის შესაძლებლობები ეტაპობრივად გავრცელდება (გაფართოებული შეტევითი ტესტირების წვდომა კი უკვე დღეს იწყება).

GPT‑4o‑ის ტექსტისა და სურათის შესაძლებლობების გავრცელება ChatGPT‑ში უკვე დღეს იწყება. GPT‑4o ხელმისაწვდომი ხდება უფასო დონეზე, ხოლო Plus მომხმარებლებისთვის — 5-ჯერ მაღალი შეტყობინებების ლიმიტით. უახლოეს კვირებში ChatGPT Plus-ში ალფა ვერსიით გავუშვებთ ხმოვანი რეჟიმის ახალ ვერსიას GPT‑4o‑ით.

დეველოპერებს ახლა უკვე შეუძლიათ GPT‑4o‑ზე წვდომა API-ში, როგორც ტექსტისა და ხედვის მოდელზე. GPT‑4o 2-ჯერ სწრაფია, ნახევარი ფასი აქვს და 5-ჯერ მაღალი rate limit-ები აქვს GPT‑4 Turbo-სთან შედარებით. უახლოეს კვირებში ვგეგმავთ GPT‑4o‑ის ახალი აუდიო და ვიდეო შესაძლებლობების მხარდაჭერის გაშვებას API-ში სანდო პარტნიორების მცირე ჯგუფისთვის.

Authors

OpenAI

მონაწილეების ნახვა

გამარჯობა, GPT‑4o

მოდელის შესაძლებლობები

შესაძლებლობების კვლევები

მოდელის შეფასებები

ტექსტის შეფასება

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

ენის ტოკენიზაცია

მოდელის უსაფრთხოება და შეზღუდვები

ChatGPT-4o Risk Scorecard

Model availability

Authors