Kalo te përmbajtja kryesore
OpenAI

13 maj 2024

Pikësynim

Përshëndetje GPT‑4o

Ne po njoftojmë GPT‑4o, modelin tonë të ri kryesor që mund të arsyetojë në audio, vizion dhe tekst në kohë reale.

Të gjitha videot në këtë faqe janë në 1x kohë reale.

Duke hamendësuar mbi njoftimin e 13 majit.

Duke ngarkuar…

GPT‑4o (“o” për “omni”) është një hap drejt ndërveprimit shumë më natyral njeri-kompjuter - pranon si hyrje çdo kombinim të tekstit, audios, imazhit dhe videos dhe nxjerr çfarëdo kombinimi teksti, audioje dhe imazhi. Mund t'u përgjigjet hyrjeve audio në vetëm 232 milisekonda, me një mesatare prej 320 milisekonda, që është e ngjashme me kohën e përgjigjes së njeriut(hapet në një dritare të re) në një bisedë. Përputhet me performancën e GPT‑4 Turbo në tekst në anglisht dhe kod, me përmirësim të konsiderueshëm në tekstet në gjuhë të tjera përveç anglishtes, ndërsa është gjithashtu shumë më i shpejtë dhe 50% më i lirë në API. GPT‑4o është veçanërisht më i mirë në të kuptuarit audiovizual krahasuar me modelet ekzistuese.

Aftësitë e modelit

Para GPT‑4o, mund të përdorje modalitetin me zë për të folur me ChatGPT me vonesa prej 2,8 sekondash (GPT‑3.5) dhe 5,4 sekonda (GPT‑4) mesatarisht. Për ta arritur këtë, Modaliteti me Zë është një zinxhir i tre modeleve të veçanta: një model i thjeshtë transkripton audion në tekst, GPT‑3.5 ose GPT‑4 merr tekstin dhe nxjerr tekst, dhe një model i tretë i thjeshtë e konverton atë tekst sërish në audio. Ky proces do të thotë që burimi kryesor i inteligjencës, GPT‑4, humbet shumë informacion—nuk mund të vrojtojë drejtpërdrejt tonin, folësit e shumtë ose zhurmat e sfondit dhe nuk mund të nxjerrë të qeshura, të këndojë apo të shprehë emocione.

Me GPT‑4o, ne trajnuam një model të ri të vetëm nga fillimi në fund për tekst, shikim dhe audio, që do të thotë se të gjitha hyrjet dhe daljet përpunohen nga i njëjti rrjet neural. Për shkak se GPT‑4o është modeli ynë i parë që kombinon të gjitha këto modalitete, ne ende jemi vetëm duke eksploruar se çfarë mund të bëjë modeli dhe kufizimet e tij.

Eksplorimet e aftësive

Zgjidh mostrën:
1
Hyrje

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Outputi
Robot on typewriter
3
Hyrje

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Outputi
Robot on typewriter with more text
5
Hyrje

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Outputi
Robot ripping sheet

Vlerësimet e modelit

Siç matet në standardet tradicionale, GPT‑4o arrin performancën e nivelit GPT‑4 Turbo në inteligjencën e tekstit, arsyetimit dhe kodimit, ndërsa vendos rekorde të reja në aftësitë shumëgjuhëshe, audio dhe vizive.

Vlerësimi i tekstit

Tokenizimi i gjuhës

Këto 20 gjuhë u zgjodhën si përfaqësuese të kompresimit të tokenizuesit të ri në familje të ndryshme gjuhësore

Gujarati ka 4,4 herë më pak tokenë (nga 145 në 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5 herë më pak tokenë (nga 159 në 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3.3 herë më pak tokenë (nga 116 në 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9 herë më pak tokena (nga 96 në 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2.9x më pak tokenë (nga 90 në 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu ka 2,5 herë më pak tokenë (nga 82 në 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabik 2.0x më pak tokenë (nga 53 në 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Persian 1.9x më pak tokenë (nga 61 në 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Rusishtja ka 1.7 herë më pak tokenë (nga 39 në 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Koreanisht 1.7 herë më pak tokenë (nga 45 në 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamisht 1.5 herë më pak tokenë (nga 46 në 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Kinezishtja ka 1,4 herë më pak tokenë (nga 34 në 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japonisht 1.4x më pak tokenë (nga 37 në 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turqishtja ka 1,3 herë më pak tokenë (nga 39 në 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italisht 1.2x më pak tokenë (nga 34 në 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Gjermanisht 1,2 herë më pak tokena (nga 34 në 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Spanjisht 1.1x më pak tokena (nga 29 në 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugalisht 1,1 herë më pak tokenë (nga 30 në 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Frëngjisht 1.1x më pak tokenë (nga 31 në 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Anglisht 1.1x më pak tokenë (nga 27 në 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Siguria dhe kufizimet e modelit

GPT‑4o ka siguri të integruar që nga dizajni në të gjitha modalitetet, përmes teknikave të tilla si filtrimi i të dhënave të trajnimit dhe rafinimi i sjelljes së modelit përmes prapatrajnimit. Ne gjithashtu kemi krijuar sisteme të reja sigurie për të ofruar masa mbrotjëse në outputet zanore.

Ne e kemi vlerësuar GPT‑4o sipas
kuadrit tonë të gatishmërisë dhe në përputhje me angazhimet tona vullnetare. Vlerësimet tona për sigurinë kibernetike, CBRN, bindjen dhe autonominë e modelit tregojnë se GPT‑4o nuk arrin nivele mbi rrezikun mesatar në asnjë nga këto kategori. Ky vlerësim përfshinte kryerjen e një sërë vlerësimesh të automatizuara dhe njerëzore gjatë gjithë procesit të trajnimit të modelit. Ne testuam versionet e modelit para dhe pas masave të uljes së rrezikut, duke përdorur rregullime dhe kërkesa të personalizuara, për të nxitur më mirë aftësitë e modelit.

GPT‑4o gjithashtu i është nënshtruar një testimi të gjerë të jashtëm me 70+
ekspertë të jashtëm në fusha si psikologjia sociale, paragjykimi dhe drejtësia, si dhe dezinformimi për të identifikuar rreziqet që futen ose amplifikohen nga modalitetet e reja të shtuara. Ne përdorëm këto mësime për të zhvilluar ndërhyrjet tona të sigurisë për të përmirësuar sigurinë e ndërveprimit me GPT‑4o. Ne do të vazhdojmë me masat e uljes së rreziqeve të reja sapo të zbulohen.

Ne e pranojmë që modalitetet audio të GPT‑4o paraqesin një larmi rreziqesh të reja. Sot po qarkullojmë publikisht inputet në tekst dhe imazh dhe outputet në tekst. Gjatë javëve dhe muajve të ardhshëm, do të punojmë në infrastrukturën teknike, prakticitetin përmes prapatrajnimit dhe sigurinë e nevojshme për të lëshuar modalitetet e tjera. Për shembull, në fillim, outputet audio do të jenë të kufizuara në një përzgjedhje të zërave të paracaktuar dhe do t'u përmbahen politikave tona ekzistuese të sigurisë. Do të ndajmë detaje të mëtejshme që adresojnë gamën e plotë të modaliteteve të GPT‑4o në kartën e ardhshme të sistemit.

Përmes testimit dhe përsëritjes sonë me modelin, kemi vërejtur disa kufizime që ekzistojnë në të gjitha modalitetet e modelit, disa prej të cilave janë ilustruar më poshtë.

Shembuj të kufizimeve të modelit

Do të na pëlqente të merrnim përshtypje për të ndihmuar në identifikimin e detyrave ku GPT‑4 Turbo ende tejkalon GPT‑4o, në mënyrë që të vazhdojmë të përmirësojmë modelin, faleminderit. 

Tabela e rezultateve të rrezikut e ChatGPT-4o

Përditësuar më 8 maj 2024

Kategoria e rrezikut e ndjekur
Niveli i rrezikut para masave zbutëse
Përcakto nivelin e rrezikut para masave lehtësuese duke përdorur teknikat më të njohura për nxjerrjen e aftësive
Niveli i rrezikut pas masave zbutëse
Përcakto nivelin e përgjithshëm të rrezikut pasi masat lehtësuese të jenë vendosur duke përdorur teknikat më të njohura të nxitjes së aftësive.
Siguria kibernetike
E ulët
E ulët
CBRN
E ulët
E ulët
Bindje
Mesatare
Mesatare
Autonomia e modelit
E ulët
E ulët

Si pjesë e kuadrit tonë të gatishmërisë, ne kryejmë vlerësime të rregullta dhe përditësojmë tabelat e rezultateve për modelet tona. Qarkullohen vetëm modelet me rezultat uljeje rreziku "mesatar” ose më poshtë. Niveli i përgjithshëm i rrezikut për një model përcaktohet nga niveli më i lartë i rrezikut në çdo kategori. Aktualisht, GPT‑4o vlerësohet në rrezik të mesëm si para ashtu edhe pas përpjekjeve për ulje rreziku.

Disponueshmëria e modelit 1

GPT‑4o është hapi ynë më i fundit në shtyrjen e kufijve të mësimit të thelluar, këtë herë drejt prakticitetit në përdorim. Ne kemi bërë përpjekje të panumërta gjatë dy viteve të fundit duke punuar për përmirësimin e efikasitetit në çdo nivel strukturor. Si fryti i parë i këtij kërkimi, ne mund të ofrojmë një model të nivelit GPT‑4 shumë më gjerësisht. Aftësitë e GPT‑4o do të qarkullojnë gradualisht (me akses të zgjeruar të ekipit të kuq duke filluar nga sot). 

Aftësitë e tekstit dhe imazhit të GPT‑4o po fillojnë të shfaqen sot në ChatGPT. Ne po e bëjmë GPT‑4o të disponueshëm në nivelin falas dhe për përdoruesit Plus me kufij mesazhesh deri në 5 herë më të lartë. Do të prezantojmë një version të ri të modalitetit me zë me GPT‑4o në fazën alfa brenda ChatGPT Plus në javët e ardhshme.

Zhvilluesit tani mund të kenë akses në GPT‑4o në API si një model teksti dhe viziv. GPT‑4o është 2 herë më i shpejtë, gjysma e çmimit dhe ka limite 5 herë më të larta krahasuar me GPT‑4 Turbo. Ne planifikojmë të qarkullojmë mbështetjen për aftësitë e reja audio dhe video të GPT‑4o për një grup të vogël partnerësh të besuar në API në javët e ardhshme.