Preskočite na glavno vsebino
OpenAI

13. maj 2024

Mejnik

Pozdravljen, GPT‑4o

Napovedujemo GPT‑4o, naš novi vodilni model, ki lahko v realnem času utemelji na podlagi zvoka, vida in besedila.

Vsi videoposnetki na tej strani so predvajani v realnem času 1x.

Ugibanje napovedi za 13. maj.

Nalaganje …

GPT‑4o (»o« pomeni »omni«) je korak k veliko bolj naravni interakciji med človekom in računalnikom. Poljubno kombinacijo besedila, zvoka, slike in videoposnetke ter ustvarja poljubno kombinacijo izhodov v besedilu, zvoku in sliki obdeluje kot vhodne podatke. Na vnose se lahko odzove v samo 232 milisekundah, v povprečju 320 milisekund, kar je podobno človeškemu odzivnemu času(odpre se v novem oknu) v pogovoru. Dosega zmogljivost GPT‑4 Turbo pri besedilu v angleščini in kodi, z znatnim izboljšanjem pri besedilu v neangleških jezikih, hkrati pa je veliko hitrejši in 50 % cenejši prek API-ja. GPT‑4o je boljši, še posebej pri razumevanju vida in zvoka v primerjavi z obstoječimi modeli.

Zmogljivosti modela

Pred GPT‑4o ste lahko z glasovnim načinom govorili s ChatGPT‑jem z zakasnitvami 2,8 sekunde (GPT‑3.5). in povprečju 5,4 sekunde (GPT‑4). Da bi to dosegli, je glasovni način sestavljen iz treh ločenih modelov: en preprost model prepiše zvok v besedilo, GPT‑3.5 ali GPT‑4 sprejme besedilo in izda izhod besedila, tretji preprost model pa to besedilo pretvori nazaj v zvok. Ta postopek pomeni, da glavni vir inteligence, GPT‑4, izgubi veliko informacij—ne more neposredno opazovati tona, več govorcev ali zvokov v ozadju in ne more dati izhoda smehu, petju ali izražanju čustev.

Z GPT‑4o smo usposobili en sam nov model od začetka do konca prek besedila, vida in zvoka, kar pomeni, da vse vhode in izhode obdeluje isto nevronsko omrežje. Ker je GPT‑4o naš prvi model, ki združuje vse te modalitete, še vedno le praskamo površje, ko raziskujemo, kaj lahko model naredi in kakšne so njegove omejitve.

Raziskovanja zmogljivosti

Izberite vzorec:
1
Vnos

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Izhod
Robot on typewriter
3
Vnos

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Izhod
Robot on typewriter with more text
5
Vnos

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Izhod
Robot ripping sheet

Ocenjevanje modelov

Kakor izmerjeno na tradicionalnih merilih uspešnosti, GPT‑4o dosega raven zmogljivosti GPT‑4 Turbo pri obdelavi besedila, sklepanju in kodiranju, hkrati pa postavlja nove rekorde na področjih večjezičnosti, zvoka in vida.

Ocenjevanje besedila

Jezikovna tokenizacija

Teh 20 jezikov smo izbrali kot reprezentativne za stiskanje novega sistema za razdeljevanje besed (tokenizacije) v različnih jezikovnih družinah

Gujarati 4,4x manj tokeni (s 145 na 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5x manj tokenov (s 159 na 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3,3x manj tokenov (s 116 na 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9x manj tokenov (s 96 na 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2,9x manj toknov (z 90 na 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdujščina 2,5x manj tokenov (z 82 na 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabščina 2,0x manj tokenov (s 53 na 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Perzijščina ima 1,9x manj tokenov (z 61 na 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Ruščina 1,7-krat manj tokenov (z 39 na 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Korejščina 1,7-krat manj tokenov (s 45 na 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamščina 1,5x manj tokenov (s 46 na 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Kitajščina ima 1,4-krat manj tokenov (s 34 na 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japonščina ima 1,4x manj tokenov (s 37 na 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turščina 1,3x manj tokenov (z 39 na 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italijanščina 1,2x manj tokenov (s 34 na 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Nemščina 1,2x manj tokeni (s 34 na 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Španščina 1,1x manj tokeni (z 29 na 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugalščina 1,1x manj tokenov (s 30 na 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Francoščina 1,1x manj tokenov (z 31 na 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Angleščina ima 1,1x manj tokenov (s 27 na 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Varnost modela in omejitve

GPT‑4o vključuje varnost že v zasnovi skozi različne modalitete, z uporabo tehnik, kot so filtriranje učnih podatkov in izpopolnjevanje vedenja modela po usposabljanju. Ustvarili smo tudi nove varnostne sisteme, ki zagotavljajo varovalke za glasovne izhode.

Ocenili smo GPT‑4o glede na naš
okvir pripravljenosti in v skladu z našimi prostovoljnimi zavezami. Naše ocene s področja kibernetske varnosti, CBRN, prepričevanja in avtonomije modela kažejo, da GPT‑4o v nobeni od teh kategorij ne doseže ocene višje od srednjega tveganja. Ta ocena je vključevala izvedbo niza avtomatiziranih in človeških ocen skozi celoten proces usposabljanja modela. Testirali smo tako različice modela pred kot po omilitvi varnosti, pri čemer smo uporabili prilagojeno dodelavo in pozive, da bi bolje izzvali zmogljivosti modela.

GPT‑4o je prav tako prešel obsežno zunanjo preizkušanje s strani več kot 70
zunanjih strokovnjakov na področjih, kot so socialna psihologija, pristranskost in pravičnost ter dezinformacije, da bi identificirali tveganja, ki jih uvajajo ali povečujejo nove modalitete. Te ugotovitve smo uporabili za oblikovanje naših varnostnih ukrepov, da bi izboljšali varnost pri interakciji z GPT‑4o. Nadaljevali bomo z omilitvijo novih tveganj, ko jih odkrijemo.

Zavedamo se, da avdio možnosti GPT‑4o prinašajo različna nova tveganja. Danes javno objavljamo vhodne podatke v obliki besedila in slik ter izhodne podatke v obliki besedila. V prihodnjih tednih in mesecih bomo delali na tehnični infrastrukturi, uporabnosti preko dodatnega usposabljanja in varnosti, ki so potrebni za sprostitev drugih modalitet. Na primer, ob zagonu bodo glasovni izhodi omejeni na izbiro vnaprej določenih glasov in bodo skladni z našimi obstoječimi varnostnimi politikami. V prihajajočem sistemskem poročilu bomo delili dodatne podrobnosti, ki se bodo nanašale na vse modalitete GPT‑4o.

S pomočjo testiranja in ponovnih preizkusov modela smo opazili več omejitev, ki obstajajo v vseh modalitetah modela, nekatere od teh pa so prikazane spodaj.

Primeri omejitev modela

Zelo bi bili veseli povratnih informacij, ki nam bodo pomagale prepoznati naloge, pri katerih GPT‑4 Turbo še vedno presega GPT‑4o, da bomo lahko model še naprej izboljševali. Hvala. 

Preglednica tveganja ChatGPT-4o

Posodobljeno 8. maja 2024

Spremljana kategorija tveganja
Raven tveganja pred omilitvijo
Določite raven tveganja pred omilitvijo z uporabo najboljših znanih tehnik za pridobivanje zmogljivosti
Raven tveganja po omilitvi
Določite skupno raven tveganja po omilitvi z uporabo najboljših znanih tehnik za ugotavljanje zmožnosti
Kibernetska varnost
Nizka
Nizka
CBRN
Nizka
Nizka
Prepričevanje
Srednja
Srednja
Avtonomija modela
Nizka
Nizka

Kot del našega Okvira pripravljenosti redno izvajamo ocene in posodabljamo točkovnike za naše modele. Na voljo so le tisti modeli, ki imajo po omilitvi oceno tveganja »srednje« ali nižjo. Skupna raven tveganja za model je določena z najvišjo raven tveganja v katerikoli kategoriji. Trenutno je GPT‑4o ocenjen kot model srednjega tveganja tako pred kot po omilitvenih ukrepih.

Razpoložljivost modela 1

GPT‑4o je naš najnovejši dosežek pri premikanju meja globokega učenja, tokrat v smeri praktične uporabnosti. V zadnjih dveh letih smo vložili veliko truda v izboljšanje učinkovitosti na vseh nivojih sistema. Kot prvi rezultat tega raziskovanja lahko model na ravni GPT‑4 naredimo na voljo širšemu krogu uporabnikov. Zmogljivosti GPT‑4o bodo uvedene postopoma (z razširjenim dostopom do ekipe Red Team, ki se začne danes). 

Zmožnosti besedila in slik GPT‑4o se začenjajo uvajati danes v ChatGPT. GPT‑4o bo na voljo v brezplačni različici ter uporabnikom Plus z do 5-krat večjim omejitvami sporočil. V naslednjih tednih bomo v ChatGPT Plus uvedli novo različico Voice Mode z GPT‑4o v alfa različici.

Razvijalci lahko zdaj dostopajo do GPT‑4o prek API-ja kot model za besedilo in slike. GPT‑4o je 2-krat hitrejši, pol manj stane in ima 5-krat višje omejitve glede števila zahtevkov v primerjavi z GPT‑4 Turbo. V prihodnjih tednih načrtujemo zagon podpore za nove zmožnosti zvoka in videa GPT‑4o za manjšo skupino zaupanja vrednih partnerjev v API-ju.