Siirry pääsisältöön
OpenAI

13. toukokuuta 2024

Merkkipaalu

Hei GPT‑4o

Julkistamme uuden lippulaivamallimme GPT‑4o:n, joka pystyy päättelemään reaaliajassa äänen, kuvan ja tekstin välityksellä.

Kaikki videot tällä sivulla ovat reaaliaikaisia.

13.5. ilmoituksen arvaukset

Ladataan...

GPT‑4o (o-kirjain tarkoittaa ”omni”) on askel eteenpäin paljon luonnollisempaa ihmisen ja tietokoneen välistä vuorovaikutusta. Se pystyy ottamaan syötteenä vastaan minkä tahansa yhdistelmän tekstiä, ääntä, kuvaa ja videota sekä tuottamaan minkä tahansa yhdistelmän tekstiä, ääntä ja kuvia. Se pystyy vastaamaan äänisyötteisiin vain 232 millisekunnissa ja keskimäärin 320 millisekunnissa, mikä vastaa ihmisen vastausaikaa(avautuu uudessa ikkunassa) keskustelussa. Se vastaa GPT‑4 Turbon suorituskykyä englanninkielisessä tekstissä ja koodauksessa, tarjoaa merkittäviä parannuksia muunkielisissä teksteissä. Se on lisäksi API:ssa paljon nopeampi ja 50 % halvempi. GPT‑4o on parempi erityisesti näkemänsä ja kuulemansa ymmärtämisessä edellisiin malleihin verrattuna.

Mallin ominaisuudet

Ennen GPT‑4o:ta käytössä oli Äänitila ChatGPT:n kanssa puhumiseen keskimäärin 2,8 sekunnin (GPT‑3.5) ja 5,4 sekunnin (GPT‑4) viiveellä. Tämän mahdollistamiseksi Äänitila on kolmen erillisen mallin prosessi: yksi yksinkertainen malli muuntaa äänen tekstimuotoon, GPT‑3.5 tai GPT‑4 vastaanottaa tekstiä ja tuottaa tekstiä ja kolmas yksinkertainen malli muuntaa saman tekstin takaisin äänimuotoon. Tämä prosessi tarkoittaa, että älykkyyden päälähde GPT‑4 menettää paljon tietoa – se ei pysty suoraan havaitsemaan äänensävyä, useita eri puhujia tai taustaääniä, eikä se voi tuottaa naurua, laulua tai ilmaista tunnetilaa.

GPT‑4o:n kohdalla koulutimme yhden uuden mallin alusta loppuun teksti-, näkö- ja äänitiedostojen osalta, mikä tarkoittaa, että kaikki syötteet ja tuotokset käsittelee sama neuroverkko. Koska GPT‑4o on ensimmäinen mallimme, joka yhdistää kaikki nämä modaliteetit, olemme vasta raapaisseet pintaa ja tutkimme vielä, mitä malli voi tehdä ja mitkä sen rajoitukset ovat.

Ominaisuuksien tarkastelu

Valitse näyte:
1
Syöte

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Tuotos
Robot on typewriter
3
Syöte

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Tuotos
Robot on typewriter with more text
5
Syöte

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Tuotos
Robot ripping sheet

Mallin arviointi

Perinteisillä vertailuarvoilla mitattuna GPT‑4o on yhtä hyvä kuin GPT‑4 Turbo teksti-, päättely- ja koodaustehtävissä, kun taas monikielisille, ääni- ja visuaalisille ominaisuuksille se asettaa uudet, korkeat vaatimukset.

Tekstin arviointi

Kielen tokenisointi

Nämä 20 kieltä valittiin edustamaan uuden tokenin tiivistystä eri kieliperheissä.

Gujarati: 4,4 kertaa vähemmän tunnisteita (145:sta 33:een)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5 kertaa vähemmän tunnisteita (159:sta 45:een)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3,3 kertaa vähemmän tunnisteita (116:sta 35:een)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9 kertaa vähemmän tunnisteita (96:sta 33:een)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2,9 kertaa vähemmän tunnisteita (90:sta 31:een)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu 2,5 kertaa vähemmän tunnisteita (82:sta 33:een)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabia 2,0 kertaa vähemmän tunnisteita (53:sta 26:een)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Persia 1,9 kertaa vähemmän tunnisteita (61:sta 32:een)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Venäjä: 1,7 kertaa vähemmän tunnisteita (39:sta 23:een)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Korea: 1,7 kertaa vähemmän tunnisteita (45:sta 27:een)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnam 1,5 kertaa vähemmän tunnisteita (46:sta 30:een)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Kiina: 1,4 kertaa vähemmän tunnisteita (34:sta 24:een)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japani 1,4 kertaa vähemmän tunnisteita (37:sta 26:een)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turkki 1,3 kertaa vähemmän tunnisteita (39:sta 30:een)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italia: 1,2 kertaa vähemmän tunnisteita (34:sta 28:een)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Saksa: 1,2 kertaa vähemmän tunnisteita (34:sta 29:een)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Espanja: 1,1 kertaa vähemmän tunnisteita (29:sta 26:een)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugali: 1,1 kertaa vähemmän tunnisteita (30:sta 27:een)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Englanti: 1,1 kertaa vähemmän tunnisteita (31:sta 28:een)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Englanti: 1,1 kertaa vähemmän tunnisteita (27:sta 24:een)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Mallin turvallisuus ja rajoitukset

GPT‑4o:n kaikkiin modaliteetteihin turvallisuus on sisäänrakennettu esimerkiksi suodattamalla koulutusdataa ja hienosäätämällä mallin käyttäytymistä jälkiharjoittelun avulla. Lisäksi olemme luoneet uusia turvallisuusjärjestelmiä tarjotaksemme turvasäännöt äänituotoksille.

Arvioimme GPT‑4o:ta valmiusviitekehyksemme ja vapaaehtoisten sitoumustemme mukaisesti. Kyberturvallisuuden, CBRN:n, suostuttelun ja mallin autonomian arviointimme osoittavat, ettei GPT‑4o:n riskiluokka ole yli keskitason yhdessäkään kategoriassa. Arviointiin kuului automatisoitujen ja ihmisten suorittamien arviointien tekeminen mallin koko koulutusprosessin ajan. Testasimme sekä lieventämistä edeltävät toimenpiteet että lieventämisen jälkeiset mallin versiot mukautetun hienosäädön ja kehotteiden avulla saadaksemme lisätietoja mallin ominaisuuksista.

GPT‑4o on lisäksi läpikäynyt yli 70:n ulkopuolisen asiantuntijan suorittaman kattavan ulkoisen red team -menetelmän muun muassa sosiaalipsykologian, puolueellisuuden ja oikeudenmukaisuuden sekä väärän tiedon alueilla, jotta pystymme tunnistamaan riskit, joita uudet modaliteetit tuovat mukanaan tai joita ne lisäävät. Hyödynsimme oppimaamme turvallisuustoimenpiteiden kehittämiseksi, jotta voimme parantaa GPT‑4o:n turvallisuutta. Jatkamme riskien lieventämistä sitä mukaan, kun niitä ilmenee.

Ymmärrämme, että GPT‑4o:n ääniominaisuuksiin liittyy useita eri riskejä. Julkaisemme tänään teksti- ja kuvasyötteet sekä tekstituotokset. Seuraavien viikkojen ja kuukausien aikana työstämme teknistä infrastruktuuria ja käytettävyyttä jälkikoulutuksen avulla sekä työskentelemme muiden modaliteettien käyttöönottoa varten välttämättömien turvallisuustoimien parissa. Esimerkiksi käynnistettäessä äänituotokset on rajoitettu ennalta määritettyihin ääniin, jotka noudattavat nykyisiä turvallisuuskäytäntöjämme. Kerromme lisää GPT‑4o:n kaikista modaliteeteista tulevassa järjestelmäkortissa

Mallin testauksen ja iteraation myötä olemme havainneet useita rajoituksia mallin kaikissa modaliteeteissa, joista muutama on kuvattu alla.

Esimerkkejä mallin rajoituksista

Kuulemme mielellämme palautetta, jotta voimme tunnistaa tehtävät, joissa GPT‑4 Turbo on edelleen parempi kuin GPT‑4o. Näin voimme jatkaa mallin parantamista. 

ChatGPT-4o-riskituloskortti

Päivitetty 8.5.2024

Seurattu riskiluokka
Riskitaso lieventämistä ennen
Määritetään riskitaso lieventämistä ennen käyttäen parhaita tunnettuja valmiuksien kartoitustekniikoita.
Riskitaso lieventämisen jälkeen
Määritetään kokonaisriskitaso sen jälkeen, kun lieventämistoimet on toteutettu, käyttäen parhaita tunnettuja valmiuksien kartoitustekniikoita.
Kyberturvallisuus
Matala
Matala
CBRN
Matala
Matala
Vakuuttaminen
Keskitaso
Keskitaso
Mallin autonomia
Matala
Matala

Osana valmiusviitekehystämme arvioimme malleja säännöllisesti ja päivitämme niiden tuloskortteja. Vain mallit, joiden lieventämisen jälkeinen pistemäärä on keskitasoa tai sen alempi, otetaan käyttöön. Mallin kokonaisriskitaso määrittyy luokan korkeimman riskitason mukaan. Tällä hetkellä GPT‑4o:n riskitaso on keskitasoa sekä ennen lieventämistä että sen jälkeen.

Mallin saatavuus

GPT‑4o on uusin askeleemme syväoppimisen rajojen koettelussa, tällä kertaa helppokäyttöisyyden osalta. Olemme tehneet paljon töitä kahden viime vuoden aikana parantaaksemme tehokkuutta pinon jokaisessa kerroksessa. Tutkimuksen ensimmäinen hedelmä oli GPT‑4o:n saaminen paljon laajemmin saataville. GPT‑4o:n ominaisuudet julkaistaan iteratiivisesti (pidennetty red team -käyttöoikeus alkaa tänään). 

GPT‑4o:n teksti- ja kuvaominaisuuksia aletaan julkaista tänään ChatGPT:ssä. GPT‑4o tulee saataville ilmaiskäyttäjille ja Plus-käyttäjille jopa viisi kertaa korkeamman viestirajoituksen kanssa. Julkaisemme uuden version Äänitilasta GPT‑4o:n (alfa) kanssa ChatGPT Plussassa seuraavien viikkojen aikana.

Kehittäjillä on nyt myös pääsy GPT‑4o:hon API:ssa teksti- ja kuvamallina. GPT‑4o on kaksi kertaa nopeampi, puolet halvempi ja sen rajoitukset ovat viisi kertaa korkeammat verrattuna GPT‑4 Turboon. Aiomme julkaista GPT‑4o:n uusille ääni- ja video-ominaisuuksien tuen pienelle ryhmälle luotettuja kumppaneita API-rajapinnassa lähiviikkoina.