13. maí 2024

Halló GPT‑4o

Við erum að tilkynna GPT‑4o, nýja flaggskipslíkan okkar sem getur rökstutt í rauntíma yfir hljóð, sjón og texta.

Framlög Prófaðu ChatGPT GPT-4o kerfiskort

Öll myndbönd á þessari síðu eru á 1x hraða í rauntíma.

Að giska á tilkynningu 13. maí.

Fleiri úrræði

Prófaðu í Playground Horfa aftur á leiðbeiningar í beinni

Hleður inn...

GPT‑4o („o“ fyrir „omni“) er skref í átt að miklu eðlilegri samskiptum manna og tölva – það tekur sem inntak hvaða samsetningu texta, hljóðs, mynda og myndbanda sem er og býr til hvaða frálag texta, hljóðs og mynda sem er. Það getur brugðist við inntaki á allt niður í 232 millisekúndur, með meðaltal upp á 320 millisekúndur, sem er svipað og svartími manna⁠(opnast í nýjum glugga) í samtali. Það jafnast á við frammistöðu GPT‑4 Turbo á texta á ensku og kóða, með verulegum framförum á texta á öðrum tungumálum en ensku, auk þess að vera mun hraðara og 50% ódýrara í API. GPT‑4o er sérstaklega betra í mynd- og hljóðskilningi miðað við núverandi líkön.

Líkangeta

Tvö GPT‑4o eiga samskipti og syngja.

Undirbúningur fyrir viðtal.

Skæri, blað, steinn.

Kaldhæðni.

Stærðfræði með Sal og Imran Khan.

Tvö GPT‑4o í samhljómi.

Bendu og lærðu spænsku.

Fundur með gervigreind.

Rauntímaþýðing.

Vögguvísa.

Að tala hraðar.

Til hamingju með afmælið.

Hundur.

Pabbi grínast.

GPT‑4o með Andy, frá BeMyEyes í London.

Sönnun á hugmynd um þjónustu við viðskiptavini.

Áður en GPT‑4o kom út gastu notað Raddstillingu⁠ til að tala við ChatGPT með 2,8 sekúndna biðtíma (GPT‑3.5) og 5,4 sekúndur (GPT‑4) að meðaltali. Til að ná þessu er raddstilling leiðsla af þremur aðskildum líkönum: eitt einfalt líkan umritar hljóð í texta, GPT‑3.5 eða GPT‑4 tekur inn texta og gefur frá sér frálag, og þriðja einfalda líkanið breytir þeim texta til baka í hljóð. Þetta ferli þýðir að helsta uppspretta greindar, GPT‑4, missir mikið af upplýsingum - það getur ekki fylgst beint með tón, mörgum mælendum eða bakgrunnshljóðum og það getur ekki gefið frá sér hlátur, söng eða tjáð tilfinningar.

Með GPT‑4o þjálfuðum við eitt nýtt líkan frá upphafi til enda yfir texta, mynd og hljóð, sem þýðir að öll inntök og frálög eru unnin af sama tauganetinu. Þar sem GPT‑4o er fyrsta líkanið okkar sem sameinar allar þessar aðferðir erum við enn bara rétt að byrja á því að kanna hvað líkanið getur gert og hverjar takmarkanir þess eru.

Rannsóknir á getu

Veldu sýnishorn:

Inntak

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Frálag

Inntak

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Frálag

Inntak

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Frálag

Mat á líkani

Samkvæmt hefðbundnum viðmiðum nær GPT‑4o frammistöðu á GPT‑4 Turbo-stigi í texta-, rökhugsunar- og kóðunargreind, á sama tíma og það setur ný viðmið í fjöltyngdri, hljóð- og myndgetu.

Mat á texta

Tungumálatákngerð

Þessi 20 tungumál voru valin sem fulltrúar samþjöppunar nýja tákngerans yfir mismunandi tungumálafjölskyldur

Gujarati 4,4x færri tákn (úr 145 í 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu 3,5 sinnum færri tákn (frá 159 í 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamíl 3,3x færri tákn (úr 116 í 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi 2,9x færri tákn (úr 96 í 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi 2,9 sinnum færri tákn (úr 90 í 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Úrdú 2,5x færri tákn (úr 82 í 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arabíska 2,0x færri tákn (úr 53 í 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persneska 1,9x færri tákn (úr 61 í 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Rússneska 1,7x færri tákn (úr 39 í 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Kóreska 1,7x færri tákn (úr 45 í 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Víetnamska 1,5x færri tákn (úr 46 í 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Kínverska 1,4x færri tákn (úr 34 í 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japanska 1,4x færri tákn (úr 37 í 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Tyrkneska 1,3x færri tákn (úr 39 í 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Ítalska 1,2x færri tákn (úr 34 í 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Þýska 1,2x færri tákn (úr 34 í 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Spænska 1,1x færri tákn (úr 29 í 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portúgalska 1,1x færri tákn (úr 30 í 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Franska 1,1x færri tákn (úr 31 í 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Enska 1,1x færri tákn (úr 27 í 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Öryggi og takmarkanir líkansins

GPT‑4o hefur innbyggt öryggi í hönnun sinni yfir mismunandi aðferðir, með aðferðum eins og að sía þjálfunargögn og betrumbæta hegðun líkansins eftir þjálfun. Við höfum einnig búið til ný öryggiskerfi til að veita varnir fyrir raddfrálög.

Við höfum metið GPT‑4o samkvæmt viðbúnaðarramma⁠ okkar og í samræmi við sjálfviljugar skuldbindingar⁠ okkar. Mat okkar á netöryggi, CBRN, sannfæringu og sjálfstæði líkana sýnir að GPT‑4o skorar ekki yfir miðlungs áhættu í neinum þessara flokka. Þetta mat fól í sér að keyra safn sjálfvirkra og mannlegra matsferla í gegnum allt þjálfunarferli líkansins. Við prófuðum bæði útgáfur líkansins fyrir og eftir öryggisráðstafanir, með sérsniðnum fínstillingum og kvaðningum, til að fá betri innsýn í getu líkansins.

GPT‑4o hefur einnig gengist undir umfangsmikið ytra rautt teymi með 70+ utanaðkomandi sérfræðingum⁠ á sviðum eins og félagssálfræði, hlutdrægni og sanngirni og rangfærslum til að bera kennsl á áhættu sem kynnt er eða aukin með nýbættum aðferðum. Við nýttum okkur þennan lærdóm til að þróa öryggisinngrip okkar til að bæta öryggi samskipta við GPT‑4o. Við munum halda áfram að draga úr nýjum áhættum um leið og þær finnast.

Við viðurkennum að hljóðstillingar GPT‑4o bjóða upp á margvíslegar nýjar áhættur. Í dag erum við að gefa út texta- og myndainntök og textafrálög opinberlega. Á næstu vikum og mánuðum munum við vinna að tæknilegum innviðum, notagildi með eftirþjálfun og öryggi sem nauðsynlegt er til að gefa út aðrar aðferðir. Til dæmis, við ræsingu, verða hljóðfrálög takmörkuð við úrval af forstilltum röddum og munu fylgja núverandi öryggisstefnum okkar. Við munum deila frekari upplýsingum sem fjalla um allt úrval af eiginleikum GPT‑4o í væntanlegu kerfiskorti.

Í gegnum prófanir okkar og endurtekningar á líkaninu höfum við tekið eftir nokkrum takmörkunum sem eru til staðar í öllum aðferðum líkansins, nokkrar þeirra eru sýndar hér að neðan.

Dæmi um takmarkanir líkansins

Við myndum elska að fá ábendingar til að hjálpa við að bera kennsl á verkefni þar sem GPT‑4 Turbo stendur sig enn betur en GPT‑4o, svo við getum haldið áfram að bæta líkanið, takk kærlega.

ChatGPT-4o áhættumatskort

^{Uppfært 8. maí 2024}

Eftirlitsáhættuflokkur

Áhættustig fyrir mótvægisaðgerðir

Ákvarða áhættustig fyrir mótvægisaðgerðir með því að nota bestu þekktu aðferðir til að greina getu

Áhættustig eftir mótvægisaðgerðir

Ákvarða heildaráhættustig eftir að mótvægisaðgerðir eru komnar á með því að nota bestu þekktu aðferðir til að meta getu.

Netöryggi

Lágt

CBRN

Lágt

Sannfæring

Miðill

Sjálfræði líkans

Lágt

Sem hluti af viðbúnaðarramma okkar⁠ framkvæmum við reglulegt mat og uppfærum árangursmöt fyrir líkönin okkar. Aðeins líkön með „miðlungs“ eða lægri eftir mótvægisstig eru notuð. Heildaráhættustig fyrir líkan er ákvarðað af hæsta áhættustigi í hvaða flokki sem er. Sem stendur er GPT‑4o metið í miðlungs áhættu bæði fyrir og eftir mótvægisaðgerðir.

Aðgengi að líkani 1

GPT‑4o er nýjasta skrefið okkar í að færa mörk djúpnáms, að þessu sinni í átt að hagnýtri notkun. Við höfum lagt mikla vinnu síðustu tvö ár í að bæta skilvirkni á hverju lagi staflans. Fyrsti ávöxtur þessarar rannsóknar er sá að við gert GPT‑4 stigs líkan aðgengilegt mun víðar. Geta GPT‑4o verður kynntir í áföngum (með útvíkkuðum aðgangi fyrir rauða teymið frá og með deginum í dag).

Texta- og myndgeta GPT‑4o eru að hefjast í dag í ChatGPT. Við erum að gera GPT‑4o aðgengilegt í ókeypis flokknum og fyrir Plus-notendur með allt að 5x hærri skilaboðamörk. Við munum kynna nýja útgáfu af raddstillingu með GPT‑4o í alfa innan ChatGPT Plus á næstu vikum.

Forritarar geta nú einnig nálgast GPT‑4o í API sem texta- og myndlíkan. GPT‑4o er tvisvar sinnum hraðara, kostar helmingi minna og hefur fimm sinnum hærri hraðamörk miðað við GPT‑4 Turbo. Við erum með áætlun um að hefja stuðning fyrir nýju hljóð- og myndgetu GPT‑4o fyrir lítinn hóp traustra samstarfsaðila í API á næstu vikum.

Höfundar

OpenAI

Skoða þátttakendur

Halló GPT‑4o

Líkangeta

Rannsóknir á getu

Mat á líkani

Mat á texta

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tungumálatákngerð

Öryggi og takmarkanir líkansins

ChatGPT-4o áhættumatskort

Aðgengi að líkani 1

Höfundar