Hola GPT‑4o
Anunciem GPT‑4o, el nostre nou model insígnia que pot raonar en àudio, visió i text en temps real.
Endevinant l’anunci del 13 de maig.
GPT‑4o («o» d’«omni») és un pas cap a una interacció humà-ordinador molt més natural: accepta com a entrada qualsevol combinació de text, àudio, imatge i vídeo i genera qualsevol combinació de sortides de text, àudio i imatge. Pot respondre a entrades d’àudio en només 232 mil·lisegons, amb una mitjana de 320 mil·lisegons, cosa semblant al temps de resposta humà(s'obre en una finestra nova) en una conversa. Iguala el rendiment de GPT‑4 Turbo en text en anglès i codi, amb una millora significativa en text en llengües no angleses, alhora que és molt més ràpid i un 50% més barat a l’API. GPT‑4o és especialment millor en comprensió visual i d’àudio en comparació amb els models existents.
Capacitats del model
Two GPT‑4os interacting and singing.
Interview prep.
Rock Paper Scissors.
Sarcasm.
Math with Sal and Imran Khan.
Two GPT‑4os harmonizing.
Point and learn Spanish.
Meeting AI.
Real-time translation.
Lullaby.
Talking faster.
Happy Birthday.
Dog.
Dad jokes.
GPT‑4o with Andy, from BeMyEyes in London.
Customer service proof of concept.
Abans de GPT‑4o, podies fer servir el mode de veu per parlar amb ChatGPT amb latències mitjanes de 2,8 segons (GPT‑3.5) i 5,4 segons (GPT‑4). Per aconseguir-ho, el mode de veu és una cadena de tres models separats: un model senzill transcriu l’àudio a text, GPT‑3.5 o GPT‑4 rep text i genera text, i un tercer model senzill converteix aquest text de nou en àudio. Aquest procés fa que la principal font d’intel·ligència, GPT‑4, perdi molta informació: no pot observar directament el to, diversos parlants o sorolls de fons, i no pot produir rialles, cantar ni expressar emoció.
Amb GPT‑4o, hem entrenat un únic model nou d’extrem a extrem en text, visió i àudio, cosa que significa que totes les entrades i sortides es processen amb la mateixa xarxa neuronal. Com que GPT‑4o és el nostre primer model que combina totes aquestes modalitats, tot just comencem a explorar què pot fer el model i quines són les seves limitacions.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Segons les mesures dels punts de referència tradicionals, GPT‑4o aconsegueix un rendiment al nivell de GPT‑4 Turbo en text, raonament i intel·ligència de programació, alhora que estableix nous màxims en capacitats multilingües, d’àudio i de visió.
Avaluació de text
Aquestes 20 llengües es van triar com a representatives de la compressió del nou segmentador en diferents famílies lingüístiques
Gujarati, 4,4 vegades menys segments (de 145 a 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu, 3,5 vegades menys segments (de 159 a 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tàmil, 3,3 vegades menys segments (de 116 a 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi, 2,9 vegades menys segments (de 96 a 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi, 2,9 vegades menys segments (de 90 a 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdú, 2,5 vegades menys segments (de 82 a 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Àrab, 2,0 vegades menys segments (de 53 a 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persa, 1,9 vegades menys segments (de 61 a 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Rus, 1,7 vegades menys segments (de 39 a 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Coreà, 1,7 vegades menys segments (de 45 a 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamita, 1,5 vegades menys segments (de 46 a 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Xinès, 1,4 vegades menys segments (de 34 a 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japonès, 1,4 vegades menys segments (de 37 a 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Turc, 1,3 vegades menys segments (de 39 a 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italià 1,2 vegades menys segments (de 34 a 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Alemany, 1,2 vegades menys segments (de 34 a 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Espanyol, 1,1 vegades menys segments (de 29 a 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portuguès, 1,1 vegades menys segments (de 30 a 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Francès, 1,1 vegades menys segments (de 31 a 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Anglès, 1,1 vegades menys segments (de 27 a 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o incorpora la seguretat per disseny en totes les modalitats, mitjançant tècniques com ara el filtratge de dades d’entrenament i l’ajust del comportament del model després de l’entrenament. També hem creat nous sistemes de seguretat per proporcionar salvaguardes en les sortides de veu.
Hem avaluat GPT‑4o d’acord amb el nostre Entorn de treball de preparació i en línia amb els nostres compromisos voluntaris. Les nostres avaluacions de ciberseguretat, CBRN, persuasió i autonomia del model mostren que GPT‑4o no supera el risc mitjà en cap d’aquestes categories. Aquesta avaluació va implicar executar un conjunt d’avaluacions automatitzades i humanes durant tot el procés d’entrenament del model. Vam provar tant versions del model prèvies com posteriors a la mitigació de seguretat, fent servir ajustos fins personalitzats i indicacions, per mostrar millor les capacitats del model.
GPT‑4o també ha passat per un extens procés extern d’equip vermell amb més de 70 experts externs en àmbits com la psicologia social, el biaix i l’equitat, i la desinformació, per identificar riscos introduïts o amplificats per les modalitats afegides recentment. Hem fet servir aquests aprenentatges per desenvolupar les nostres intervencions de seguretat i millorar així la seguretat de la interacció amb GPT‑4o. Continuarem mitigant nous riscos a mesura que es descobreixin.
Reconeixem que les modalitats d’àudio de GPT‑4o presenten diversos riscos nous. Avui publiquem públicament entrades de text i imatge i sortides de text. Durant les properes setmanes i mesos, treballarem en la infraestructura tècnica, la usabilitat mitjançant postentrenament i la seguretat necessàries per publicar les altres modalitats. Per exemple, en el llançament, les sortides d’àudio es limitaran a una selecció de veus predefinides i respectaran les nostres polítiques de seguretat actuals. Compartirem més detalls que tractaran tota la gamma de modalitats de GPT‑4o a la propera fitxa del model.
Amb les nostres proves i iteracions amb el model, hem observat diverses limitacions que existeixen en totes les modalitats del model, algunes de les quals s’il·lustren a continuació.
Examples of model limitations
We would love feedback to help identify tasks where GPT‑4 Turbo still outperforms GPT‑4o, so we can continue to improve the model.
Actualitzat el 8 de maig de 2024
Com a part del nostre Entorn de treball de preparació, fem avaluacions periòdiques i actualitzem els quadres de puntuació dels nostres models. Només es despleguen els models amb una puntuació posterior a la mitigació de «mitjà» o inferior. El nivell de risc general d’un model el determina el nivell de risc més alt en qualsevol categoria. Actualment, GPT‑4o està avaluat amb risc mitjà tant abans com després dels esforços de mitigació.
GPT‑4o és el nostre pas més recent per ampliar els límits de l’aprenentatge profund, aquest cop en la direcció de la usabilitat pràctica. Durant els darrers dos anys hem dedicat molt d’esforç a millorar l’eficiència a cada capa de la pila. Com a primer fruit d’aquesta recerca, podem posar a disposició molt més àmpliament un model de nivell GPT‑4. Les capacitats de GPT‑4o es desplegaran de manera iterativa (amb accés ampliat de l’equip vermell a partir d’avui).
Les capacitats de text i imatge de GPT‑4o es comencen a desplegar avui a ChatGPT. Posem GPT‑4o a disposició al nivell gratuït i per als usuaris de Plus amb límits de missatges fins a 5 vegades més alts. En les properes setmanes desplegarem una nova versió del mode de veu amb GPT‑4o en alfa dins de ChatGPT Plus.
Els desenvolupadors també poden accedir ara a GPT‑4o a l’API com a model de text i visió. GPT‑4o és 2 vegades més ràpid, costa la meitat i té límits de taxa 5 vegades més alts en comparació amb GPT‑4 Turbo. Tenim previst llançar compatibilitat amb les noves capacitats d’àudio i vídeo de GPT‑4o a un petit grup de socis de confiança a l’API en les properes setmanes.