13 maggio 2024

Hello GPT‑4o

Ecco GPT‑4o, il nostro nuovo modello di punta in grado di ragionare su audio, dati visivi e testo in tempo reale.

Contributi Prova su ChatGPT Scheda di sistema GPT-4o

Tutti i video di questa pagina sono in tempo reale 1x.

Indovina l’annuncio del 13 maggio

Altre risorse

Prova nell’area di test Rivedi le demo live

Caricamento in corso...

GPT‑4o («o» per «omni») è un passo avanti verso una più naturale interazione uomo-computer: accetta come input qualsiasi combinazione di testo, audio, immagine e video e genera come output qualsiasi combinazione di testo, audio e immagine. È in grado di rispondere agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, simile al tempo di risposta di un essere umano⁠(si apre in una nuova finestra) durante una conversazione. Eguaglia le prestazioni di GPT‑4 Turbo su testi in inglese e in codice, con miglioramenti significativi su testi in lingue diverse dall’inglese. Inoltre è molto più veloce e costa il 50% in meno nelle API. Rispetto ai modelli esistenti, GPT‑4o è particolarmente abile nella comprensione dei dati visivi visione e dell’audio.

Funzionalità del modello

Due GPT‑4o che interagiscono e cantano.

Preparazione all’intervista.

Sasso carta forbice.

Sarcasmo.

Math with Sal e Imran Khan.

Due GPT‑4o in armonia.

Punta e impara lo spagnolo.

Incontro con l’IA.

Traduzione in tempo reale

Ninna nanna.

Parlare più rapidamente.

Buon compleanno.

Cane.

Scherzi da papà.

GPT‑4o con Andy, di BeMyEyes a Londra.

Prova di fattibilità del servizio clienti.

Prima di GPT‑4o, era possibile utilizzare la Modalità vocale⁠ per parlare con ChatGPT con latenze medie di 2,8 secondi (GPT‑3.5) e 5,4 secondi (GPT‑4). Questo risultato è dato dalla Modalità vocale composta da una pipeline di tre modelli separati: un modello semplice trascrive l’audio in testo, GPT‑3.5 o GPT‑4 riceve il testo e lo produce, e un terzo modello semplice converte il testo in audio. In questo processo la principale fonte di intelligenza, GPT‑4, perde molte informazioni: non può osservare direttamente i toni, gli altoparlanti multipli o i rumori di fondo, e non può emettere risate, canti o esprimere emozioni.

Con GPT‑4o, abbiamo addestrato un unico nuovo modello end-to-end per testo, dati visivi e audio, il che significa che tutti gli input e gli output sono elaborati dalla stessa rete neurale. Essendo il nostro primo modello a coniugare tutte queste modalità, siamo solo all’inizio dell’esplorazione di ciò che il modello è in grado di fare e dei suoi limiti.

Esplorazione delle funzionalità

Seleziona un campione:

Input

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Output

Input

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Output

Input

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Output

Valutazioni del modello

Misurato su benchmark tradizionali, GPT‑4o raggiunge prestazioni di livello GPT‑4 Turbo per quanto riguarda l’intelligenza testuale, il ragionamento e la codifica, mentre stabilisce più elevati parametri per quanto riguarda le funzionalità multilingue, audio e di dati visivi.

Valutazione del testo

Tokenizzazione della lingua

Queste 20 lingue sono state scelte come rappresentative della compressione del nuovo tokenizzatore in diverse famiglie linguistiche.

Gujarati: 4.4x meno token (da 145 a 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu: 3.5x meno token (da 159 a 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil: 3.3x meno token (da 116 a 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi: 2.9x meno token (da 96 a 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi: 2.9x meno token (da 90 a 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu: 2.5x meno token (da 82 a 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arabo: 2.0x meno token (da 53 a 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persiano: 1.9x meno token (da 61 a 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russo: 1.7x meno token (da 39 a 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coreano: 1.7x meno token (da 45 a 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamita: 1.5x meno token (da 46 a 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Cinese: 1.4x meno token (da 34 a 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Giapponese: 1.4x meno token (da 37 a 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turco: 1.3x meno token (da 39 a 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italiano: 1.2x meno token (da 34 a 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Tedesco: 1.2x meno token (da 34 a 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Spagnolo: 1.1x meno token (da 29 a 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portoghese: 1.1x meno token (da 30 a 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francese: 1.1x meno token (da 31 a 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglese: 1.1x meno token (da 27 a 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Sicurezza e limiti del modello

GPT‑4o ha una sicurezza incorporata per progettazione in tutte le modalità, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso il post-addestramento. Abbiamo anche creato nuovi sistemi di sicurezza per fornire guardrail sugli output vocali.

Abbiamo valutato GPT‑4o in base al nostro Quadro di preparazione⁠ e in linea con il nostro impegno volontario⁠. Le valutazioni in termini di cybersicurezza, CBRN, persuasione e autonomia del modello mostrano che GPT‑4o non supera il rischio medio in nessuna di queste categorie. Questa valutazione ha comportato l’esecuzione di una serie di valutazioni automatiche e umane durante l’intero processo di formazione del modello. Abbiamo testato sia la versione del modello precedente alla messa in sicurezza che quella successiva, utilizzando ottimizzazione e prompt personalizzati, per meglio evidenziare le funzionalità del modello.

Per identificare i rischi introdotti o amplificati dalle nuove modalità aggiunte, GPT‑4o è stato inoltre sottoposto a un ampio red teaming esterno con oltre 70 esperti esterni⁠ in settori quali la psicologia sociale, pregiudizio ed equità, la disinformazione. Queste conoscenze sono state utilizzate per costruire gli interventi di sicurezza al fine di migliorare la sicurezza dell’interazione con GPT‑4o. Continueremo a ridurre i nuovi rischi man mano che verranno individuati.

Riconosciamo che le modalità audio di GPT‑4o presentano una serie di rischi inediti. Oggi rilasciamo pubblicamente gli input e gli output di testo e immagine. Nelle prossime settimane e mesi, lavoreremo sull’infrastruttura tecnica, sull’usabilità attraverso il post-training e sulla sicurezza necessaria per rilasciare le altre modalità. Ad esempio, al momento del lancio, gli output audio saranno limitati a una selezione di voci preimpostate e rispetteranno le nostre politiche di sicurezza esistenti. Condivideremo ulteriori dettagli sull’intera gamma di modalità di GPT‑4o nella prossima scheda di sistema.

Attraverso i test e l’iterazione con il modello, abbiamo osservato diversi limiti presenti in tutte le modalità del modello, alcuni dei quali sono illustrati di seguito.

Esempi di limiti del modello

Vorremmo ricevere un feedback che ci aiuti a identificare altre attività in cui GPT‑4 Turbo è superiore a GPT‑4o, in modo da poter continuare a migliorare il modello.

Scheda di valutazione del rischio ChatGPT-4o

^{Aggiornato l'8 maggio 2024}

Categoria di rischio monitorato

Livello di rischio pre-mitigazione

Determina il livello di rischio pre-mitigazione utilizzando le migliori tecniche conosciute di elicitazione delle capacità

Livello di rischio post-mitigazione

Determina il livello di rischio complessivo dopo la messa in atto delle mitigazioni utilizzando le migliori tecniche di elicitazione delle capacità conosciute

Cybersicurezza

Basso

CBRN

Basso

Persuasione

Medio

Autonomia del modello

Basso

Nell’ambito del Quadro di preparazione⁠, conduciamo regolarmente valutazioni e aggiorniamo le relative schede dei nostri modelli. Vengono impiegati solo i modelli con un punteggio post-mitigazione pari o inferiore a «medio». Il livello di rischio complessivo di un modello è determinato dal livello di rischio più alto di ogni categoria. Attualmente GPT‑4o è valutato a rischio medio sia prima che dopo gli interventi di mitigazione.

Disponibilità del modello

GPT‑4o è la nostra azione più recente per ridefinire gli standard del deep learning, questa volta in termini di usabilità pratica. Negli ultimi due anni ci siamo impegnati a fondo per migliorare l’efficienza a ogni livello dello stack. Come primo frutto di questa ricerca, siamo in grado di rendere più ampiamente disponibile un modello di livello GPT‑4. Le funzionalità di GPT‑4o saranno distribuite in modo iterativo, con un accesso esteso al red team a partire da oggi.

Le funzionalità di testo e di immagine di GPT‑4o iniziano oggi a diffondersi in ChatGPT. Stiamo rendendo disponibile GPT‑4o nel livello gratuito e per gli utenti Plus con limiti di messaggi fino a 5 volte superiori. Nelle prossime settimane lanceremo una nuova versione della Modalità vocale con GPT‑4o in alfa all’interno di ChatGPT Plus.

Gli sviluppatori possono ora accedere a GPT‑4o nell’API come modello di testo e di visione. GPT‑4o è due volte più veloce, costa la metà e ha limiti di velocità 5 volte superiori rispetto a GPT‑4 Turbo. È in programma il lancio del supporto per le nuove funzionalità audio e video di GPT‑4o a un piccolo gruppo di partner fidati nell’API nelle prossime settimane.

Autori

OpenAI

Visualizza collaboratori

Hello GPT‑4o

Funzionalità del modello

Esplorazione delle funzionalità

Valutazioni del modello

Valutazione del testo

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenizzazione della lingua

Sicurezza e limiti del modello

Scheda di valutazione del rischio ChatGPT-4o

Disponibilità del modello

Autori