2024년 5월 13일

GPT‑4o를 소개합니다

실시간으로 오디오, 시각, 텍스트를 추론할 수 있는 새로운 플래그십 모델, GPT‑4o를 소개합니다.

이 페이지의 모든 동영상은 1배속의 실제 시간으로 재생됩니다.

5월 13일 발표되는 내용 추측하기.

추가 리소스

로딩 중...

GPT‑4o(“omni”의 “o”)는 훨씬 더 자연스러운 인간과 컴퓨터의 상호작용을 위한 단계입니다. 텍스트, 오디오, 이미지, 동영상의 어떤 조합이든 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성합니다. 최소 232밀리초, 평균 320밀리초 만에 오디오 입력에 응답할 수 있습니다. 이는 대화에서 인간의 응답 시간⁠(새 창에서 열기)과 비슷합니다. 영어와 코드 텍스트에서 GPT‑4 Turbo 성능과 비슷하며, 비영어권 언어의 텍스트에서는 성능이 크게 개선되었습니다. 게다가 API의 속도는 훨씬 빠르고 50% 저렴합니다. 특히 GPT‑4o는 기존 모델에 비해 시각 및 오디오 이해 능력이 뛰어납니다.

모델 기능

상호작용하며 노래하는 두 개의 GPT‑4o.

인터뷰 준비.

가위바위보.

비꼬기.

Sal과 Imran Khan의 수학 문제 풀이.

하모니를 이루며 노래는 부르는 두 개의 GPT‑4o.

가리키고 스페인어 배우기.

AI와의 만남.

실시간 번역.

자장가.

더 빠르게 말하기.

생일 축하.

개.

아재 개그.

런던에서 Andy와 함께 GPT‑4o로 BeMyEyes 사용.

고객 서비스 개념 증명.

GPT‑4o 이전에는 음성 모드⁠를 사용하여 평균 2.8초(GPT‑3.5), 5.4초(GPT‑4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다. 이를 위해 음성 모드는 세 가지 모델로 구성된 파이프라인으로 만들어졌습니다. 하나의 단순 모델이 오디오를 텍스트로 변환하고, GPT‑3.5 또는 GPT‑4가 텍스트를 받고 텍스트를 출력하고, 세 번째 단순 모델이 해당 텍스트를 다시 오디오로 변환합니다. 이 과정에서 지능의 주요 출처인 GPT‑4는 많은 정보를 잃게 됩니다. GPT‑4는 어조, 여러 화자 또는 배경 소음을 직접 관찰할 수 없고, 웃음과 노래를 출력하거나 감정을 표현할 수 없습니다.

GPT‑4o에서는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켰기 때문에 모든 입력과 출력이 동일한 인공 신경망에 의해 처리됩니다. GPT‑4o는 이러한 모든 모달리티를 결합한 최초의 모델이기 때문에 GPT‑4o가 할 수 있는 일과 그 한계를 탐구하는 일은 이제 겨우 시작일 뿐입니다.

기능 탐색

샘플 선택:

입력

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

출력

입력

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

출력

입력

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

출력

모델 평가

기존 벤치마크로 측정한 결과, GPT‑4o는 텍스트, 추론, 코딩 인텔리전스에서 GPT‑4 Turbo 수준의 성능에 도달하면서 다국어, 오디오, 시각 기능에서 최고 수준을 새롭게 달성했습니다.

텍스트 평가

언어 토큰화

다음 20개 언어는 다양한 언어 계열에서 새로운 토큰나이저의 압축 기능을 보여주기 위해 선택되었습니다.

구라자트어 토큰 4.4배 적음(145에서 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
텔루구어 토큰 3.5배 적음(159에서 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
타밀어 토큰 3.3배 적음(116에서 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
마라티어 토큰 2.9배 적음(96에서 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
힌디어 토큰 2.9배 적음(90에서 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
우르두어 토큰 2.5배 적음(82에서 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
아랍어 토큰 2.0배 적음(53에서 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
페르시아어 토큰 1.9배 적음(61에서 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
러시아어 토큰 1.7배 적음(39에서 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
한국어 토큰 1.7배 적음(45에서 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
베트남어 토큰 1.5배 적음(46에서 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
중국어 토큰 1.4배 적음(34에서 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
일본어 토큰 1.4배 적음(37에서 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
튀르키예어 토큰 1.3배 적음(39에서 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
이탈리아어 토큰 1.2배 적음(34에서 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
독일어 토큰 1.2배 적음(34에서 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
스페인어 토큰 1.1배 적음(29에서 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
포르투갈어 토큰 1.1배 적음(30에서 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
프랑스어 토큰 1.1배 적음(31에서 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
영어 토큰 1.1배 적음(27에서 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

모델 안전 및 제한 사항

GPT‑4o는 모달리티 전반에 걸쳐 설계상 안전성이 내장되어 있으며, 이를 위해 훈련 데이터 필터링, 사후 훈련을 통한 모델 행동 개선 등의 기술을 사용했습니다. 또한 음성 출력에 대한 가드레일을 제공하기 위해 새로운 안전 시스템을 만들었습니다.

GPT‑4o는 준비성 프레임워크⁠와 자발적 약속⁠에 따라 평가되었습니다. 사이버 보안, CBRN, 설득, 모델 자율성에 대한 평가를 수행한 결과, GPT‑4o는 이러한 카테고리에서 중간 위험 이상의 점수를 받지 않았습니다. 이 평가에서는 모델 훈련 과정 전반에 걸쳐 자동화된 평가와 사람의 평가가 수행되었습니다. 모델의 기능을 더 잘 끌어낼 수 있도록 맞춤형 파인 튜닝과 프롬프트를 사용하여 모델의 안전 완화 전 버전과 안전 완화 후 버전을 모두 테스트했습니다.

또한 GPT‑4o는 새롭게 추가된 모달리티에 의해 도입되거나 증폭되는 위험을 식별하기 위해 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 분야에서 70명 이상의 외부 전문가⁠와 협력하여 광범위한 외부 레드팀 작업을 진행했습니다. GPT‑4o와의 상호작용에 대한 안전성을 개선하기 위해 이러한 학습을 바탕으로 안전 조치를 구축했습니다. 새로운 위험이 발견되는 대로 이를 완화해 나갈 것입니다.

GPT‑4o의 오디오 모달리티에 다양하고 새로운 위험이 있다는 것을 잘 알고 있습니다. 오늘 우리는 텍스트 및 이미지 입력과 텍스트 출력을 공개합니다. 앞으로 몇 주와 몇 달 동안 다른 모달리티를 출시하는 데 필요한 기술 인프라, 사후 훈련을 통한 사용성, 안전성에 대한 작업을 진행할 예정입니다. 예를 들어, 출시 시 오디오 출력은 미리 설정된 일부 음성으로 제한되며, 기존 안전 정책을 준수합니다. 곧 공개할 시스템 카드에서 GPT‑4o의 모든 모달리티를 다루는 자세한 내용을 공유할 예정입니다.

모델을 테스트하고 반복하여 모델의 모든 모달리티에 걸쳐 존재하는 몇 가지 제한 사항이 관찰되었습니다. 아래에서 그 중 몇 가지를 설명하겠습니다.

모델 제한 사항 예시

계속해서 모델을 개선할 수 있도록, GPT‑4 Turbo가 아직 GPT‑4o보다 뛰어난 성능을 발휘하는 작업은 무엇인지 식별하는데 도움이 되는 피드백을 환영합니다.

ChatGPT-4o 위험 점수표

^{2024년 5월 8일 업데이트됨}

추적 대상 위험 카테고리

완화 전 위험 수준

가장 잘 알려진 역량 유도 기법을 사용하여 완화 전 위험 수준 판단

완화 후 위험 수준

완화 조치를 시행한 후에 가장 잘 알려진 역량 유도 기법을 사용하여 전체 위험 수준 판단

사이버 보안

낮음

CBRN

낮음

설득

중간

모델 자율성

낮음

준비성 프레임워크⁠의 일환으로 정기적으로 평가를 수행하고 모델의 점수표를 업데이트하고 있습니다. 완화 후 점수가 “중간” 이하인 모델만 배포되됩니다. 모델의 전체 위험 수준은 모든 카테고리에서 가장 높은 위험 수준에 따라 결정됩니다. 현재 GPT‑4o는 완화 전과 완화 후 모두 중간 위험으로 평가받았습니다.

모델 가용성

GPT‑4o는 심층 학습의 한계를 뛰어넘는 최신 단계로, 이번에는 실용적인 사용성을 위한 방향으로 나아가고 있습니다. 우리는 지난 2년 동안 스택의 모든 계층에서 효율성을 개선하기 위해 많은 노력을 기울였습니다. 이러한 연구의 첫 번째 결실로 GPT‑4 수준의 모델을 훨씬 더 광범위하게 사용할 수 있게 되었습니다. GPT‑4o의 기능은 점진적으로 출시될 예정입니다(오늘부터 레드팀 액세스 권한 확장).

GPT‑4o의 텍스트 및 이미지 기능이 오늘부터 ChatGPT에 점차 적용됩니다. 무료 사용자와 Plus 사용자는 최대 5배 더 높은 메시지 한도로 GPT‑4o를 사용할 수 있습니다. 앞으로 몇 주 안에에 ChatGPT Plus에 GPT‑4o가 포함된 새로운 버전의 음성 모드를 알파 버전으로 출시할 예정입니다.

이제 개발자는 API에서 텍스트 및 시각 모델로 GPT‑4o를 사용할 수도 있습니다. GPT‑4o는 GPT‑4 Turbo보다 속도가 2배 빠르지만, 가격은 절반이며 속도 제한은 5배 더 높습니다. 앞으로 몇 주 내에 신뢰할 수 있는 소규모의 파트너 그룹을 대상으로 API를 통해 GPT‑4o의 새로운 오디오 및 동영상 기능에 대한 지원을 시작할 계획입니다.

저자

OpenAI

기여자 보기

GPT‑4o를 소개합니다

모델 기능

기능 탐색

모델 평가

텍스트 평가

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

언어 토큰화

모델 안전 및 제한 사항

ChatGPT-4o 위험 점수표

모델 가용성

저자