ข้ามไปยังเนื้อหาหลัก
OpenAI

13 พฤษภาคม 2567

หมุดหมาย

สวัสดี GPT‑4o

เราขอประกาศเปิดตัว GPT‑4o ซึ่งเป็นโมเดลเรือธงใหม่ของเราที่สามารถให้เหตุผลได้ทั้งในรูปแบบเสียง ภาพ และข้อความแบบเรียลไทม์

วิดีโอทั้งหมดในหน้านี้อยู่ในแบบเรียลไทม์ 1x

คาดเดาการประกาศในวันที่ 13 พฤษภาคม

กำลังโหลด…

GPT‑4o (“o” สำหรับ “omni”) เป็นก้าวสำคัญสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยสามารถรับอินพุตที่เป็นข้อความ เสียง ภาพ และวิดีโอในรูปแบบใดก็ได้ และสร้างเอาต์พุตที่เป็นข้อความ เสียง และภาพในรูปแบบใดก็ได้ โดยสามารถตอบสนองต่ออินพุตเสียงได้ในเวลาเพียง 232 มิลลิวินาที โดยมีค่าเฉลี่ย 320 มิลลิวินาที ซึ่งคล้ายกับเวลาคำตอบของมนุษย์(เปิดในหน้าต่างใหม่)ในการสนทนา ซึ่งตรงกับประสิทธิภาพของ GPT‑4 Turbo ในการประมวลผลข้อความภาษาอังกฤษและโค้ด โดยมีการปรับปรุงอย่างมีนัยสำคัญในข้อความที่ไม่ใช่ภาษาอังกฤษ ขณะเดียวกันยังทำงานได้เร็วขึ้นมากและมีราคาถูกลง 50% ใน API GPT‑4o มีความสามารถในการทำความเข้าใจภาพและเสียงได้ดียิ่งขึ้นเมื่อเทียบกับโมเดลที่มีอยู่

ความสามารถของโมเดล

ก่อน GPT‑4o นั้น คุณสามารถใช้โหมดเสียงเพื่อพูดคุยกับ ChatGPT โดยมีเวลาในการตอบสนอง 2.8 วินาที (GPT‑3.5) และ 5.4 วินาที (GPT‑4) โดยเฉลี่ย เพื่อให้บรรลุเป้าหมายนี้ โหมดเสียงเป็นกระบวนการที่ประกอบด้วยสามโมเดลแยกกัน: โมเดลแรกที่เรียบง่ายจะแปลงเสียงเป็นข้อความ, GPT‑3.5 หรือ GPT‑4 รับข้อความและเอาต์พุตข้อความ และโมเดลที่สามที่เรียบง่ายจะแปลงข้อความนั้นย้อนกลับเป็นเสียง กระบวนการนี้หมายความว่าแหล่งข้อมูลหลักของปัญญาประดิษฐ์อย่าง GPT‑4 สูญเสียข้อมูลจำนวนมาก เนื่องจากไม่สามารถสังเกตโทนเสียง ผู้พูดหลายคน หรือเสียงรบกวนจากพื้นหลังได้โดยตรง และไม่สามารถเอาต์พุตเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ได้

สำหรับ GPT‑4o เราได้ฝึกโมเดลใหม่แบบครบวงจรสำหรับข้อความ ภาพ และเสียง ซึ่งหมายความว่าอินพุตและเอาต์พุตทั้งหมดได้รับการประมวลผลโดยเครือข่ายประสาทเทียมเดียวกัน เนื่องจาก GPT‑4o เป็นโมเดลแรกของเราที่รวมเอาคุณลักษณะต่างๆ เหล่านี้ไว้ด้วยกัน เราจึงยังคงเพียงแค่เริ่มต้นในการสำรวจว่าโมเดลนี้สามารถทำอะไรได้บ้างและมีข้อจำกัดอะไรบ้าง

การสำรวจขีดความสามารถ

เลือกตัวอย่าง:
1
อินพุต

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
เอาต์พุต
Robot on typewriter
3
อินพุต

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
เอาต์พุต
Robot on typewriter with more text
5
อินพุต

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
เอาต์พุต
Robot ripping sheet

การประเมินโมเดล

จากการวัดตามเกณฑ์มาตรฐานดั้งเดิม GPT‑4o บรรลุประสิทธิภาพระดับ GPT‑4 Turbo ในด้านข้อความ การใช้เหตุผล และความฉลาดในการเขียนโค้ด ขณะเดียวกันก็สร้างมาตรฐานใหม่ในด้านความสามารถหลายภาษา เสียง และภาพ

การประเมินข้อความ

การแบ่งโทเค็นของภาษา

ภาษา 20 ภาษานี้ได้รับการเลือกให้เป็นตัวแทนของการบีบอัดของตัวโทเค็นใหม่ในตระกูลภาษาต่างๆ

ภาษาคุชราต โทเค็นน้อยลง 4.4 เท่า (จาก 145 เหลือ 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

เตลูกูมีจำนวน token น้อยลง 3.5 เท่า (จาก 159 เหลือ 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

ทมิฬมีโทเค็นน้อยลง 3.3 เท่า (จาก 116 เหลือ 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

ภาษามราฐี โทเค็นน้อยลง 2.9 เท่า (จาก 96 เหลือ 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

ฮินดีมี token น้อยลง 2.9 เท่า (จาก 90 เหลือ 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

ภาษาอูรดูมีจำนวน token น้อยลง 2.5 เท่า (จาก 82 เหลือ 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

ภาษาอาหรับมีโทเค็นน้อยลง 2.0 เท่า (จาก 53 เหลือ 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

เปอร์เซียนมีจำนวน token น้อยลง 1.9 เท่า (จาก 61 เหลือ 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

รัสเซียมีจำนวน token น้อยลง 1.7 เท่า (จาก 39 เหลือ 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

ภาษาเกาหลีมีจำนวน token น้อยลง 1.7 เท่า (จาก 45 เหลือ 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

ภาษาเวียดนาม โทเค็นน้อยลง 1.5 เท่า (จาก 46 เหลือ 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

ภาษาจีน โทเค็นน้อยลง 1.4 เท่า (จาก 34 เป็น 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

ภาษาญี่ปุ่น โทเค็นน้อยลง 1.4 เท่า (จาก 37 เหลือ 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

ภาษาตุรกี โทเค็นน้อยลง 1.3 เท่า (จาก 39 เหลือ 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

ภาษาอิตาลีมีโทเค็นน้อยลง 1.2 เท่า (จาก 34 เหลือ 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

ภาษาเยอรมัน โทเค็นน้อยลง 1.2 เท่า (จาก 34 เหลือ 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

ภาษาสเปนใช้โทเค็นน้อยลง 1.1 เท่า (จาก 29 เหลือ 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

ภาษาโปรตุเกส โทเค็นน้อยลง 1.1 เท่า (จาก 30 เหลือ 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

ภาษาฝรั่งเศส โทเค็นน้อยลง 1.1 เท่า (จาก 31 เหลือ 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

ภาษาอังกฤษ โทเค็นน้อยลง 1.1 เท่า (จาก 27 เหลือ 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

ความปลอดภัยและข้อจำกัดของโมเดล

GPT‑4o ได้รับการออกแบบให้มีความปลอดภัยในตัวในทุกมิติ โดยใช้เทคนิคต่างๆ เช่น ตัวกรองข้อมูลการฝึกสอนและการปรับแต่งพฤติกรรมของโมเดลผ่านการฝึกสอนหลังการฝึก นอกจากนี้ เราได้สร้างระบบความปลอดภัยใหม่เพื่อให้มีแนวป้องกันสำหรับเอาต์พุตเสียง

เราได้ประเมิน GPT‑4o ตาม
กรอบงานความพร้อมของเราและสอดคล้องกับภาระผูกพันโดยสมัครใจของเรา การประเมินของเราด้านความปลอดภัยทางไซเบอร์, CBRN, การโน้มน้าวใจ และความเป็นอิสระของโมเดลแสดงให้เห็นว่า GPT‑4o ไม่ได้มีความเสี่ยงสูงกว่าระดับปานกลางในหมวดหมู่เหล่านี้ การประเมินนี้เกี่ยวข้องกับการดำเนินการชุดการประเมินอัตโนมัติและการประเมินโดยมนุษย์ตลอดกระบวนการฝึกสอนโมเดล เราได้ทดสอบทั้งรุ่นก่อนและหลังการบรรเทาความปลอดภัยของโมเดล โดยใช้การปรับแต่งเฉพาะและคำสั่งเพื่อดึงความสามารถของโมเดลออกมาได้ดียิ่งขึ้น

GPT‑4o ยังได้ผ่านการทำงานร่วมกับ
ผู้เชี่ยวชาญภายนอกมากกว่า 70 รายในโดเมน เช่น จิตวิทยาสังคม อคติและความเป็นธรรม และข้อมูลที่ผิดพลาด เพื่อระบุความเสี่ยงที่อาจเกิดขึ้นหรือถูกขยายโดยวิธีการใหม่ๆ ที่เพิ่มเข้ามา เราใช้บทเรียนเหล่านี้เพื่อพัฒนามาตรการความปลอดภัยเพื่อเพิ่มความปลอดภัยในการโต้ตอบกับ GPT‑4o เราจะดำเนินการบรรเทาความเสี่ยงใหม่ๆ ต่อไปเมื่อพบความเสี่ยงเหล่านั้น

เราตระหนักดีว่ารูปแบบเสียงของ GPT‑4o ก่อให้เกิดความเสี่ยงใหม่ๆ หลากหลาย วันนี้เราได้เปิดเผยอินพุตข้อความและภาพ และเอาต์พุตข้อความต่อสาธารณะ ในช่วงสัปดาห์และเดือนที่จะถึงนี้ เราจะทำงานเกี่ยวกับโครงสร้างพื้นฐานทางเทคนิค การใช้งานหลังการฝึกสอน และความปลอดภัยที่จำเป็นสำหรับการเปิดตัวรูปแบบอื่นๆ ตัวอย่างเช่น เมื่อเปิดตัว เอาต์พุตเสียงจะถูกจำกัดให้เลือกเฉพาะเสียงที่ตั้งไว้ล่วงหน้า และจะปฏิบัติตามนโยบายความปลอดภัยที่มีอยู่ของเรา เราจะนำเสนอรายละเอียดเพิ่มเติมที่ครอบคลุมรูปแบบการทำงานทั้งหมดของ GPT‑4o ในการ์ดระบบที่จะเผยแพร่ในอนาคตอันใกล้

จากการทดสอบและการปรับปรุงโมเดลของเรา เราได้สังเกตเห็นข้อจำกัดหลายประการที่มีอยู่ในทุกมิติของโมเดล ซึ่งบางส่วนได้แสดงไว้ด้านล่างนี้

ตัวอย่างข้อจำกัดของโมเดล

เรายินดีรับฟังข้อเสนอแนะเพื่อช่วยระบุงานที่ GPT‑4 Turbo ยังคงมีประสิทธิภาพเหนือกว่า GPT‑4o เพื่อที่เราจะได้ปรับปรุงโมเดลนี้ต่อไป ขอบคุณ 

ตารางสรุปสถิติความเสี่ยง ChatGPT-4o

อัปเดตเมื่อ 8 พฤษภาคม 2024

หมวดหมู่ความเสี่ยงที่ติดตาม
ระดับความเสี่ยงก่อนการลดผลกระทบ
กำหนดระดับความเสี่ยงก่อนการบรรเทาโดยใช้เทคนิคการดึงความสามารถที่เป็นที่รู้จักดีที่สุด
ระดับความเสี่ยงหลังการลดความเสี่ยง
กำหนดระดับความเสี่ยงโดยรวมหลังจากมีการบรรเทา โดยใช้เทคนิคการดึงความสามารถที่ดีที่สุดที่มีอยู่
ความปลอดภัยทางไซเบอร์
ต่ำ
ต่ำ
CBRN
ต่ำ
ต่ำ
การโน้มน้าว
ปานกลาง
ปานกลาง
ความเป็นอิสระของโมเดล
ต่ำ
ต่ำ

ในฐานะที่เป็นส่วนหนึ่งของกรอบงานความพร้อมของเรา เราดำเนินการประเมินผลอย่างสม่ำเสมอและอัปเดตคะแนนสำหรับโมเดลของเรา เฉพาะโมเดลที่มีคะแนนหลังการลดความเสี่ยงเป็น "ปานกลาง" หรือต่ำกว่าเท่านั้นที่จะถูกนำไปใช้งาน ระดับความเสี่ยงโดยรวมของโมเดลจะถูกกำหนดโดยระดับความเสี่ยงสูงสุดในหมวดหมู่ใดๆ ปัจจุบัน GPT‑4o ได้รับการประเมินว่ามีความเสี่ยงปานกลางทั้งก่อนและหลังการบรรเทาความเสียหาย

ความพร้อมใช้งานของรุ่น 1

GPT‑4o เป็นผลิตภัณฑ์ล่าสุดของเราในการผลักดันขอบเขตของดีปเลิร์นนิง โดยในครั้งนี้มุ่งเน้นไปที่การใช้งานจริง เราได้ทุ่มเทความพยายามอย่างมากในช่วงสองปีที่ผ่านมาในการปรับปรุงประสิทธิภาพในทุกชั้นของสแต็ก ผลแรกของการวิจัยนี้คือ เราสามารถทำให้โมเดลระดับ GPT‑4 ใช้งานได้ในวงกว้างมากขึ้น ความสามารถของ GPT‑4o จะได้รับการเปิดตัวอย่างต่อเนื่อง (โดยมีการขยายการเข้าถึงทีมสีแดงเริ่มตั้งแต่วันนี้) 

ความสามารถด้านข้อความและภาพของ GPT‑4o กำลังเริ่มเปิดตัวใน ChatGPT วันนี้ เรากำลังทำให้ GPT‑4o พร้อมใช้งานในระดับฟรี และสำหรับผู้ใช้ Plus ที่มีขีดจำกัดข้อความสูงสุดเพิ่มขึ้นถึง 5 เท่า เราจะเปิดตัวเวอร์ชันใหม่ของโหมดเสียงพร้อมกับ GPT‑4o ในเวอร์ชันอัลฟาภายใน ChatGPT Plus ในอีกไม่กี่สัปดาห์ข้างหน้า

นักพัฒนาสามารถเข้าถึง GPT‑4o ใน API ได้แล้วในฐานะโมเดลข้อความและภาพ GPT‑4o มีความเร็วเพิ่มขึ้น 2 เท่า ราคาลดลงครึ่งหนึ่ง และมีลิมิตการใช้งานสูงขึ้น 5 เท่าเมื่อเทียบกับ GPT‑4 Turbo เราบริการที่จะเปิดตัวการสนับสนุนความสามารถด้านเสียงและวิดีโอใหม่ของ GPT‑4o ให้กับกลุ่มพันธมิตรที่เชื่อถือได้ขนาดเล็กใน API ในอีกไม่กี่สัปดาห์ข้างหน้า