18 tháng 7, 2024

GPT‑4o mini: phát triển trí tuệ với chi phí hợp lý

Giới thiệu mô hình nhỏ gọn tiết kiệm chi phí nhất của chúng tôi

Đang tải…

OpenAI cam kết làm cho trí tuệ nhân tạo trở nên dễ tiếp cận với mọi người. Hôm nay, chúng tôi xin công bố GPT‑4o mini, mô hình nhỏ gọn tiết kiệm chi phí nhất của chúng tôi. Chúng tôi kỳ vọng GPT‑4o mini sẽ mở rộng đáng kể phạm vi ứng dụng AI bằng cách làm cho trí tuệ nhân tạo trở nên dễ tiếp cận với chi phí hợp lý hơn. GPT‑4o mini đạt 82% điểm trên MMLU và hiện tại vượt trội hơn GPT‑4¹ về lựa chọn chat trên bảng xếp hạng LMSYS⁠(mở trong cửa sổ mới). GPT‑4o có giá 15 xu mỗi triệu token đầu vào đã lưu vào bộ nhớ tạm và 60 xu mỗi triệu token đầu ra, rẻ hơn rất nhiều so với các mẫu mô hình tiên tiến trước đây và tiết kiệm hơn 60% so với GPT‑3.5 Turbo.

GPT‑4o mini cho phép thực hiện đa dạng các tác vụ nhờ chi phí và độ trễ thấp, chẳng hạn như các ứng dụng nối kết hoặc song song hóa nhiều lệnh gọi mô hình (ví dụ: gọi nhiều API), truyền tải lượng ngữ cảnh lớn cho mô hình (ví dụ: toàn bộ mã nguồn hoặc lịch sử trò chuyện) hoặc tương tác với khách hàng qua phản hồi văn bản nhanh và thời gian thực (ví dụ: chatbot hỗ trợ khách hàng).

Hiện tại, GPT‑4o mini hỗ trợ văn bản và hình ảnh trong API, trong tương lai sẽ hỗ trợ cả đầu vào và đầu ra văn bản, hình ảnh, video và âm thanh. Mô hình có cửa sổ ngữ cảnh 128K token, hỗ trợ tối đa 16K token đầu ra mỗi yêu cầu, và có kiến thức đến tháng 10 năm 2023. Nhờ vào bộ phân tích token tiên tiến dùng chung với GPT‑4o, việc xử lý văn bản không phải tiếng Anh giờ đây trở nên tiết kiệm chi phí hơn bao giờ hết.

Một mô hình nhỏ gọn với trí tuệ văn bản vượt trội và khả năng lý luận đa phương thức

GPT‑4o mini vượt trội hơn GPT‑3.5 Turbo và các mô hình nhỏ khác ở các tiêu chuẩn học thuật cả về trí tuệ văn bản và khả năng lý luận đa phương thức, đồng thời hỗ trợ cùng một phạm vi ngôn ngữ như GPT‑4o. Nó cũng thể hiện hiệu suất mạnh mẽ trong việc gọi hàm, điều này cho phép các nhà phát triển xây dựng các ứng dụng có thể lấy dữ liệu hoặc thực hiện các hành động với các hệ thống bên ngoài, đồng thời cải thiện hiệu suất với ngữ cảnh dài so với GPT‑3.5 Turbo.

GPT‑4o mini đã được đánh giá qua nhiều tiêu chuẩn quan trọng ².

Tác vụ suy luận: GPT‑4o mini vượt trội hơn các mô hình nhỏ khác trong các tác vụ suy luận liên quan đến cả văn bản lẫn hình ảnh, đạt điểm 82,0% trên MMLU, một tiêu chuẩn về trí tuệ văn bản và suy luận, so với 77,9% của Gemini Flash và 73,8% của Claude Haiku.

Khả năng toán học và mã hóa: GPT‑4o mini vượt trội trong các tác vụ lý luận toán học và mã hóa, vượt qua các mô hình nhỏ trước đây trên thị trường. Về khả năng suy luận toán học trên MGSM, GPT‑4o mini đạt điểm 87,0% trong khi Gemini Flash đạt 75,5% và Claude Haiku đạt 71,7%. GPT‑4o mini đạt 87,2% trên HumanEval, thước đo hiệu suất mã hóa, trong khi Gemini Flash đạt 71,5% và Claude Haiku đạt 75,9%.

Khả năng suy luận đa phương thức: GPT‑4o mini cũng thể hiện hiệu suất mạnh mẽ trên MMMU, một bài đánh giá suy luận đa phương thức, đạt 59,4% so với 56,1% của Gemini Flash và 50,2% của Claude Haiku.

Điểm đánh giá mô hình

Trong quá trình phát triển mô hình, chúng tôi đã hợp tác với một số đối tác đáng tin cậy để hiểu rõ hơn về các trường hợp sử dụng và những hạn chế của GPT‑4o mini. Chúng tôi đã hợp tác với các công ty như Ramp⁠(mở trong cửa sổ mới) và Superhuman⁠(mở trong cửa sổ mới), các công ty này nhận thấy GPT‑4o mini hoạt động vượt trội hơn nhiều so với GPT‑3.5 Turbo trong các tác vụ như trích xuất dữ liệu có cấu trúc từ các tệp biên lai hoặc tạo ra các phản hồi email chất lượng cao khi được cung cấp lịch sử cuộc trò chuyện.

Các biện pháp an toàn tích hợp sẵn

Tính an toàn được tích hợp vào các mô hình của chúng tôi ngay từ đầu và được củng cố ở mọi bước trong quá trình phát triển. Trước khi huấn luyện, chúng tôi lọc bỏ⁠(mở trong cửa sổ mới) những thông tin mà chúng tôi không muốn mô hình học hoặc tạo ra như ngôn từ thù hận, nội dung người lớn, các trang web chủ yếu thu thập thông tin cá nhân và spam. Ở giai đoạn sau huấn luyện, chúng tôi điều chỉnh hành vi của mô hình theo các chính sách của mình bằng cách sử dụng các kỹ thuật như học củng cố với phản hồi từ con người (RLHF)⁠ để cải thiện độ chính xác và độ tin cậy của các phản hồi từ mô hình.

GPT‑4o mini có các biện pháp giảm thiểu an toàn tích hợp sẵn giống như GPT‑4o⁠, chúng tôi đã đánh giá kỹ lưỡng thông qua cả đánh giá tự động và đánh giá từ con người theo Khung chuẩn bị⁠ của chúng tôi, đồng thời tuân thủ các cam kết tự nguyện của mình. Hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý học xã hội và thông tin sai lệch đã kiểm tra GPT‑4o để xác định các rủi ro tiềm ẩn mà chúng tôi đã giải quyết và dự định chia sẻ chi tiết trong thẻ hệ thống GPT‑4o và bảng điểm Chuẩn bị sắp tới. Phân tích chuyên sâu từ các đánh giá chuyên môn này đã giúp cải thiện tính an toàn của cả GPT‑4o và GPT‑4o mini.

Dựa trên những bài học này, các nhóm của chúng tôi cũng đã nỗ lực cải thiện tính an toàn của GPT‑4o mini bằng các kỹ thuật mới được thông báo từ nghiên cứu của chúng tôi. GPT‑4o mini trong API là mô hình đầu tiên áp dụng phương pháp phân cấp hướng dẫn⁠(mở trong cửa sổ mới), giúp cải thiện khả năng của mô hình trong việc chống lại các hành vi bẻ khóa, chèn lời nhắc và trích xuất lời nhắc hệ thống. Điều này làm cho các phản hồi của mô hình trở nên đáng tin cậy hơn và giúp mô hình trở nên an toàn hơn khi sử dụng trong các ứng dụng quy mô lớn.

Chúng tôi sẽ tiếp tục theo dõi cách GPT‑4o mini được sử dụng và cải thiện tính an toàn của mô hình khi chúng tôi xác định các rủi ro mới.

Tính khả dụng và mức giá

GPT‑4o mini hiện đã có sẵn dưới dạng mô hình văn bản và hình ảnh trong API Trợ lý, API hoàn thiện hội thoại và API Batch. Các nhà phát triển sẽ phải trả 15 cent cho mỗi 1 triệu token đầu vào đã lưu vào bộ nhớ tạm và 60 cent cho mỗi 1 triệu token đầu ra (tương đương khoảng 2500 trang trong một cuốn sách tiêu chuẩn). Chúng tôi dự định sẽ triển khai việc tinh chỉnh cho GPT‑4o mini trong thời gian tới.

Trong ChatGPT, người dùng Free, Plus và Team sẽ có thể truy cập GPT‑4o mini ngay từ hôm nay, thay thế cho GPT‑3.5. Người dùng Enterprise cũng sẽ có quyền truy cập bắt đầu từ tuần sau, phù hợp với sứ mệnh của chúng tôi là mang lợi ích của AI đến tất cả mọi người.

Kế hoạch tiếp theo

Trong những năm qua, chúng ta đã chứng kiến
những tiến bộ đáng kể trong trí tuệ AI cùng với sự giảm chi phí mạnh mẽ. Ví dụ, chi phí mỗi token của GPT‑4o mini đã giảm 99% kể từ khi text-davinci-003, một mô hình kém hơn được giới thiệu vào năm 2022. Chúng tôi cam kết tiếp tục duy trì xu hướng giảm chi phí đồng thời nâng cao khả năng của mô hình.

Chúng tôi hình dung một tương lai nơi các mô hình AI sẽ được tích hợp một cách liền mạch trong mọi ứng dụng và trên mọi trang web. GPT‑4o mini đang mở đường cho các nhà phát triển xây dựng và mở rộng các ứng dụng AI mạnh mẽ một cách hiệu quả và tiết kiệm chi phí hơn. Tương lai của AI đang trở nên dễ tiếp cận hơn, đáng tin cậy hơn và gắn liền với trải nghiệm số hàng ngày của chúng ta. Chúng tôi rất hào hứng tiếp tục dẫn đầu trong hành trình này.

Tác giả

OpenAI

Lời cảm ơn

Trưởng nhóm: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Trưởng nhóm chương trình: Mianna Chen

Các đóng góp được ghi nhận tại https://openai.com/gpt-4o-contributions/⁠

Ghi chú cuối trang

1
Tính đến ngày 18 tháng 7 năm 2024, một phiên bản trước của GPT-4o mini đã vượt trội hơn GPT-4T 01-25.
2
Các chỉ số đánh giá cho GPT-4o mini được tính toán bằng bộ mã nguồn simple-evals⁠(mở trong cửa sổ mới) của chúng tôi với lời nhắc thông báo hệ thống cho trợ lý API. Đối với các mô hình của đối thủ, chúng tôi sẽ lấy điểm số cao nhất theo số liệu do họ tự công bố (nếu có), kết quả bảng xếp hạng HELM⁠(mở trong cửa sổ mới), và kết quả riêng của chúng tôi theo simple-evals.