14 tháng 3, 2023

GPT‑4

Đọc báo Xem thẻ thông tin hệ thống Dùng thử ChatGPT Plus

Tài nguyên khác

Thử trong công cụ Playground Xem lại buổi phát trực tiếp giới thiệu bản demo Đóng góp cho OpenAI Evals

Đang tải…

Chúng tôi đã phát triển GPT‑4, cột mốc mới nhất trong nỗ lực của OpenAI nhằm mở rộng quy mô kỹ thuật học sâu. GPT‑4 là một mô hình đa phương thức quy mô lớn (có khả năng dùng cả văn bản và hình ảnh làm dữ liệu đầu vào và cho kết quả đầu ra bằng văn bản) dù vẫn kém năng lực của con người trong nhiều tình huống thực tế nhưng đã thể hiện được hiệu suất ở mức độ tương đương con người trên nhiều bài kiểm tra đánh giá chuẩn khác nhau về mặt chuyên môn và học thuật. Chẳng hạn, GPT‑4 vượt qua đợt kiểm tra cấp chứng chỉ hành nghề luật mô phỏng với số điểm nằm trong nhóm 10% thí sinh có kết quả cao nhất; ngược lại, điểm số của GPT‑3.5 chỉ nằm trong nhóm 10% thấp nhất. Chúng tôi đã dành 6 tháng để hiệu chỉnh⁠ GPT‑4 một cách tuần tự, rút kinh nghiệm từ chương trình kiểm thử đối kháng cũng như từ ChatGPT, giúp thu được kết quả tốt nhất từ trước đến nay (dù vẫn cần cải thiện rất nhiều) về độ chính xác, khả năng điều hướng theo chỉ dẫn và năng lực từ chối thực hiện các yêu cầu vượt ngoài giới hạn an toàn.

Trong hai năm qua, chúng tôi đã xây dựng lại toàn bộ nền tảng học sâu và hợp tác với Azure để cùng thiết kế một siêu máy tính hoàn toàn mới từ đầu dành riêng cho khối lượng tác vụ của mình. Một năm trước, chúng tôi huấn luyện GPT‑3.5 như một “thử nghiệm đầu tiên” cho hệ thống mới này. Qua đó, chúng tôi đã phát hiện và sửa một số lỗi cũng như cải thiện các nền tảng lý thuyết. Kết quả của nỗ lực đó là quá trình huấn luyện GPT‑4 (ít nhất là đối với chúng tôi!) diễn ra ổn định chưa từng có, trở thành mô hình lớn đầu tiên mà chúng tôi có thể dự đoán chính xác hiệu suất huấn luyện ngay từ trước. Khi tiếp tục tập trung mở rộng quy mô một cách đáng tin cậy, chúng tôi hướng đến việc hoàn thiện phương pháp nhằm giúp dự đoán và chuẩn bị trước cho các năng lực của mô hình trong tương lai sớm nhất có thể — điều mà chúng tôi xem là cốt lõi để đảm bảo an toàn.

Chúng tôi hiện phát hành khả năng tiếp nhận đầu vào văn bản của GPT‑4 thông qua ChatGPT và API (với danh sách chờ⁠). Để chuẩn bị cho việc mở rộng khả năng tiếp nhận hình ảnh, trước mắt chúng tôi đang hợp tác chặt chẽ với một đối tác⁠(mở trong cửa sổ mới) duy nhất. Chúng tôi cũng công khai mã nguồn OpenAI Evals⁠(mở trong cửa sổ mới), bộ khung đánh giá hiệu suất mô hình AI một cách tự động nhằm cho phép tất cả mọi người báo cáo các điểm hạn chế trong mô hình của chúng tôi, từ đó hỗ trợ định hướng các cải tiến tiếp theo.

Khả năng

Trong một cuộc trò chuyện thông thường, sự khác biệt giữa GPT‑3.5 và GPT‑4 có thể không đáng kể. Tuy nhiên, khi độ phức tạp của nhiệm vụ vượt qua một ngưỡng nhất định, GPT‑4 thể hiện độ tin cậy cao hơn, sáng tạo hơn và có khả năng xử lý các hướng dẫn tinh vi hơn nhiều so với GPT‑3.5.

Để hiểu rõ sự khác biệt giữa hai mô hình này, chúng tôi đã tiến hành kiểm tra trên nhiều bộ tiêu chuẩn đánh giá khác nhau, bao gồm cả việc mô phỏng các kỳ thi vốn được thiết kế dành cho con người. Chúng tôi sử dụng các bài kiểm tra công khai mới nhất (trong trường hợp các kỳ thi Olympic và câu hỏi tự luận của AP) hoặc mua các phiên bản đề luyện thi năm 2022–2023. Chúng tôi không huấn luyện mô hình một cách chuyên biệt để làm các bài thi này. Một tỷ lệ nhỏ câu hỏi trong các bài thi có thể đã xuất hiện trong quá trình huấn luyện mô hình nhưng chúng tôi tin rằng kết quả thu được vẫn mang tính đại diện — vui lòng tham khảo báo cáo kỹ thuật⁠(mở trong cửa sổ mới) của chúng tôi để biết thêm chi tiết.

nguồn tham chiếu nội bộ ¹

Đang tải...

Chúng tôi cũng đã đánh giá GPT‑4 trên các bộ tiêu chuẩn truyền thống được thiết kế dành cho các mô hình học máy. GPT‑4 vượt trội đáng kể so với các mô hình ngôn ngữ lớn hiện có cũng như phần lớn các mô hình tiên tiến (SOTA) nhất hiện nay, bao gồm cả những mô hình được điều chỉnh riêng cho từng bộ tiêu chuẩn hoặc có giao thức huấn luyện bổ sung:

Đang tải...

Nhiều bộ tiêu chuẩn đánh giá ML hiện nay được viết bằng tiếng Anh. Để có cái nhìn ban đầu về năng lực của GPT‑4 ở các ngôn ngữ khác, chúng tôi đã dịch bộ tiêu chuẩn MMLU — gồm 14.000 câu hỏi trắc nghiệm thuộc 57 chủ đề khác nhau — sang nhiều ngôn ngữ bằng Azure Translate (vui lòng tham khảo Phụ lục⁠). Trong số 26 ngôn ngữ được kiểm tra, GPT‑4 đạt kết quả vượt trội so với hiệu suất tiếng Anh của GPT‑3.5 và các mô hình ngôn ngữ lớn khác (như Chinchilla, PaLM) ở 24 ngôn ngữ, bao gồm cả các ngôn ngữ ít tài nguyên như tiếng Latvia, tiếng Wales và tiếng Swahili:

Đang tải...

Chúng tôi cũng đã sử dụng GPT‑4 nội bộ với tác động tích cực rõ rệt trong nhiều chức năng như hỗ trợ khách hàng, bán hàng, kiểm duyệt nội dung và lập trình. Ngoài ra, chúng tôi cũng đang dùng GPT‑4 để hỗ trợ con người trong việc đánh giá đầu ra của các hệ thống AI, mở ra giai đoạn thứ hai trong chiến lược điều chỉnh⁠ của chúng tôi.

Thông tin đầu vào bằng hình ảnh

GPT‑4 có thể tiếp nhận thông tin đầu vào bằng cả lời nhắc bằng văn bản lẫn hình ảnh—tương tự như chế độ chỉ văn bản — cho phép người dùng chỉ định bất kỳ nhiệm vụ về hình ảnh hoặc ngôn ngữ nào. Cụ thể, GPT‑4 tạo ra các kết quả đầu ra dưới dạng văn bản (ngôn ngữ tự nhiên, code, v.v.) dựa trên dữ liệu đầu vào gồm cả văn bản và hình ảnh. Trong nhiều lĩnh vực — gồm tài liệu có văn bản và ảnh chụp, sơ đồ hoặc ảnh chụp màn hình — GPT‑4 thể hiện năng lực tương tự như khi xử lý đầu vào chỉ có văn bản. Ngoài ra, GPT‑4 có thể được củng cố bằng các kỹ thuật test-time được phát triển cho các mô hình ngôn ngữ chỉ sử dụng văn bản, bao gồm lời nhắc bằng few-shot và kỹ thuật chuỗi tư duy⁠(mở trong cửa sổ mới). Thông tin đầu vào bằng hình ảnh hiện vẫn trong giai đoạn xem trước nghiên cứu và chưa được công khai.

Đang tải...

Chúng tôi xem trước hiệu suất của GPT‑4 bằng cách đánh giá trên một bộ tiêu chuẩn hình ảnh học thuật hẹp. Tuy nhiên, những con số này chưa phản ánh đầy đủ khả năng của mô hình bởi chúng tôi liên tục phát hiện các nhiệm vụ mới và thú vị mà mô hình có thể giải quyết. Chúng tôi dự kiến sớm công bố thêm các phân tích và số liệu đánh giá cũng như nghiên cứu kỹ lưỡng về tác động của các kỹ thuật test-time.

nội dung chú thích nội bộ^A

Đang tải...

Khả năng điều hướng hành vi

Chúng tôi đã và đang phát triển từng khía cạnh trong kế hoạch được nêu trong bài viết về việc xác định hành vi của AI, bao gồm cả khả năng điều hướng hành vi. Thay vì sử dụng phong cách cố định về sự dài dòng, giọng điệu và phong cách như ChatGPT truyền thống, các nhà phát triển (và sắp tới là người dùng ChatGPT) giờ đây có thể chỉ định phong cách và nhiệm vụ của AI bằng cách mô tả những hướng dẫn đó trong tin nhắn “hệ thống”. Tin nhắn hệ thống cho phép người dùng API tùy chỉnh đáng kể trải nghiệm của người dùng trong phạm vi cho phép⁠(mở trong cửa sổ mới). Chúng tôi sẽ tiếp tục cải tiến tính năng này (đặc biệt lưu ý rằng tin nhắn hệ thống là cách dễ nhất để “bẻ khóa” mô hình hiện tại, tức là việc tuân thủ phạm vi vẫn chưa hoàn hảo) nhưng vẫn khuyến khích bạn thử và cho chúng tôi biết ý kiến.

Đang tải...

Hạn chế

Mặc dù có nhiều khả năng, GPT‑4 vẫn còn các hạn chế tương tự như các phiên bản GPT trước đó. Quan trọng nhất là mô hình chưa hoàn toàn đáng tin cậy (vẫn “ảo giác” thông tin và mắc lỗi suy luận). Cần thận trọng khi sử dụng kết quả từ mô hình ngôn ngữ, nhất là trong những bối cảnh quan trọng với quy trình phù hợp (như có người kiểm duyệt, dựa vào bối cảnh bổ sung hoặc tránh sử dụng trong các trường hợp rủi ro cao), tùy thuộc vào nhu cầu cụ thể.

Dù vẫn là vấn đề thực sự, GPT‑4 đã giảm đáng kể hiện tượng ảo giác thông tin so với các phiên bản trước (và các phiên bản này cũng đang được cải thiện qua từng lần nâng cấp). GPT‑4 đạt điểm cao hơn 40% so với phiên bản GPT‑3.5 mới nhất trong các đánh giá nội bộ về tính xác thực và khả năng đối kháng:

Đang tải...

Chúng tôi cũng đã có tiến bộ trên các bài kiểm tra bên ngoài như TruthfulQA, đánh giá khả năng phân biệt sự thật với tập hợp các phát biểu sai lệch được lựa chọn gây hiểu nhầm. Các câu hỏi này đi kèm với những câu trả lời sai lệch nhưng có vẻ hợp lý về mặt thống kê.

Đang tải...

Mô hình GPT‑4 gốc chỉ nhỉnh hơn GPT‑3.5 chút ít trong nhiệm vụ này; tuy nhiên, sau khi được huấn luyện lại bằng phương pháp RLHF⁠ (áp dụng quy trình tương tự như với GPT‑3.5⁠) khoảng cách trở nên rất lớn. Khi xem xét một số ví dụ bên dưới, GPT‑4 tránh chọn những câu thành ngữ phổ biến (cây già khó sửa) song vẫn có thể bỏ sót những chi tiết tinh vi (ví dụ: Elvis Presley không phải là con trai của một diễn viên).

Đang tải...

Mô hình này có thể mang theo nhiều thành kiến khác nhau trong kết quả đầu ra — chúng tôi đã đạt được tiến bộ trong việc khắc phục những vấn đề này nhưng vẫn còn nhiều việc phải làm. Theo bài đăng blog gần đây⁠ của chúng tôi, mục tiêu là xây dựng các hệ thống AI có hành vi mặc định hợp lý, phản ánh được giá trị của đa số người dùng, cho phép tùy chỉnh trong phạm vi rộng, đồng thời lấy ý kiến công chúng về các giới hạn đó nên được thiết lập như thế nào.

GPT‑4 nhìn chung thiếu kiến thức về các sự kiện xảy ra sau thời điểm phần lớn dữ liệu huấn luyện của GPT‑4 được chốt (tháng 9 năm 2021) và không học hỏi từ kinh nghiệm của mình. GPT‑4 đôi khi mắc lỗi suy luận đơn giản không tương thích với mức độ thông minh cao trên nhiều lĩnh vực hoặc quá dễ tin vào những phát biểu sai rõ ràng từ người dùng. Đôi lúc, GPT‑4 cũng thất bại trong việc giải quyết những vấn đề khó tương tự như con người, ví dụ như vô tình tạo ra các lỗ hổng bảo mật trong mã nguồn mà nó viết ra.

GPT‑4 cũng có thể trả lời sai nhưng vẫn tự tin trong các dự đoán, không cẩn thận kiểm tra lại khi có khả năng mắc lỗi. Điều thú vị là mô hình cơ bản được huấn luyện sẵn có độ hiệu chỉnh cao (mức độ tin cậy mà nó dự đoán cho một câu trả lời thường khớp với xác suất đúng của câu đó). Tuy nhiên, qua quá trình huấn luyện bổ sung hiện tại, độ hiệu chỉnh này giảm đi.

Đang tải...

Rủi ro và giảm thiểu rủi ro

Chúng tôi đã liên tục cải tiến GPT‑4 nhằm nâng cao độ an toàn và phù hợp ngay từ đầu quá trình huấn luyện với các nỗ lực bao gồm lựa chọn và lọc dữ liệu trước huấn luyện, đánh giá và tham vấn chuyên gia, cải thiện độ an toàn mô hình, cùng với việc giám sát và thực thi.

GPT‑4 có những rủi ro tương tự như các mô hình trước đây, chẳng hạn như tạo ra lời khuyên có hại, code lỗi, hoặc thông tin không chính xác. Tuy nhiên, với khả năng nâng cao, GPT‑4 cũng tạo ra các điểm rủi ro mới. Để hiểu rõ hơn về mức độ rủi ro này, chúng tôi đã mời hơn 50 chuyên gia từ các lĩnh vực như rủi ro liên quan đến sự phù hợp AI, an ninh mạng, rủi ro sinh học, niềm tin và an toàn, cũng như an ninh quốc tế, để tiến hành thử nghiệm đối kháng trên mô hình. Những phát hiện của họ đã giúp chúng tôi kiểm tra hành vi của mô hình ở các lĩnh vực có rủi ro cao, đòi hỏi kiến thức chuyên môn để đánh giá. Phản hồi và dữ liệu từ các chuyên gia này đã được sử dụng để cải thiện và giảm thiểu rủi ro cho mô hình; ví dụ, chúng tôi đã thu thập thêm dữ liệu để nâng cao khả năng từ chối các yêu cầu liên quan đến việc tổng hợp hóa chất nguy hiểm của GPT‑4.

Trong quá trình huấn luyện RLHF, GPT‑4 còn được tích hợp một tín hiệu định hướng an toàn bổ sung nhằm giảm các kết quả có hại (được định nghĩa theo hướng dẫn sử dụng⁠(mở trong cửa sổ mới) của chúng tôi) bằng cách huấn luyện mô hình từ chối các yêu cầu liên quan đến nội dung này. Tín hưởng định hướng đến từ một bộ phân loại GPT‑4 zero-shot, đánh giá ranh giới an toàn và phong cách hoàn thành trong các câu lệnh prompt liên quan đến an toàn. Để ngăn mô hình từ chối những yêu cầu hợp lệ, chúng tôi thu thập một bộ dữ liệu đa dạng từ nhiều nguồn khác nhau (ví dụ: dữ liệu sản xuất đã được gán nhãn, nhóm chuyên gia kiểm thử, các câu lệnh prompt do mô hình tạo ra) và áp dụng tín hiệu phần thưởng an toàn (với giá trị tích cực hoặc tiêu cực) lên cả những danh mục được phép và không được phép.

Các biện pháp giảm thiểu của chúng tôi đã cải thiện đáng kể nhiều đặc tính an toàn của GPT‑4 so với GPT‑3.5. So với GPT‑3.5, chúng tôi đã giảm bớt 82% xu hướng của mô hình trong việc phản hồi các yêu cầu nội dung bị cấm, đồng thời, GPT‑4 trả lời các yêu cầu nhạy cảm (ví dụ như tư vấn y tế và tự hại bản thân) đúng theo chính sách của chúng tôi nhiều hơn 29%.

Đang tải...

Tổng thể, các can thiệp ở cấp độ mô hình làm tăng khó khăn cho việc kích hoạt các hành vi xấu, tuy nhiên điều này vẫn có thể xảy ra. Bên cạnh đó, vẫn tồn tại những cách “Jailbreak” (bẻ khóa) để tạo ra nội dung vi phạm hướng dẫn sử dụng⁠ của chúng tôi. Khi “rủi ro trên mỗi token” của hệ thống AI tăng lên, việc đạt được mức độ tin cậy cực kỳ cao trong các can thiệp này sẽ trở nên rất quan trọng; hiện tại, cần phải bổ sung các kỹ thuật an toàn trong quá trình triển khai như giám sát để phòng tránh lạm dụng.

GPT‑4 và các mô hình kế tiếp có tiềm năng ảnh hưởng sâu rộng đến xã hội, cả theo hướng tích cực lẫn tiêu cực. Chúng tôi đang hợp tác với các nhà nghiên cứu bên ngoài để cải thiện cách hiểu và đánh giá các tác động tiềm năng, cũng như xây dựng các bài đánh giá về khả năng nguy hiểm có thể phát sinh trong các hệ thống tương lai. Chúng tôi sẽ sớm chia sẻ thêm về suy nghĩ của mình về các tác động xã hội và kinh tế của GPT‑4 cùng các hệ thống AI khác.

Quy trình huấn luyện

Giống như các mô hình GPT trước đây, mô hình cơ bản GPT‑4 được huấn luyện để dự đoán từ tiếp theo trong một tài liệu, sử dụng dữ liệu công khai (như dữ liệu trên internet) cũng như dữ liệu mà chúng tôi đã cấp phép. Dữ liệu này là một tập hợp quy mô web, bao gồm cả các lời giải đúng và sai cho các bài toán, các lập luận yếu và mạnh, các câu mâu thuẫn và nhất quán, đồng thời đại diện cho đa dạng ý tưởng và quan điểm khác nhau.

Vì vậy, khi được hỏi bằng các câu lệnh prompt, mô hình cơ bản có thể trả lời theo nhiều cách khác nhau, có thể không sát với ý định của người dùng. Để điều chỉnh mô hình theo ý định người dùng trong giới hạn an toàn, chúng tôi tinh chỉnh hành vi của mô hình bằng cách sử dụng kỹ thuật học tăng cường có phản hồi từ con người (RLHF⁠).

Cần lưu ý rằng khả năng của mô hình chủ yếu đến từ quá trình tiền huấn luyện — RLHF không cải thiện kết quả thi cử (thậm chí nếu không có nỗ lực chủ động còn có thể làm giảm hiệu quả). Tuy nhiên, việc điều hướng mô hình đến từ quá trình hậu huấn luyện — mô hình cơ bản cần có kỹ thuật tạo prompt để nhận biết rằng nó cần trả lời câu hỏi.

Mở rộng quy mô có thể dự đoán được

Một trọng tâm lớn trong dự án GPT‑4 là xây dựng một hệ thống học sâu có thể mở rộng quy mô một cách dự đoán được. Lý do chính là đối với các quá trình huấn luyện rất lớn như GPT‑4, việc điều chỉnh mô hình cụ thể một cách chi tiết là không khả thi. Chúng tôi đã phát triển hạ tầng và quy trình tối ưu hóa mang lại hành vi rất ổn định ở nhiều quy mô khác nhau. Để kiểm chứng khả năng mở rộng này, chúng tôi đã dự đoán chính xác trước mức thất thoát cuối cùng của GPT‑4 trên bộ mã nội bộ (không thuộc tập huấn luyện) bằng cách ngoại suy từ các mô hình được huấn luyện theo cùng phương pháp nhưng sử dụng ít tài nguyên tính toán hơn gấp 10.000 lần.

Đang tải...

Khi đã có thể dự đoán chính xác chỉ số mà chúng tôi tối ưu trong quá trình huấn luyện (thất thoát), chúng tôi bắt đầu phát triển phương pháp dự đoán các chỉ số dễ diễn giải hơn. Ví dụ, chúng tôi đã dự đoán thành công tỷ lệ đạt yêu cầu trên một phần tập dữ liệu HumanEval⁠(mở trong cửa sổ mới), ngoại suy từ các mô hình sử dụng ít tài nguyên tính toán hơn gấp 1.000 lần.

Đang tải...

Tuy nhiên, một số khả năng vẫn còn khó dự đoán. Ví dụ, cuộc thi Inverse Scaling Prize tìm kiếm một chỉ số có kết quả tệ hơn khi tài nguyên tính toán của mô hình tăng lên, và hindsight neglect⁠(mở trong cửa sổ mới) là một trong những chỉ số như vậy. Giống như một kết quả⁠(mở trong cửa sổ mới) gần đây khác, GPT‑4 đã đảo ngược xu hướng này.

Đang tải...

Chúng tôi tin rằng việc dự đoán chính xác các khả năng học máy trong tương lai là một phần quan trọng của bảo đảm an toàn, nhưng chưa nhận được sự quan tâm xứng đáng so với ảnh hưởng tiềm ẩn của nó (mặc dù chúng tôi đã được khích lệ bởi những nỗ lực của nhiều tổ chức khác). Chúng tôi đang tăng cường phát triển các phương pháp nhằm cung cấp cho công chúng hướng dẫn tốt hơn về những gì có thể mong đợi từ các hệ thống tương lai, và hy vọng đây sẽ trở thành một mục tiêu chung trong lĩnh vực này.

OpenAI Evals

Chúng tôi đang mở mã nguồn OpenAI Evals⁠(mở trong cửa sổ mới), một khung phần mềm giúp tạo và chạy các ngưỡng chuẩn để đánh giá các mô hình như GPT‑4, đồng thời phân tích hiệu suất của chúng theo từng mẫu một. Chúng tôi sử dụng Evals để định hướng phát triển các mô hình (bao gồm phát hiện điểm yếu và ngăn các suy giảm chất lượng), người dùng cũng có thể dùng công cụ này để theo dõi hiệu suất qua các phiên bản mô hình (sẽ được ra mắt thường xuyên hơn) và theo dõi tiến trình tích hợp sản phẩm. Chẳng hạn, Stripe đã sử dụng Evals để bổ sung cho các đánh giá do con người thực hiện nhằm đo lường độ chính xác của công cụ tài liệu dựa trên GPT của mình.

Vì mã nguồn hoàn toàn mở, Evals hỗ trợ viết các lớp mới để triển khai logic đánh giá tùy chỉnh⁠(mở trong cửa sổ mới). Tuy nhiên, theo kinh nghiệm của chúng tôi, nhiều bài kiểm tra đánh giá chuẩn thường theo một số “tempplate” (mẫu) nhất định, vì vậy, chúng tôi cũng đã đưa vào các template⁠(mở trong cửa sổ mới) hữu ích nhất trong nội bộ (bao gồm cả một template phục vụ "đánh giá do mô hình tự thực hiện"—chúng tôi nhận thấy GPT‑4 có khả năng kiểm tra lại chính câu trả lời của mình một cách đáng ngạc nhiên)". Nhìn chung, cách hiệu quả nhất để xây dựng một bài đánh giá (eval) mới⁠(mở trong cửa sổ mới) là khởi tạo từ một trong các template có sẵn này và cung cấp tập dữ liệu tương ứng. Chúng tôi rất nóng lòng được thấy cộng đồng có thể xây dựng những gì với các template này cũng như với Evals nói chung.

Chúng tôi kỳ vọng Evals sẽ trở thành một công cụ để chia sẻ và huy động cộng đồng cùng xây dựng các bài kiểm tra đánh giá chuẩn, đại diện cho tập hợp lớn nhất có thể các dạng lỗi và nhiệm vụ khó. Để làm ví dụ tham khảo, chúng tôi đã tạo một bài đánh giá với các câu đố logic⁠(mở trong cửa sổ mới) gồm mười lệnh prompt mà GPT‑4 không vượt qua được. Evals cũng tương thích với việc triển khai các bộ đánh giá chuẩn hiện có; chúng tôi đã đưa vào một số notebook⁠(mở trong cửa sổ mới) triển khai các bài kiểm tra đánh giá chuẩn về mặt học thuật cùng một vài bản sửa đổi tích hợp (một phần nhỏ) bộ dữ liệuCoQA⁠(mở trong cửa sổ mới) làm ví dụ.

Chúng tôi mời mọi người sử dụng Evals để kiểm tra các mô hình của chúng tôi và gửi về những ví dụ thú vị nhất. Chúng tôi tin rằng Evals sẽ trở thành một phần không thể thiếu trong quy trình sử dụng và phát triển dựa trên các mô hình của chúng tôi và hoan nghênh mọi đóng góp, câu hỏi và ý kiến phản hồi trực tiếp⁠(mở trong cửa sổ mới).

ChatGPT Plus

Người dùng đăng ký ChatGPT Plus sẽ được truy cập GPT‑4 trên trang chatgpt.com⁠(mở trong cửa sổ mới) với một giới hạn sử dụng nhất định. Chúng tôi sẽ điều chỉnh mức giới hạn sử dụng này tùy theo nhu cầu và hiệu năng hệ thống trong thực tế nhưng dự kiến ban đầu khả năng đáp ứng sẽ bị hạn chế nghiêm trọng (dù chúng tôi sẽ mở rộng và tối ưu hệ thống trong những tháng tới).

Tùy theo lưu lượng truy cập thực tế, chúng tôi có thể sẽ giới thiệu một cấp đăng ký mới dành cho những người cần sử dụng GPT‑4 với tần suất cao hơn. Chúng tôi cũng hy vọng sẽ có thể cung cấp một số lượng truy vấn GPT‑4 miễn phí để người dùng chưa đăng ký gói Plus cũng có cơ hội dùng thử.

API

Để truy cập API GPT‑4 (sử dụng cùng ChatCompletions API⁠(mở trong cửa sổ mới) như gpt-3.5-turbo), vui lòng đăng ký vào danh sách chờ của chúng tôi⁠. Chúng tôi sẽ bắt đầu gửi lời mời đến một số nhà phát triển từ hôm nay và sẽ tăng dần quy mô cấp quyền truy cập nhằm cân bằng giữa năng lực hệ thống và nhu cầu. Nếu bạn là nhà nghiên cứu đang nghiên cứu tác động xã hội của trí tuệ nhân tạo hoặc các vấn đề liên quan đến điều chỉnh hành vi AI, bạn cũng có thể đăng ký truy cập được hỗ trợ thông qua Chương trình Hỗ trợ Nhà nghiên cứu⁠.

Khi đã có quyền truy cập, bạn có thể gửi yêu cầu chỉ bằng văn bản đến mô hình GPT‑4 (hiện tính năng nhập hình ảnh vẫn đang ở giai đoạn thử nghiệm giới hạn). Chúng tôi sẽ tự động cập nhật mô hình này thành phiên bản ổn định được khuyến nghị khi có các bản cập nhật mới (bạn có thể tiếp tục sử dụng phiên bản hiện tại bằng cách chỉ định mô hình gpt-4-0314, phiên bản này sẽ được hỗ trợ đến hết ngày 14 tháng 6). Giá sử dụng là 0,03 USD cho mỗi 1.000 token prompt và 0,06 USD cho mỗi 1.000 token phản hồi. Giới hạn mặc định là 40.000 token mỗi phút và 200 yêu cầu mỗi phút.

gpt-4 có độ dài ngữ cảnh tối đa là 8.192 token. Chúng tôi cũng cấp quyền truy cập hạn chế vào phiên bản với ngữ cảnh 32.768 token (tương đương khoảng 50 trang văn bản), gọi là gpt-4-32k, phiên bản này sẽ được tự động cập nhật theo thời gian (phiên bản hiện tại là gpt-4-32k-0314, hỗ trợ đến ngày 14 tháng 6). Giá sử dụng là 0,06 USD cho mỗi 1.000 token prompt và 0,12 USD cho mỗi 1.000 token phản hồi. Chúng tôi vẫn đang cải thiện chất lượng mô hình với ngữ cảnh dài và rất mong nhận được phản hồi về hiệu quả sử dụng trong trường hợp của bạn. Các yêu cầu cho hai phiên bản 8K và 32K được xử lý với tốc độ khác nhau dựa trên năng lực hệ thống nên bạn có thể được cấp quyền truy cập vào từng phiên bản vào các thời điểm khác nhau.

Kết luận

Chúng tôi hy vọng GPT‑4 sẽ trở thành một công cụ quý giá giúp cải thiện cuộc sống con người thông qua việc hỗ trợ nhiều ứng dụng khác nhau. Vẫn còn rất nhiều việc phải làm, chúng tôi mong rằng sẽ tiếp tục hoàn thiện mô hình này nhờ vào sự đóng góp tập thể từ cộng đồng, những người xây dựng, khám phá và phát triển dựa trên mô hình.

Tham khảo thêm: Đọc bài báo⁠(mở trong cửa sổ mới) / Xem thẻ thông tin hệ thống⁠(mở trong cửa sổ mới) / Thử nghiệm trên ChatGPT Plus⁠(mở trong cửa sổ mới) / Thử nghiệm trên Playground⁠(mở trong cửa sổ mới) / Xem lại buổi phát trực tiếp giới thiệu bản demo⁠(mở trong cửa sổ mới) / Đóng góp cho OpenAI Evals⁠(mở trong cửa sổ mới)

Phụ lục

Ví dụ về các câu hỏi MMLU đã được dịch sang các ngôn ngữ khác. Lưu ý, chúng tôi sử dụng các token lựa chọn đồng nhất (A–D):

Đang tải...

Ghi chú cuối trang

A
Chúng tôi đánh giá chuẩn mực này bằng cách sử dụng lời nhắc Chuỗi tư duy với 4 ví dụ từ tập dữ liệu huấn luyện theo ngữ cảnh. Lời nhắc cụ thể đã được điều chỉnh theo tập dữ liệu xác thực.

Tài liệu tham khảo

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Có thêm nội dung phân tích trong bài nghiên cứu⁠(mở trong cửa sổ mới).