Học cách suy luận với LLM
Chúng tôi xin giới thiệu OpenAI o1, một mô hình ngôn ngữ lớn mới được huấn luyện bằng học củng cố để thực hiện các suy luận phức tạp. o1 có khả năng suy nghĩ trước khi trả lời—nó có thể tạo ra một chuỗi tư duy nội bộ dài trước khi phản hồi người dùng.
OpenAI o1 được xếp hạng ở mức bách phân vị 89 về các câu hỏi lập trình cạnh tranh (Codeforces), lọt vào top 500 học sinh tại Hoa Kỳ trong vòng loại của Kỳ thi Olympic Toán Hoa Kỳ (AIME) và vượt qua độ chính xác của con người ở trình độ Tiến sĩ trên bảng đánh giá về các bài toán vật lý, sinh học và hóa học (GPQA). Mặc dù công việc cần thiết để khiến mô hình mới này dễ sử dụng như các mô hình hiện tại vẫn đang được tiến hành, nhưng chúng tôi sẽ phát hành phiên bản đầu tiên của mô hình này, OpenAI o1‑preview, để sử dụng ngay trong ChatGPT và cho người dùng API đáng tin cậy(mở trong cửa sổ mới).
Thuật toán học củng cố quy mô lớn của chúng tôi sẽ dạy mô hình cách tư duy hiệu quả bằng cách sử dụng chuỗi tư duy của nó trong một quy trình huấn luyện hiệu quả cao về dữ liệu. Chúng tôi nhận thấy rằng hiệu suất của o1 liên tục được cải thiện khi học củng cố nhiều hơn (tốn sức mạnh tính toán khi huấn luyện) và khi dành nhiều thời gian hơn để suy nghĩ (tốn sức mạnh tính toán khi thử nghiệm). Các ràng buộc đối với việc mở rộng quy mô phương pháp này khác biệt đáng kể so với các ràng buộc trước huấn luyện LLM, và chúng tôi đang tiếp tục nghiên cứu.

Hiệu suất của o1 cải thiện một cách ổn định theo cả sức mạnh tính toán khi huấn luyện lẫn khi thử nghiệm.
Để làm nổi bật sự cải thiện về khả năng suy luận so với GPT‑4o, chúng tôi đã thử nghiệm các mô hình trên một bộ đa dạng các bài kiểm tra cho con người và đánh giá ML. Chúng tôi cho thấy rằng o1 vượt trội đáng kể so với GPT‑4o trong đại đa số những tác vụ đòi hỏi khả năng suy luận cao này. Trừ khi có ghi nhận khác, chúng tôi đã đánh giá o1 ở thiết lập sức mạnh tính toán tối đa tại thời điểm thử nghiệm.







Trong nhiều đánh giá đòi hỏi cao về suy luận, o1 đạt hiệu suất sánh ngang với các chuyên gia con người. Các mô hình tiên phong1 gần đây đạt kết quả rất tốt trên MATH2 và GSM8K đến mức các đánh giá này không còn hiệu quả trong việc phân biệt các mô hình nữa. Chúng tôi đã đánh giá hiệu suất giải toán trên AIME, một kỳ thi được thiết kế để thử thách những học sinh trung học giỏi toán nhất nước Mỹ. Trong các kỳ thi AIME năm 2024, GPT‑4o chỉ giải được trung bình 12% (1,8/15) số bài toán. Trong khi đó, o1 đạt trung bình 74% (11,1/15) với một mẫu thử duy nhất cho mỗi bài toán, 83% (12,5/15) khi có sự thống nhất giữa 64 mẫu thử, và 93% (13,9/15) khi xếp hạng lại 1000 mẫu bằng một hàm tính điểm đã học. Với điểm số 13,9, o1 lọt vào nhóm 500 học sinh dẫn đầu toàn quốc và vượt qua mức điểm chuẩn để tham dự Olympic Toán học Hoa Kỳ.
Chúng tôi cũng đánh giá o1 trên GPQA diamond, một đánh giá trí tuệ khó nhằm kiểm tra trình độ môn hóa học, vật lý và sinh học. Để so sánh các mô hình với con người, chúng tôi đã mời các chuyên gia có bằng Tiến sĩ trả lời các câu hỏi của GPQA-diamond. Chúng tôi nhận thấy o1 đã vượt qua hiệu suất của các chuyên gia con người đó, trở thành mô hình đầu tiên đạt được thành tích này ở đánh giá nói trên. Các kết quả này không ngụ ý rằng o1 có năng lực vượt trội hơn một Tiến sĩ về mọi mặt — mà chỉ cho thấy mô hình này thành thạo hơn khi giải quyết một số bài toán mà một Tiến sĩ được kỳ vọng sẽ giải quyết được. Trong một số đánh giá ML khác, o1 đã cải thiện và vượt trội hơn so với trình độ tiên tiến nhất. Khi kích hoạt khả năng nhận thức thị giác, o1 đã đạt 78,2% điểm trong bài kiểm tra MMMU, trở thành mô hình đầu tiên có khả năng cạnh tranh với các chuyên gia con người. Mô hình này cũng vượt trội hơn GPT‑4o ở 54 trên tổng số 57 tiểu mục của MMLU.
Tương tự như cách con người có thể suy nghĩ rất lâu trước khi trả lời một câu hỏi khó, o1 sử dụng chuỗi tư duy khi cố gắng giải quyết một vấn đề. Thông qua học củng cố, o1 sẽ học cách mài giũa chuỗi tư duy của mình và tinh chỉnh các chiến lược mà nó sử dụng. Mô hình này sẽ học cách nhận biết và sửa chữa lỗi sai của mình. Nó học cách chia nhỏ các bước phức tạp thành các bước đơn giản hơn. Mô hình sẽ học cách thử một hướng tiếp cận khác khi hướng hiện tại không hiệu quả. Quá trình này cải thiện đáng kể khả năng suy luận của mô hình. Để minh họa cho bước tiến vượt bậc này, chúng tôi trình bày chuỗi tư duy của o1‑preview khi giải quyết một số vấn đề khó dưới đây.
GPT-4o
OpenAI o1-preview
Chúng tôi đã huấn luyện một mô hình đạt 213 điểm và xếp hạng bách phân vị 49 trong Kỳ thi Olympic Tin học Quốc tế (IOI) năm 2024, bằng cách khởi tạo từ o1 và huấn luyện thêm để nâng cao kỹ năng lập trình. Mô hình này đã thực hiện Kỳ thi IOI 2024 trong điều kiện tương tự như các thí sinh con người. Nó có mười tiếng để giải sáu bài toán thuật toán đầy thử thách và được phép nộp bài 50 lần cho mỗi bài toán.
Đối với mỗi bài toán, hệ thống của chúng tôi đã lấy mẫu nhiều bài nộp tiềm năng và chọn ra 50 bài để nộp dựa trên chiến lược chọn lọc tại thời điểm kiểm tra. Các bài nộp được lựa chọn dựa trên hiệu suất đối với các bộ dữ liệu thử nghiệm công khai của IOI, các bộ dữ liệu thử nghiệm do mô hình tự tạo và một hàm tính điểm đã được học. Nếu thay vào đó chúng tôi nộp bài ngẫu nhiên, điểm số trung bình chỉ đạt 156 điểm, điều này cho thấy chiến lược này mang lại giá trị gần 60 điểm trong các điều kiện ràng buộc của cuộc thi.
Khi nới lỏng ràng buộc về số lượt nộp bài, chúng tôi nhận thấy hiệu suất của mô hình được cải thiện đáng kể. Khi được phép gửi 10.000 lượt nộp bài cho mỗi bài toán, mô hình đã đạt điểm 362,14 – vượt ngưỡng đạt huy chương vàng – ngay cả khi không có chiến lược chọn lọc nào tại thời điểm thử nghiệm.
Cuối cùng, chúng tôi đã mô phỏng các cuộc thi lập trình cạnh tranh do Codeforces tổ chức để thể hiện kỹ năng lập trình của mô hình này. Các đánh giá của chúng tôi tuân thủ chặt chẽ các quy tắc thi đấu và cho phép 10 lượt nộp bài. GPT‑4o đã đạt xếp hạng Elo3 808, nằm trong bách phân vị thứ 11 của các lập trình viên con người. Mô hình này đã vượt trội hơn hẳn cả GPT‑4o và o1 – nó đạt xếp hạng Elo 1807, hoạt động tốt hơn 93% số người tham gia.

Việc tinh chỉnh thêm dựa trên các cuộc thi lập trình đã cải thiện mô hình o1. Mô hình được cải thiện này đã xếp hạng ở bách phân vị thứ 49 trong Kỳ thi Olympic Tin học Quốc tế năm 2024 theo đúng luật thi đấu.
Ngoài các bài kiểm tra và đánh giá học thuật, chúng tôi cũng đánh giá mức độ ưu tiên của con người đối với o1‑preview so với GPT‑4o trên các lời nhắc mở, khó khăn trong nhiều lĩnh vực đa dạng. Trong đánh giá này, những người đánh giá đã xem các phản hồi ẩn danh từ mô hình o1‑preview và GPT‑4o cho cùng một lời nhắc, và bỏ phiếu cho câu trả lời mà họ ưa thích hơn. Với kết quả này, o1‑preview được đánh giá vượt trội đáng kể so với GPT‑4o ở các hạng mục thiên về suy luận như phân tích dữ liệu, lập trình và toán học. Tuy nhiên, mô hình o1‑preview không phải là lựa chọn tối ưu cho một số tác vụ xử lý ngôn ngữ tự nhiên, cho thấy nó không hoàn toàn phù hợp với mọi trường hợp sử dụng.

Phương pháp suy luận theo chuỗi tư duy mở ra những cơ hội mới về sự phù hợp và an toàn. Chúng tôi nhận thấy rằng việc tích hợp các chính sách của chúng tôi về hành vi mô hình vào chuỗi tư duy của một mô hình suy luận là cách hiệu quả để truyền đạt một cách vững chắc các giá trị và nguyên tắc của con người. Bằng cách dạy cho mô hình các quy tắc an toàn của chúng tôi và cách suy luận về chúng trong từng ngữ cảnh cụ thể, chúng tôi đã tìm được bằng chứng cho thấy năng lực suy luận đã trực tiếp nâng cao tính mạnh mẽ của mô hình: o1‑preview đã đạt được hiệu suất cải thiện đáng kể trong các đánh giá bẻ khóa then chốt và các tiêu chuẩn đánh giá nội bộ khắt khe nhất của chúng tôi nhằm xác định giới hạn từ chối vì lý do an toàn của mô hình. Chúng tôi tin rằng việc sử dụng chuỗi tư duy mang lại những tiến bộ đáng kể về an toàn và khả năng điều chỉnh vì (1) nó cho phép chúng tôi quan sát quá trình tư duy của mô hình một cách dễ hiểu, và (2) khả năng suy luận của mô hình về các quy tắc an toàn sẽ bền vững hơn trước các tình huống nằm ngoài quá trình phân phối dữ liệu.
Để thử nghiệm thực tế những cải tiến của mình, chúng tôi đã tiến hành một loạt các kiểm tra an toàn và mô phỏng tấn công thực trước khi triển khai, theo Khung Sẵn sàng(mở trong cửa sổ mới) của chúng tôi. Chúng tôi nhận thấy rằng việc suy luận theo chuỗi tư duy đã góp phần cải thiện năng lực của mô hình qua các đánh giá của chúng tôi. Một điểm đặc biệt đáng chú ý là chúng tôi đã quan sát thấy những trường hợp thú vị về việc mô hình lạm dụng cơ chế thưởng(mở trong cửa sổ mới). Kết quả chi tiết từ các đánh giá này có thể được tìm thấy trong Thẻ hệ thống đi kèm.
| Số liệu | GPT-4o | o1-preview |
|---|---|---|
| % Hoàn thành an toàn các lệnh prompt có hại Tiêu chuẩn | 0,990 | 0,995 |
| % Hoàn thành an toàn các lệnh prompt có hại Thách thức: bẻ khóa và các trường hợp ngoại lệ | 0,714 | 0,934 |
| ↳ Quấy rối (nghiêm trọng) | 0,845 | 0,900 |
| ↳ Nội dung khiêu dâm nhằm mục đích trục lợi | 0,483 | 0,949 |
| ↳ Nội dung tình dục liên quan đến trẻ vị thành niên. | 0,707 | 0,931 |
| ↳ Tư vấn về hành vi sai trái không bạo lực | 0,688 | 0,961 |
| ↳ Tư vấn về hành vi sai trái bạo lực | 0,778 | 0,963 |
| % Hoàn thành an toàn cho 200 hội thoại có điểm Moderation API cao nhất theo từng danh mục trong WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Đánh giá bẻ khóa Goodness@0.1 StrongREJECT Souly và cộng sự 2024 | 0,220 | 0,840 |
| Đánh giá bẻ khóa dựa trên con người | 0,770 | 0,960 |
| % Tuân thủ các trường hợp ngoại lệ lành tính tại biên “không từ chối quá mức” | 0,910 | 0,930 |
| % Tuân thủ các trường hợp ngoại lệ lành tính trong XSTest “không từ chối quá mức” Röttger và các cộng sự 2023 | 0,924 | 0,976 |
Chúng tôi tin rằng một chuỗi tư duy được ẩn đi sẽ mang lại cơ hội đặc biệt để giám sát các mô hình. Nếu chuỗi tư duy ẩn này trung thực và dễ hiểu, nó cho phép chúng ta "đọc được suy nghĩ" của mô hình và thấu hiểu quá trình tư duy của mô hình đó. Ví dụ: trong tương lai, chúng tôi có thể muốn giám sát chuỗi tư duy nhằm phát hiện các dấu hiệu thao túng người dùng. Tuy nhiên, để làm được điều này, mô hình phải được tự do thể hiện suy nghĩ của nó ở dạng nguyên bản, không bị thay đổi. Vì vậy, chúng tôi không thể huấn luyện bất kỳ sự tuân thủ chính sách hay sở thích người dùng nào vào chuỗi tư duy này. Chúng tôi cũng không muốn hiển thị trực tiếp một chuỗi tư duy chưa được điều chỉnh cho phù hợp với người dùng.
Do đó, sau khi cân nhắc nhiều yếu tố bao gồm trải nghiệm người dùng, lợi thế cạnh tranh và khả năng theo đuổi việc giám sát chuỗi tư duy, chúng tôi đã quyết định không hiển thị chuỗi tư duy thô cho người dùng. Chúng tôi thừa nhận quyết định này cũng có các nhược điểm. Chúng tôi đang cố gắng khắc phục phần nào điều này bằng cách dạy mô hình tái tạo lại bất kỳ ý tưởng hữu ích nào từ chuỗi tư duy trong câu trả lời của nó. Đối với serie mô hình o1, chúng tôi sẽ hiển thị một bản tóm tắt chuỗi tư duy do chính mô hình tạo ra.
o1 cải tiến đáng kể tình trạng hiện tại về suy luận của AI. Chúng tôi dự định sẽ phát hành các phiên bản cải tiến của mô hình này khi tiếp tục quá trình phát triển và lặp lại. Chúng tôi kỳ vọng rằng những năng lực suy luận mới này sẽ cải thiện khả năng của mình trong việc điều chỉnh các mô hình cho phù hợp với các giá trị và nguyên tắc của con người. Chúng tôi tin rằng o1 – và các phiên bản kế nhiệm của nó – sẽ mở ra nhiều trường hợp ứng dụng mới cho AI trong khoa học, lập trình, toán học và các lĩnh vực liên quan. Chúng tôi rất hào hứng chờ đợi người dùng và các nhà phát triển API khám phá cách o1 giúp cải thiện công việc hàng ngày của họ.
| Bộ dữ liệu | Số liệu | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Toán thi đấu AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Mã thi đấu CodeForces | Elo | 808 | 1.258 | 1.673 |
| Bách phân vị | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Sinh học | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Hóa học | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Vật lý | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| TOÁN HỌC | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Tác giả
Trích dẫn
- 1
- 2
Các đánh giá của chúng tôi cũng đã dùng chung 500 bài kiểm tra vấn đề có tại https://arxiv.org/abs/2305.20050(mở trong cửa sổ mới)
- 3






