Đo lường hiệu suất các mô hình của chúng tôi trong ứng dụng thực tế.
Chúng tôi ra mắt GDPval, một đánh giá mới nhằm đo lường hiệu quả của mô hình trong các nhiệm vụ thực tế có giá trị kinh tế thuộc 44 lĩnh vực nghề nghiệp.
Sứ mệnh của chúng tôi là bảo đảm trí tuệ nhân tạo tổng hợp sẽ mang lại lợi ích cho toàn nhân loại. Để theo đuổi sứ mệnh của mình, chúng tôi muốn minh bạch thông tin về tiến bộ của các mô hình AI trong việc hỗ trợ con người ở thế giới thực. Đó là lý do tại sao chúng tôi cho ra mắt GDPval: một công cụ đánh giá mới, được thiết kế để giúp chúng tôi theo dõi hiệu quả hoạt động của các mô hình của mình cũng như các mô hình khác trong các nhiệm vụ thực tế có giá trị kinh tế. Chúng tôi gọi công cụ đánh giá này là GDPval vì chúng tôi bắt đầu từ khái niệm Tổng sản phẩm quốc nội (GDP), lấy đó làm chỉ số kinh tế quan trọng và thực hành trên các nhiệm vụ được đúc kết từ những ngành công nghiệp chủ chốt, đóng góp nhiều nhất vào GDP.
Mọi người thường suy đoán về tác động sâu rộng của AI đối với xã hội, nhưng cách rõ ràng nhất để hiểu tiềm năng của công nghệ này là đánh giá những gì các mô hình đã có thể làm được. Lịch sử cho thấy các công nghệ lớn, từ internet đến điện thoại thông minh, đã mất hơn một thập kỷ để đi từ giai đoạn phát minh cho đến giai đoạn được áp dụng rộng rãi. Các công cụ đánh giá như GDPval giúp các cuộc thảo luận về tiến bộ của AI trong tương lai dựa trên chứng cứ thay vì suy đoán, và có thể giúp chúng ta theo dõi sự phát triển của mô hình theo thời gian.
Các công cụ đánh giá AI trước đây, như các bài kiểm tra học thuật khó và các thử thách thi đua lập trình, đã đóng vai trò quan trọng trong việc mở rộng khả năng suy luận của mô hình, nhưng chúng thường không đáp ứng được loại nhiệm vụ mà nhiều người thực hiện trong công việc hàng ngày.
Để thu hẹp khoảng cách này, chúng tôi đã và đang phát triển các công cụ đánh giá để đo lường các năng lực ngày càng thực tế và có giá trị kinh tế. Quá trình này đã chuyển từ các chuẩn mực học thuật truyền thống như MMLU (câu hỏi theo kiểu bài thi ở nhiều môn học) sang các đánh giá ứng dụng thực tiễn hơn như SWE-Bench (các nhiệm vụ sửa lỗi thiết kế phần mềm), MLE-Bench (các nhiệm vụ kỹ thuật học máy như đào tạo và phân tích mô hình), và Paper-Bench (lý luận khoa học và phê bình đối với các bài nghiên cứu), và gần đây hơn là các đánh giá dựa trên thị trường như SWE-Lancer (các dự án kỹ thuật phần mềm tự do dựa trên các khoản thanh toán thực tế).
GDPval là bước tiếp theo trong tiến trình phát triển đó. Công cụ này đo lường hiệu suất của mô hình trong các nhiệm vụ được đúc rút từ công việc thực tế của các chuyên gia giàu kinh nghiệm trong nhiều ngành nghề và lĩnh vực khác nhau, từ đó mang đến sự hiểu biết rõ ràng hơn về cách các mô hình hoạt động khi thực hiện các nhiệm vụ có giá trị kinh tế. Việc đánh giá mô hình khi chúng thực hiện các nghiệp vụ thực tế sẽ giúp chúng tôi hiểu rõ không chỉ mô hình hoạt động tốt như thế nào trong phòng thí nghiệm, mà chúng còn có thể hỗ trợ con người ra sao trong công việc hằng ngày.
GDPval, phiên bản đầu tiên của công cụ đánh giá này, xem xét 44 lĩnh vực nghề nghiệp được chọn từ 9 ngành đóng góp nhiều nhất vào GDP của nền kinh tế Hoa Kỳ. Bộ GDPval đầy đủ gồm 1.320 nhiệm vụ chuyên môn (220 trong bộ nguồn mở đáng tin cậy), mỗi nhiệm vụ được thiết kế tỉ mỉ và kiểm duyệt bởi các chuyên gia giàu kinh nghiệm, với trung bình hơn 14 năm kinh nghiệm trong các lĩnh vực này. Mỗi nhiệm vụ dựa trên sản phẩm công việc thực tế, chẳng hạn như bản tóm tắt pháp lý, bản thiết kế kỹ thuật, cuộc trò chuyện hỗ trợ khách hàng, hoặc kế hoạch chăm sóc điều dưỡng.
GDPval nổi bật nhờ tính thực tế và sự đa dạng của các nhiệm vụ được đánh giá. Không giống như các công cụ đánh giá khác gắn với giá trị kinh tế vốn chỉ tập trung vào các lĩnh vực chuyên môn cụ thể (như SWE-Lancer), GDPval xem xét nhiều loại nhiệm vụ và nghề nghiệp. Khác với các chuẩn đánh giá có vai trò tạo ra các nhiệm vụ một cách tổng hợp theo kiểu đề thi hoặc bài kiểm tra học thuật (ví dụ: Humanity’s Last Exam hay MMLU), GDPval tập trung vào các nhiệm vụ dựa trên sản phẩm thực tế đã tồn tại hoặc các sản phẩm được xây dựng tương tự như công việc thực tế.
Khác với các chuẩn đánh giá truyền thống, các nhiệm vụ trong GDPval không chỉ là các câu lệnh đơn giản dạng văn bản. Chúng đi kèm với tệp tham khảo và ngữ cảnh, và các sản phẩm đầu ra dự kiến bao gồm tài liệu, trang chiếu, sơ đồ, bảng tính, và nội dung đa phương tiện. Tính thực tế này khiến GDPval trở thành bài kiểm tra chân thực hơn về khả năng hỗ trợ các chuyên gia của mô hình.
GDPval là bước đầu tiên và chưa phản ánh đầy đủ các sắc thái của nhiều loại hình công việc trong nền kinh tế. Mặc dù đánh giá 44 nghề nghiệp và hàng trăm nhiệm vụ kiến thức, nhưng GDPval chỉ giới hạn ở các đánh giá một lần, nên nó không phản ánh được các trường hợp trong đó mô hình cần xây dựng ngữ cảnh hoặc cải thiện qua nhiều bản nháp. Các phiên bản sau của công cụ này sẽ mở rộng sang các quy trình công việc có tính tương tác và nhiệm vụ giàu ngữ cảnh hơn nhằm phản ánh chính xác hơn mức độ phức tạp của công việc tri thức trong thực tế (tham khảo thêm ở mục Giới hạn bên dưới).
GDPval xem xét các nhiệm vụ trong 9 ngành và 44 nghề nghiệp, và các phiên bản tương lai sẽ tiếp tục mở rộng phạm vi. 9 ngành ban đầu được chọn dựa trên những ngành đóng góp trên 5% vào GDP của nền kinh tế Mỹ, căn cứ vào dữ liệu từ Ngân hàng Dự trữ Liên bang St. Louis. Sau đó, chúng tôi chọn 5 nghề nghiệp trong mỗi ngành có đóng góp cao nhất vào tổng tiền lương và phúc lợi và chủ yếu là các công việc tri thức, dựa trên dữ liệu tiền lương và việc làm từ Báo cáo việc làm theo ngành nghề của Cục Thống kê Lao động Mỹ (BLS) tháng 5/2024(mở trong cửa sổ mới). Để xác định xem các ngành nghề có chủ yếu là công việc tri thức hay không, chúng tôi sử dụng dữ liệu nhiệm vụ từ O*NET(mở trong cửa sổ mới), một cơ sở dữ liệu thông tin nghề nghiệp của Mỹ được tài trợ bởi Bộ Lao động Hoa Kỳ. Chúng tôi phân loại mỗi nhiệm vụ cho từng nghề nghiệp trong O*NET là công việc tri thức hay công việc tay chân/thủ công (đòi hỏi thao tác thực tế). Một nghề được coi là "chủ yếu là công việc tri thức" nếu ít nhất 60% các nhiệm vụ thành phần của nó được phân loại là không liên quan đến công việc tay chân hoặc thủ công. Chúng tôi chọn ngưỡng 60% này làm điểm khởi đầu cho phiên bản GDPval đầu tiên, tập trung vào những nghề mà AI có thể tạo tác động lớn nhất đến năng suất thực tế.
Quy trình này đã chọn ra 44 nghề nghiệp để đưa vào đánh giá.
Bất động sản và cho thuê và cho thuê lại
Nhân viên hỗ trợ tiền sảnh
Quản lý tài sản, bất động sản và hiệp hội cộng đồng
Đại lý bán bất động sản
Môi giới bất động sản
Nhân viên thu ngân và cho thuê
Chính phủ
Nhân viên tổ chức hoạt động giải trí
Cán bộ tuân thủ
Trưởng nhóm trực tiếp của cảnh sát và thanh tra
Quản lý hành chính
Nhân viên xã hội hỗ trợ trẻ em, gia đình và trường học
Sản xuất
Kỹ sư cơ khí
Kỹ sư công nghiệp
Người mua và đại lý mua hàng
Nhân viên giao hàng, nhận hàng và kiểm kê
Giám sát trực tiếp công nhân sản xuất và vận hành
Dịch vụ chuyên môn, khoa học và kỹ thuật
Lập trình viên phần mềm
Luật sư
Kế toán viên và kiểm soát viên
Quản lý máy tính về hệ thống thông tin
Chuyên gia quản lý dự án
Chăm sóc sức khỏe và hỗ trợ xã hội
Y tá có đăng ký hành nghề
Điều dưỡng chuyên môn cao
Quản lý dịch vụ y tế và sức khỏe
Giám sát trực tiếp của nhân viên hỗ trợ hành chính và văn phòng
Thư ký y tế và trợ lý hành chính
Tài chính và bảo hiểm
Nhân viên chăm sóc khách hàng
Chuyên viên phân tích tài chính và đầu tư
Giám đốc tài chính
Cố vấn tài chính cá nhân
Đại lý bán chứng khoán, hàng hóa và dịch vụ tài chính
Bán lẻ
Dược sĩ
Giám sát trực tiếp nhân viên bán hàng trong lĩnh vực bán lẻ
Quản lý chung và quản lý vận hành
Thám tử tư và điều tra viên
Bán sỉ
Quản lý bán hàng
Nhân viên đơn hàng
Giám sát trực tiếp nhân viên bán hàng trong lĩnh vực phi bán lẻ
Nhân viên bán hàng, bán sỉ và sản xuất, ngoại trừ các sản phẩm kỹ thuật và khoa học
Nhân viên bán hàng, bán sỉ và sản xuất, các sản phẩm kỹ thuật và khoa học
Thông tin
Kỹ thuật viên âm thanh, hình ảnh
Nhà sản xuất và đạo diễn
Nhà phân tích tin tức, phóng viên và nhà báo
Biên tập phim và video
Biên tập viên
Đối với mỗi nghề nghiệp, chúng tôi hợp tác với các chuyên gia giàu kinh nghiệm để tạo ra các nhiệm vụ tiêu biểu, phản ánh công việc hàng ngày của họ. Các chuyên gia này có trung bình 14 năm kinh nghiệm và có thành tích thăng tiến ấn tượng. Chúng tôi chủ đích tuyển chọn một đội ngũ chuyên gia đa dạng, như các luật sư từ nhiều lĩnh vực hành nghề và công ty với quy mô khác nhau, nhằm có được tính đại diện cao nhất.
Mỗi nhiệm vụ đều trải qua quy trình đánh giá nhiều bước để đảm bảo phản ánh công việc thực tế, khả thi để chuyên gia khác thực hiện, và rõ ràng để đánh giá. Trung bình, mỗi nhiệm vụ trải qua 5 vòng đánh giá chuyên gia, bao gồm đánh giá từ những người tạo nhiệm vụ khác, các chuyên gia đánh giá nghề nghiệp bổ sung, và xác thực dựa trên mô hình.
Bộ dữ liệu kết quả bao gồm 30 nhiệm vụ được đánh giá đầy đủ cho mỗi nghề (bộ đầy đủ), với 5 nhiệm vụ cho mỗi nghề trong bộ nguồn mở đáng tin cậy của chúng tôi, tạo nền tảng vững chắc cho việc đánh giá hiệu suất mô hình xét trên công việc tri thức thực tế.
Ví vụ về các nhiệm vụ GDPval
Lời nhắc + ngữ cảnh nhiệm vụ
Sản phẩm do người có kinh nghiệm thực hiện

Để đánh giá hiệu suất mô hình trong các nhiệm vụ GDPval, chúng tôi dựa vào các “giám khảo” chuyên gia — một nhóm các chuyên gia giàu kinh nghiệm có chung nghề nghiệp trong bộ dữ liệu. Các giám khảo này tiến hành so sánh mù các sản phẩm do mô hình tạo ra và sản phẩm do người tạo nhiệm vụ tạo ra (họ không biết sản phẩm nào là do AI tạo và sản phẩm nào là tác phẩm của con người), đồng thời đưa ra nhận xét và xếp hạng. Các giám khảo sau đó xếp hạng các sản phẩm của con người và AI, đồng thời quyết định từng sản phẩm của AI là “tốt hơn”, “tương đương”, hay “kém hơn” so với sản phẩm còn lại.
Người tạo nhiệm vụ cũng xây dựng các tiêu chí chấm điểm chi tiết cho từng nghề nghiệp, giúp tăng tính nhất quán và minh bạch trong quá trình đánh giá. Chúng tôi cũng phát triển một “công cụ chấm điểm tự động”, một hệ thống AI được huấn luyện để ước lượng cách các chuyên gia con người sẽ nhận định về một sản phẩm nhất định. Nói cách khác, thay vì thực hiện đánh giá đầy đủ bởi chuyên gia mỗi lần, công cụ chấm điểm có thể tự động dự đoán nhanh kết quả mà con người có khả năng sẽ ưa thích. Chúng tôi phát hành công cụ này tại evals.openai.com như một dịch vụ nghiên cứu thử nghiệm, nhưng hiện nó chưa đáng tin cậy bằng các giám khảo chuyên gia, nên chúng tôi không dùng để thay thế họ.
Chúng tôi nhận thấy rằng các mô hình tiên tiến hiện nay đã gần đạt đến chất lượng công việc do các chuyên gia trong ngành thực hiện. Để kiểm tra điều này, chúng tôi tiến hành đánh giá mù trong đó các chuyên gia trong ngành so sánh sản phẩm từ nhiều mô hình hàng đầu như GPT‑4o, o4‑mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro và Grok 4 với công việc do con người thực hiện. Trong 220 nhiệm vụ trong bộ nguồn mở đáng tin cậy GDPval, chúng tôi đã ghi nhận khi kết quả mô hình được đánh giá tốt hơn (“thắng”) hoặc tương đương (“hòa”) so với sản phẩm của các chuyên gia trong ngành, được minh họa trong biểu đồ cột dưới đây. Trong bộ này, Claude Opus 4.1 là mô hình có hiệu suất tốt nhất, nổi bật về tính thẩm mỹ (ví dụ: định dạng tài liệu, bố cục trang chiếu), trong khi GPT‑5 xuất sắc về độ chính xác (ví dụ: tìm kiếm kiến thức chuyên ngành). Chúng tôi cũng nhận thấy tiến triển rõ rệt theo thời gian ở các nhiệm vụ này. Hiệu suất đã cải thiện hơn gấp đôi so từ GPT‑4o (ra mắt mùa xuân 2024) đến GPT‑5 (ra mắt mùa hè 2025), theo xu hướng tuyến tính rõ ràng.
Ngoài ra, chúng tôi nhận thấy các mô hình tiên tiến có thể hoàn thành các nhiệm vụ GDPval nhanh gấp khoảng 100 lần và với chi phí thấp hơn 100 lần so với các chuyên gia trong ngành. Tuy nhiên, các con số này chỉ phản ánh thời gian suy luận của mô hình và mức phí API, do đó không phản ánh các bước giám sát bởi con người, lặp lại và tích hợp cần thiết trong môi trường làm việc thực tế để sử dụng mô hình. Tuy vậy, đặc biệt với nhóm nhiệm vụ mà mô hình thể hiện mạnh, chúng tôi kỳ vọng rằng việc giao nhiệm vụ cho mô hình trước khi thử với con người sẽ giúp tiết kiệm thời gian và chi phí.
Các chuyên gia chấm điểm đã so sánh kết quả từ các mô hình hàng đầu với các chuyên gia con người. Các mô hình tiên tiến hiện nay đã gần đạt đến chất lượng công việc do các chuyên gia trong ngành thực hiện. Claude Opus 4.1 tạo ra kết quả được đánh giá là tốt hoặc tốt hơn con người trong gần một nửa số nhiệm vụ.
Từ GPT‑4o đến GPT‑5, hiệu suất của các nhiệm vụ GDPval đã tăng hơn gấp ba lần trong một năm.
Cuối cùng, chúng tôi huấn luyện từng bước một phiên bản thử nghiệm nội bộ của GPT‑5 để đánh giá xem liệu chúng tôi có thể cải thiện hiệu suất trên GDPval hay không. Chúng tôi nhận thấy quá trình này cải thiện hiệu suất, tạo điều kiện cho những cải tiến tiềm năng tiếp theo. Các thử nghiệm được kiểm soát khác cũng củng cố kết quả này: tăng kích thước mô hình, khuyến khích nhiều bước suy luận hơn, và cung cấp bối cảnh nhiệm vụ phong phú hơn, tất cả đều mang lại lợi ích rõ ràng.
Bạn có thể xem toàn bộ kết quả trong bài nghiên cứu của chúng tôi. Chúng tôi cũng sẽ phát hành một tập con các nhiệm vụ GDPval đáng tin cậy và một dịch vụ chấm điểm công khai để các nhà nghiên cứu khác có thể phát triển dựa trên công cụ này.
Khi AI trở nên mạnh hơn, nó có thể sẽ gây ra những thay đổi trên thị trường việc làm. Kết quả GDPval ban đầu cho thấy các mô hình đã có thể thực hiện một số nhiệm vụ cụ thể, lặp lại một cách nhanh hơn, với chi phí thấp hơn so với các chuyên gia. Tuy nhiên, phần lớn việc làm không chỉ là tập hợp các nhiệm vụ có thể mô tả. GDPval nhấn mạnh khả năng AI có thể xử lý các nhiệm vụ thường ngày để con người có nhiều thời gian hơn cho các công việc mang tính sáng tạo và đòi hỏi nhiều phán đoán. Khi AI hỗ trợ người lao động theo cách này, mô hình này có thể tạo ra mức tăng trưởng kinh tế đáng kể. Mục tiêu của chúng tôi là giúp mọi người đồng hành phát triển cùng AI bằng cách dân chủ hóa quyền truy cập vào các công cụ này, hỗ trợ người lao động trong quá trình thay đổi và xây dựng các hệ thống tưởng thưởng cho những đóng góp lớn.
GDPval là bước đi đầu tiên. Mặc dù công cụ này nghiên cứu 44 nghề nghiệp và hàng trăm nhiệm vụ, nhưng chúng tôi vẫn đang tiếp tục cải tiến cách tiếp cận của mình để mở rộng phạm vi thử nghiệm và làm cho kết quả hữu ích hơn. Phiên bản hiện tại của công cụ đánh giá cũng chỉ tiến hành một lần, do đó không phản ánh được các trường hợp trong đó mô hình cần xây dựng ngữ cảnh hoặc cải thiện thông qua nhiều bản nháp, ví dụ: sửa đổi bản tóm tắt pháp lý sau khi nhận được phản hồi từ khách hàng hoặc lặp lại quá trình phân tích dữ liệu sau khi phát hiện ra điểm bất thường. Ngoài ra, trong thế giới thực, các nhiệm vụ không phải lúc nào cũng được xác định rõ ràng bằng câu lệnh và tệp tham chiếu. Ví dụ, luật sư có thể phải làm rõ nhiều vấn đề và trao đổi với thân chủ trước khi quyết định rằng việc tạo bản tóm tắt pháp lý là cách tiếp cận phù hợp, hữu ích cho họ. Chúng tôi có kế hoạch mở rộng GDPval để xem xét nhiều nghề nghiệp, lĩnh vực và loại nhiệm vụ hơn, với tính tương tác cao hơn và nhiều nhiệm vụ có mô tả mơ hồ hơn, với mục tiêu lâu dài là đo lường hiệu quả hơn tiến độ thực hiện công việc tri thức đa dạng.
- Nếu bạn là chuyên gia trong ngành muốn đóng góp cho GDPval, vui lòng thể hiện sự quan tâm của bạn tại đây.
- Nếu bạn là khách hàng làm việc với OpenAI và muốn đóng góp cho vòng GDPval sắp tới, vui lòng bày tỏ sự quan tâm tại đây.
Sự tham gia của cộng đồng là rất cần thiết. Chúng tôi rất vui mừng được xây dựng GDPval cùng với các nhà nghiên cứu, chuyên gia và tổ chức có cùng mục tiêu là làm cho AGI trở nên hữu ích hơn cho mọi người trong công việc.


