Bỏ qua nội dung chính
OpenAI

19 tháng 11, 2025

Nghiên cứu

Cách các khung đánh giá thúc đẩy chương tiếp theo trong AI dành cho doanh nghiệp

Tài liệu cơ bản này hướng dẫn các nhà lãnh đạo doanh nghiệp cách các khung đánh giá (“evals”) chuyển đổi mục tiêu kinh doanh thành kết quả nhất quán.

Đang tải…

Hơn một triệu doanh nghiệp trên toàn thế giới đang tận dụng AI để nâng cao hiệu quả và tạo ra giá trị lớn hơn. Tuy nhiên, một số tổ chức đã gặp khó khăn trong việc đạt được kết quả mà họ mong đợi. Nguyên nhân nào gây ra khoảng cách?

Tại OpenAI, chúng tôi đang tận dụng AI trong nội bộ để đạt được các mục tiêu đầy tham vọng của mình. Một bộ công cụ quan trọng mà chúng tôi sử dụng là các khung đánh giá, các phương pháp để đo lường và cải thiện khả năng của hệ thống AI nhằm đáp ứng kỳ vọng. 

Tương tự như tài liệu yêu cầu sản phẩm, các khung đánh giá giúp các mục tiêu mơ hồ và ý tưởng trừu tượng trở nên cụ thể và rõ ràng. Việc sử dụng các khung đánh giá có chiến lược có thể giúp sản phẩm hướng tới khách hàng hoặc công cụ nội bộ trở nên đáng tin cậy hơn khi mở rộng quy mô, giảm thiểu lỗi nghiêm trọng, ngăn ngừa rủi ro tiềm ẩn và cung cấp cho tổ chức một con đường có thể đo lường để đạt được ROI cao hơn. 

Tại OpenAI, các mô hình chính là sản phẩm của chúng tôi, vì vậy các nhà nghiên cứu sử dụng các khung đánh giá tiên tiến(mở trong cửa sổ mới), nghiêm ngặt 1 để đo lường hiệu suất của các mô hình trong các miền khác nhau. Mặc dù các khung đánh giá tiên tiến giúp chúng tôi phát triển các mô hình tốt hơn nhanh hơn, nhưng chúng không thể cho thấy tất cả các khía cạnh cần thiết nhằm đảm bảo mô hình sẽ hoạt động trên một quy trình làm việc cụ thể trong một môi trường kinh doanh cụ thể. Đó là lý do các nhóm nội bộ cũng đã tạo ra hàng chục khung đánh giá theo bối cảnh được thiết kế để đánh giá hiệu suất trong một sản phẩm cụ thể hoặc quy trình làm việc nội bộ. Đó cũng là lý do các nhà lãnh đạo doanh nghiệp nên học cách tạo ra các khung đánh giá theo bối cảnh cụ thể cho nhu cầu và môi trường hoạt động của tổ chức của mình. 

Đây là tài liệu cơ bản dành cho các nhà lãnh đạo doanh nghiệp muốn áp dụng các khung đánh giá vào tổ chức của họ. Khung đánh giá theo bối cảnh, mỗi khung đánh giá được thiết kế riêng cho quy trình làm việc hoặc sản phẩm của một tổ chức cụ thể, là một lĩnh vực đang phát triển tích cực và các quy trình xác định vẫn chưa được hình thành. Do đó, bài viết này cung cấp một khuôn khổ rộng mà chúng tôi đã thấy hiệu quả trong nhiều tình huống. Chúng tôi mong lĩnh vực này sẽ phát triển và có nhiều khung đánh giá hơn xuất hiện để giải quyết các mục tiêu và bối cảnh kinh doanh cụ thể. Ví dụ, một khung đánh giá xuất sắc cho một sản phẩm tiêu dùng tiên tiến, được AI hỗ trợ có thể có thể yêu cầu một quy trình khác so với một khung đánh giá dành cho một hệ thống tự động hóa nội bộ dựa trên quy trình vận hành tiêu chuẩn. Chúng tôi tin rằng khung đánh giá được trình bày dưới đây sẽ đóng vai trò là tập hợp các phương pháp hay nhất trong tất cả các trường hợp và sẽ là hướng dẫn hữu ích khi bạn xây dựng các khung đánh giá phù hợp với nhu cầu của tổ chức mình.

Cách khung đánh giá hoạt động: Chỉ định → Đo lường → Cải tiến

Sơ đồ có tiêu đề “Blog Khung đánh giá” hiển thị luồng của các thành phần và quy trình đánh giá, được đặt trên nền sáng với các khối màu và mũi tên đại diện cho logic đánh giá mô hình.

1. Chỉ định: Xác định “tuyệt vời” có nghĩa là gì

Bắt đầu với một nhóm nhỏ, có năng lực, có thể viết ra mục đích của hệ thống AI bằng những thuật ngữ đơn giản, ví dụ: “Chuyển đổi email đến đủ tiêu chuẩn thành các buổi demo theo lịch trình mà vẫn giữ được thương hiệu.”

Nhóm này nên là sự kết hợp của các cá nhân có chuyên môn kỹ thuật và chuyên môn về miền (trong ví dụ đã cho, bạn muốn có các chuyên gia bán hàng trong nhóm). Họ phải có khả năng nêu ra những kết quả quan trọng nhất cần đo lường, phác thảo quy trình làm việc từ đầu đến cuối và xác định từng điểm quyết định quan trọng mà hệ thống AI của bạn sẽ gặp phải. Đối với mỗi bước trong quy trình làm việc đó, nhóm nên xác định thành công sẽ như thế nào và những điều cần tránh. Quá trình này sẽ tạo ra một sơ đồ gồm hàng chục đầu vào ví dụ (ví dụ email đến) thành các kết quả đầu ra mà họ muốn hệ thống tạo ra. Bộ ví dụ quý giá thu được nên là tài liệu tham khảo sống động, có thẩm quyền về sự đánh giá và "gu" của các chuyên gia lành nghề nhất về những điều được coi là "tuyệt vời".

Đừng quá choáng ngợp với một khởi đầu khó khăn hoặc cố gắng giải quyết tất cả cùng một lúc. Quá trình này mang tính lặp đi lặp lại và lộn xộn. Việc tạo mẫu sớm có thể giúp ích rất nhiều. Việc xem xét 50 đến 100 kết quả đầu ra từ phiên bản đầu tiên của hệ thống sẽ giúp phát hiện cách thức và thời điểm hệ thống của bạn gặp lỗi. “Phân tích lỗi” này sẽ tạo ra phân loại các lỗi khác nhau (và tần suất của chúng) để theo dõi khi hệ thống của bạn được cải thiện.

Quá trình này không chỉ đơn thuần mang tính kỹ thuật— mà còn liên quan đến nhiều chức năng và tập trung vào việc xác định mục tiêu của doanh nghiệp và quy trình mong muốn. Không nên yêu cầu các nhóm kỹ thuật tự mình đánh giá phương án nào phục vụ khách hàng tốt nhất hoặc nhu cầu của các nhóm khác như sản phẩm, bán hàng, hoặc nhân sự. Do đó, các chuyên gia miền, trưởng nhóm kỹ thuật và các bên liên quan quan trọng khác nên cùng chia sẻ quyền sở hữu. 

2. Đo lường: Thử nghiệm trong các điều kiện thực tế

Bước tiếp theo là đo lường. Mục tiêu của việc đo lường là nêu bật theo cách đáng tin cậy các ví dụ cụ thể về cách thức và thời điểm hệ thống gặp sự cố. Để làm điều đó, hãy tạo một môi trường thử nghiệm chuyên dụng phản ánh chặt chẽ các điều kiện của thế giới thực — không chỉ là một bản demo hoặc một playground câu lệnh. Đánh giá hiệu suất so với bộ ví dụ quý giá và phân tích lỗi của bạn dưới cùng áp lực và các trường hợp khó khăn mà hệ thống của bạn thực sự sẽ phải đối mặt.

Tiêu chí chấm điểm có thể giúp đưa ra đánh giá cụ thể về kết quả đầu ra của hệ thống, nhưng bạn có thể nhấn mạnh quá mức vào những mục hời hợt mà bỏ qua mục tiêu chung của mình. Hơn nữa, một số đặc tính rất khó hoặc không thể đo lường. Trong một số trường hợp, các số liệu kinh doanh truyền thống sẽ rất quan trọng. Trong những trường hợp khác, bạn sẽ cần phát triển các số liệu mới. Luôn duy trì việc các chuyên gia trong lĩnh vực của bạn được thông báo và điều chỉnh chặt chẽ quy trình sao cho phù hợp với các mục tiêu cốt lõi của bạn.

Để thực sự kiểm thử hệ thống, hãy sử dụng các ví dụ rút ra từ các tình huống thực tế bất cứ khi nào có thể, và đưa vào hoặc tạo ra các trường hợp ngoại lệ hiếm gặp nhưng có thể gây tốn kém nếu xử lý không đúng cách. 

Một số khung đánh giá có thể được mở rộng thông qua việc sử dụng trình phân loại LLM, một mô hình AI chấm điểm đầu ra theo cách mà một chuyên gia sẽ làm; tuy nhiên, vẫn cần có sự tham gia của con người. Chuyên gia miền của bạn cần thường xuyên kiểm tra tính chính xác của trình phân loại LLM và cũng nên trực tiếp xem xét nhật ký hành vi của hệ thống. 

Các khung đánh giá có thể giúp bạn quyết định khi nào một hệ thống sẵn sàng khởi chạy, nhưng chúng không dừng lại ở thời điểm khởi chạy. Bạn nên liên tục đo lường chất lượng đầu ra thực tế của hệ thống được tạo ra từ đầu vào thực tế. Giống như bất kỳ sản phẩm nào, tín hiệu từ người dùng cuối (dù là bên ngoài hay bên trong) đều đặc biệt quan trọng và nên được đưa vào quy trình đánh giá của bạn.

3. Cải tiến: Học hỏi từ những sai lầm

Bước cuối cùng là thiết lập một quy trình để liên tục cải tiến. Giải quyết các vấn đề được phát hiện bằng khung đánh giá của bạn có thể có nhiều hình thức: tinh chỉnh câu lệnh, điều chỉnh quyền truy cập dữ liệu, cập nhật chính khung đánh giá để phản ánh tốt hơn mục tiêu của bạn, v.v. Khi bạn phát hiện ra các loại lỗi mới, hãy thêm vào phân tích lỗi của bạn và xử lý chúng. Mỗi lần lặp lại sẽ tích lũy trên lần trước: các tiêu chí mới và kỳ vọng rõ ràng hơn về hành vi của hệ thống giúp tìm ra các trường hợp khó khăn mới và các sự cố khó phát hiện, khó xử lý cần khắc phục.

Để hỗ trợ quá trình lặp này, hãy xây dựng bánh đà dữ liệu. Ghi lại các đầu vào, đầu ra và kết quả; lấy mẫu các nhật ký đó theo lịch trình và tự động chuyển các trường hợp mơ hồ hoặc tốn kém để chuyên gia đánh giá. Thêm những đánh giá của chuyên gia vào khung đánh giá và phân tích lỗi của bạn, sau đó sử dụng chúng để cập nhật câu lệnh, công cụ hoặc mô hình. Thông qua vòng lặp này, bạn sẽ xác định rõ hơn kỳ vọng của mình đối với hệ thống, điều chỉnh hệ thống chặt chẽ hơn theo các kỳ vọng đó và định rõ đầu ra và kết quả liên quan bổ sung để theo dõi. Triển khai quy trình này ở quy mô lớn sẽ tạo ra tập dữ liệu lớn, khác biệt và theo bối cảnh cụ thể, khó sao chép—một tài sản giá trị mà tổ chức của bạn có thể tận dụng khi xây dựng sản phẩm hoặc quy trình tốt nhất trên thị trường. 

Trong khi các khung đánh giá tạo ra phương pháp có hệ thống để cải tiến hệ thống AI của bạn, các chế độ lỗi mới có thể phát sinh. Trên thực tế, khi các mô hình, dữ liệu và mục tiêu kinh doanh phát triển, các khung đánh giá cũng phải được duy trì, mở rộng và kiểm tra độ bền liên tục.

Đối với các quá trình triển khai hướng ra bên ngoài, các khung đánh giá không thể thay thế các thử nghiệm A/B và thử nghiệm sản phẩm truyền thống. Chúng là sự bổ sung cho thử nghiệm truyền thống, có thể giúp hướng dẫn lẫn nhau và cung cấp khả năng hiển thị về cách những thay đổi mà bạn thực hiện tác động đến hiệu suất thực tế. 

Đánh giá có ý nghĩa như thế nào đối với các nhà lãnh đạo doanh nghiệp

Mỗi sự thay đổi lớn về công nghệ đều định hình lại sự xuất sắc trong hoạt động và lợi thế cạnh tranh. Các khuôn khổ như OKR và KPI đã giúp các tổ chức định hướng theo hướng "đo lường những điều quan trọng" đối với công việc kinh doanh của họ trong thời đại phân tích dữ liệu lớn. Các khung đánh giá là sự mở rộng tự nhiên của phép đo lường dành cho thời đại AI.

Làm việc với các hệ thống xác suất đòi hỏi các loại phép đo mới và cân nhắc sâu hơn về các đánh đổi. Các nhà lãnh đạo phải quyết định khi nào độ chính xác là cần thiết, khi nào họ có thể linh hoạt hơn, và cách thức cân bằng giữa tốc độ và độ tin cậy.

Việc thực hiện các khung đánh giá rất khó khăn, tương tự như của việc xây dựng các sản phẩm tuyệt vời cũng khó khăn; chúng đòi hỏi sự nghiêm ngặt, tầm nhìn và có "gu". Nếu được thực hiện tốt, các khung đánh giá trở thành những điểm khác biệt độc đáo. Trong một thế giới mà thông tin được cung cấp miễn phí toàn cầu và chuyên môn được dân chủ hóa, lợi thế của bạn phụ thuộc vào việc hệ thống của bạn có thể thực thi tốt như thế nào trong ngữ cảnh của bạn. Các khung đánh giá mạnh mẽ tạo ra lợi thế kép và bí kíp cấp tổ chức khi hệ thống của bạn được cải tiến. 

Ở phần cốt lõi, các khung bài đánh giá (evals) là về sự hiểu biết sâu sắc bối cảnh kinh doanh và các mục tiêu. Nếu bạn không thể định nghĩa được "tuyệt vời" có nghĩa là gì đối với trường hợp sử dụng của mình, bạn khó có thể đạt được điều đó. Theo nghĩa này, các khung đánh giá nêu bật bài học quan trọng của kỷ nguyên AI: kỹ năng quản lý là kỹ năng AI. Mục tiêu rõ ràng, phản hồi trực tiếp, phán đoán thận trọng và hiểu rõ về đề xuất giá trị, chiến lược và quy trình của bạn vẫn quan trọng, thậm chí còn quan trọng hơn bao giờ hết.

Khi có thêm nguyên tắc thực hành tốt nhất và khung đánh giá mới xuất hiện, chúng tôi sẽ chia sẻ. Trong thời gian này, chúng tôi khuyến khích bạn thử nghiệm với các khung đánh giá (evals) và khám phá các quy trình phù hợp nhất với nhu cầu của bạn. Để bắt đầu, hãy xác định vấn đề cần giải quyết và chuyên gia miền của bạn, tập hợp nhóm nhỏ của bạn, và nếu bạn đang xây dựng trên API của chúng tôi, hãy khám phá Tài liệu Nền tảng(mở trong cửa sổ mới) của chúng tôi.

Đừng hy vọng vào điều “tuyệt vời”. Hãy xác định rõ, đo lường nó, và cải tiến theo hướng đó.

Tác giả

OpenAI

Ghi chú cuối trang

  1. 1

    Nếu bạn muốn hỗ trợ công việc của chúng tôi trong việc xây dựng thế hệ mô hình AI tiếp theo, chúng tôi rất vui khi được mời bạn đóng góp cho GDPVal, tiêu chuẩn mới nhất của chúng tôi về cách các mô hình AI hoạt động trên các nhiệm vụ thực tế. Nếu bạn là một chuyên gia trong ngành quan tâm đến việc đóng góp cho GDPval, vui lòng thể hiện sự quan tâm của bạn tại đây. Nếu bạn là khách hàng làm việc với OpenAI và bạn muốn đóng góp cho vòng GDPval trong tương lai, vui lòng bày tỏ sự quan tâm tại đây.