Bên trong cách tiếp cận của chúng tôi đối với Thông số kỹ thuật mô hình
Khi các hệ thống AI trở nên có khả năng hơn và được sử dụng rộng rãi hơn, chúng ta cần một khuôn khổ công khai rõ ràng về cách chúng nên hành xử.
Tại OpenAI, chúng tôi tin AI cần công bằng, an toàn và sẵn có rộng rãi để nhiều người hơn có thể sử dụng nó nhằm giải quyết các vấn đề khó khăn, tạo ra cơ hội và mang lại lợi ích trong các lĩnh vực như sức khỏe, khoa học, giáo dục, công việc và cuộc sống hàng ngày. Chúng tôi tin rằng quyền tiếp cận AI được dân chủ hóa là con đường tốt nhất để tiến lên phía trước: không phải AI mà lợi ích hoặc quyền kiểm soát bị tập trung trong tay một số ít người, mà là AI mà nhiều người hơn có thể tiếp cận, hiểu và góp phần định hình.
Đó là lý do cốt lõi đằng sau sự tồn tại của thông số kỹ thuật của mô hình OpenAI. Thông số kỹ thuật của mô hình(mở trong cửa sổ mới) là khung quy định chính thức về hành vi của mô hình. Nó định nghĩa cách chúng ta muốn các mô hình tuân theo hướng dẫn, giải quyết xung đột, tôn trọng quyền tự do của người dùng và hoạt động an toàn trong phạm vi vô cùng rộng lớn các truy vấn mà người dùng đặt ra hàng ngày. Nói rộng hơn, đó là nỗ lực của chúng tôi để làm cho hành vi mô hình dự định trở nên rõ ràng: không chỉ trong quá trình đào tạo của chúng tôi, mà ở một hình thức mà người dùng, nhà phát triển, nhà nghiên cứu, nhà hoạch định chính sách và công chúng rộng lớn hơn có thể thực sự đọc, kiểm tra và tranh luận.
Thông số kỹ thuật của mô hình không phải là tuyên bố rằng các mô hình của chúng tôi đã hành xử theo cách này một cách hoàn hảo ở thời điểm hiện tại. Theo nhiều khía cạnh, nó mang tính mô tả, nhưng đồng thời cũng là mục tiêu về hướng mà chúng tôi muốn hành vi của mô hình tiến tới. Chúng tôi sử dụng nó để làm rõ hơn hành vi mong muốn, để chúng tôi có thể huấn luyện, đánh giá dựa trên đó và cải thiện theo thời gian.
Bài viết này chia sẻ bối cảnh đằng sau mà không có trong chính thông số kỹ thuật của mô hình, bao gồm triết lý và cơ chế đằng sau nó: nó được cấu trúc như thế nào, vì sao chúng tôi đưa ra những lựa chọn về cấu trúc đó, và cách chúng tôi viết, triển khai và phát triển nó theo thời gian.
Thông số kỹ thuật của mô hình là một phần trong cách tiếp cận rộng hơn của OpenAI đối với AI an toàn và có trách nhiệm giải trình. Trong khi Khung chuẩn bị tập trung vào các rủi ro từ những năng lực tiên phong và các biện pháp bảo vệ cần thiết khi những rủi ro đó gia tăng, thì thông số kỹ thuật của mô hình đề cập đến một câu hỏi khác nhưng mang tính bổ trợ: các mô hình của chúng tôi nên hành xử như thế nào trong nhiều tình huống khác nhau. Xét ở phạm vi rộng hơn nữa, khả năng chống chịu của AI nhằm giải quyết thách thức xã hội rộng lớn hơn là giúp xã hội tận dụng được những lợi ích của AI tiên tiến, đồng thời giảm thiểu sự gián đoạn và các rủi ro mới nổi khi các hệ thống ngày càng có năng lực cao hơn được triển khai. Nhìn chung, những sáng kiến này nhằm giúp quá trình chuyển đổi sang AGI diễn ra dần dần, lặp lại theo từng bước và có thể được công chúng hiểu rõ trong khuôn khổ dân chủ: tạo thời gian để con người và các tổ chức thích ứng, đồng thời xây dựng các biện pháp bảo vệ, cơ chế trách nhiệm giải trình và sự hiểu biết của công chúng cần thiết để bảo đảm AI mạnh mẽ vẫn phù hợp với lợi ích của con người.
Sự minh bạch công khai về hành vi của mô hình rất quan trọng đối với cả sự công bằng và an toàn. Điều này quan trọng đối với sự công bằng vì mọi người cần hiểu AI đang đối xử với họ theo cách như vậy như thế nào và vì sao—đồng thời có thể nhận diện, chất vấn và giải quyết các quan ngại về công bằng khi những quan ngại đó phát sinh. Và điều này quan trọng đối với an toàn vì khi các hệ thống AI ngày càng trở nên tiên tiến hơn, con người và các tổ chức cần có những kỳ vọng rõ ràng hơn về cách chúng được thiết kế để hoạt động, những sự đánh đổi mà chúng hàm chứa và cách những lựa chọn đó có thể được cải thiện theo thời gian. Kiểu tính dễ đọc đó cũng hỗ trợ khả năng phục hồi bằng cách cho nhiều người hơn một thứ cụ thể để xem xét, chất vấn và cải thiện.
Kể từ phiên bản đầu tiên vào năm 2024, Thông số kỹ thuật của mô hình đã phát triển đáng kể khi chúng tôi hiểu rõ hơn về sở thích và nhu cầu của người dùng, mở rộng để bao quát và thích ứng với các năng lực ngày càng lớn hơn, đồng thời tiếp thu phản hồi công khai về hành vi của mô hình và Thông số kỹ thuật của mô hình. Theo tinh thần triển khai lặp đi lặp lại, Thông số kỹ thuật của mô hình là một tài liệu đang phát triển, bao gồm cả các giá trị nền tảng và các quy tắc rõ ràng, dễ hiểu—kết hợp với một quy trình để sửa đổi từng yếu tố khi chúng ta học hỏi từ việc triển khai thực tế và phản hồi. Chúng tôi cũng đang đầu tư vào các cơ chế phản hồi công khai như sự đồng thuận tập thể để giúp con người kiểm soát cách thức sử dụng AI và cách định hình hành vi của AI.
Trong nội bộ, nó mang lại cho chúng ta một ngôi sao bắc cực cho hành vi dự định và một khuôn khổ chung cho đào tạo, đánh giá và quản trị. Bên ngoài, nó tạo ra một điểm tham chiếu công khai mà mọi người có thể sử dụng để hiểu cách tiếp cận của chúng tôi, phê bình nó và giúp cải thiện nó theo thời gian.
Thông số kỹ thuật của mô hình bao gồm một số loại hướng dẫn khác nhau cho mô hình. Điều đó là có chủ đích. Các khía cạnh khác nhau trong hành vi của mô hình cần được xử lý theo những cách khác nhau và một tài liệu công khai hữu ích phải làm được nhiều hơn là chỉ liệt kê các quy tắc.
Thông số kỹ thuật của mô hình bắt đầu bằng mục đích ở cấp độ cao: một phần trình bày rõ ràng về những gì chúng ta đang cố gắng tối ưu hóa ở cấp độ hệ thống, và lý do tại sao.
Lời mở đầu này làm rõ ba mục tiêu cho cách chúng tôi dự định theo đuổi sứ mệnh của mình:
- Triển khai lặp lại các mô hình nhằm trao quyền cho nhà phát triển và người dùng
- Ngăn chặn các mô hình của chúng tôi gây hại nghiêm trọng cho người dùng hoặc người khác
- Duy trì giấy phép hoạt động của OpenAI
Sau đó, nó giải thích cách chúng ta nghĩ về việc cân bằng các mục tiêu này trong thực tế, làm cho các đánh đổi đủ cụ thể để hỗ trợ các nguyên tắc chi tiết hơn sau đó.
Điều quan trọng là phần mở đầu này không nhằm là một chỉ dẫn trực tiếp cho mô hình. Mang lại lợi ích cho nhân loại là mục tiêu của OpenAI, không phải là mục tiêu mà chúng tôi muốn các mô hình của mình tự chủ theo đuổi. Thay vào đó, chúng tôi muốn các mô hình tuân theo một chuỗi chỉ huy bao gồm Thông số kỹ thuật của mô hình và các hướng dẫn hiện hành từ OpenAI, nhà phát triển và người dùng—ngay cả khi một số người có thể không đồng ý với kết quả trong một trường hợp cụ thể.
Chúng tôi cho rằng đây là sự cân bằng phù hợp vì chúng tôi coi trọng quyền tự chủ của con người và tự do trí tuệ. Nếu chúng tôi huấn luyện các mô hình để quyết định nên tuân theo những hướng dẫn nào dựa trên quan điểm riêng của chúng tôi về điều gì là tốt cho xã hội, OpenAI sẽ ở vào vị thế phân xử các vấn đề đạo đức ở phạm vi rất rộng. Dẫu vậy, lời mở đầu vẫn quan trọng. Khi có sự mơ hồ trong cách áp dụng thông số kỹ thuật của mô hình, phần mở đầu sẽ giúp giải quyết điều đó.
Thông số kỹ thuật của mô hình cũng bao gồm các cam kết công khai vượt ra ngoài hành vi có thể đo lường trực tiếp của mô hình, nhằm mục đích huấn luyện và các ràng buộc triển khai. Ví dụ: các nguyên tắc Ranh giới đỏ(mở trong cửa sổ mới) của chúng tôi bao gồm cam kết rằng trong các triển khai bên thứ nhất như ChatGPT, chúng tôi sẽ không bao giờ sử dụng thông điệp hệ thống để cố ý làm tổn hại đến tính khách quan(mở trong cửa sổ mới) hoặc các nguyên tắc liên quan; và Không có mục tiêu nào khác(mở trong cửa sổ mới) đưa ra các cam kết về ý định của chúng tôi trong việc tối ưu hóa phản hồi của mô hình vì lợi ích của người dùng, chứ không phải vì doanh thu hoặc để kéo dài thời gian trên trang mà không mang lại lợi ích.
Cốt lõi của thông số kỹ thuật của mô hình là Chuỗi Mệnh lệnh: một khuôn khổ để quyết định những chỉ thị nào nên được áp dụng trong một tình huống cụ thể. Nội dung này cũng đề cập đến cách mô hình nên xử lý các chỉ dẫn chưa được đặc tả đầy đủ, đặc biệt trong các bối cảnh tác nhân, nơi mô hình được kỳ vọng sẽ tự chủ bổ sung các chi tiết còn thiếu đồng thời kiểm soát cẩn thận các tác động phụ trong thế giới thực.
Ý tưởng cơ bản đằng sau việc quyết định hướng dẫn nào nên được áp dụng là đơn giản. Các hướng dẫn có thể đến từ nhiều nguồn khác nhau, bao gồm OpenAI, nhà phát triển và người dùng. Những hướng dẫn này có thể xung đột. Chuỗi chỉ huy giải thích cách mô hình nên giải quyết những xung đột đó.
Mỗi chính sách về thông số kỹ thuật của mô hình và mỗi hướng dẫn đều được nêu rõ. cấp độ thẩm quyền(mở trong cửa sổ mới). Mô hình được hướng dẫn ưu tiên chữ cái và tinh thần của các hướng dẫn có thẩm quyền cao hơn khi xung đột phát sinh. Nếu người dùng yêu cầu trợ giúp để chế tạo bom, mô hình nên ưu tiên các ranh giới an toàn(mở trong cửa sổ mới) nghiêm ngặt. Nếu người dùng yêu cầu bị cà khịa, mô hình nói chung nên ưu tiên yêu cầu đó hơn chính sách chống lạm dụng(mở trong cửa sổ mới) có thẩm quyền thấp hơn trong thông số kỹ thuật của mô hình.
Cấu trúc này cho phép chúng tôi xác định một tập hợp tương đối nhỏ các quy tắc không thể ghi đè cùng với một tập hợp mặc định lớn hơn. Đó là cách chúng tôi cố gắng tối đa hóa quyền tự do của người dùng và quyền kiểm soát của nhà phát triển trong các ràng buộc an toàn.
- Các quy tắc cứng là các ranh giới rõ ràng mà người dùng hoặc nhà phát triển không thể ghi đè (theo cách gọi trong Thông số kỹ thuật của mô hình, đây là các hướng dẫn ở cấp “root” hoặc “system”). Chúng chủ yếu mang tính cấm đoán, yêu cầu các mô hình tránh những hành vi có thể góp phần gây ra rủi ro thảm khốc hoặc gây hại trực tiếp về thể chất, vi phạm pháp luật hoặc làm suy yếu chuỗi lệnh. Chúng tôi kỳ vọng AI sẽ trở thành một công nghệ nền tảng cho xã hội, tương tự như cơ sở hạ tầng internet cơ bản, vì vậy chúng tôi chỉ áp đặt các quy tắc có thể hạn chế tự do trí tuệ khi tin rằng chúng là cần thiết cho phổ rộng các nhà phát triển và người dùng sẽ tương tác với công nghệ này. Trong thông số kỹ thuật của mô hình, "Giữ trong giới hạn"(mở trong cửa sổ mới) bao gồm các quy tắc nghiêm ngặt nhằm giải quyết các rủi ro an toàn cụ thể trong thế giới thực, và Nguyên tắc dành cho người dưới 18 tuổi(mở trong cửa sổ mới) bổ sung các biện pháp bảo vệ bổ sung cho người dùng dưới 18 tuổi.
- Giá trị mặc định là những điểm khởi đầu có thể bị ghi đè: hành vi "phỏng đoán tốt nhất" của trợ lý khi người dùng hoặc nhà phát triển chưa chỉ định tùy chọn ưu tiên nào. Chúng tôi sử dụng các giá trị mặc định để làm cho hành vi có thể dự đoán và kiểm soát được ở quy mô lớn, để mọi người có thể lường trước điều gì sẽ xảy ra mà không cần phải viết một bộ hướng dẫn riêng mỗi lần. Các giá trị mặc định vẫn duy trì khả năng điều chỉnh: người dùng và nhà phát triển có thể điều chỉnh rõ ràng giọng điệu, độ sâu, định dạng, và thậm chí cả quan điểm trong phạm vi các ranh giới an toàn. Các giá trị mặc định ở cấp độ hướng dẫn (như giọng điệu hoặc phong cách) được thiết kế để có thể điều chỉnh một cách ngầm định, trong khi các giá trị mặc định ở cấp độ người dùng (như tính trung thực và tính khách quan) là điểm neo cho sự tin cậy và khả năng dự đoán, và chỉ có thể bị ghi đè bằng các hướng dẫn rõ ràng. Những điều đó không nên âm thầm trôi dạt dựa trên cảm tính; nếu người dùng muốn một lập trường thực tế khác, thì việc biến điều đó thành một hướng dẫn rõ ràng sẽ giúp sự thay đổi trở nên minh bạch và dễ nhận thấy. Những giá trị mặc định này được thể hiện xuyên suốt trong Cùng nhau tìm kiếm sự thật(mở trong cửa sổ mới), Làm công việc tốt nhất(mở trong cửa sổ mới), và Sử dụng phong cách phù hợp(mở trong cửa sổ mới), bao gồm các chuẩn mực về tính trung thực và tính khách quan, việc tránh tính xu nịnh, và các chuẩn mực tương tác như sự thẳng thắn cùng sự ấm áp và tính chuyên nghiệp phù hợp với ngữ cảnh.
Ngoài bản thân hệ thống phân cấp đó, thông số kỹ thuật của mô hình sử dụng các công cụ hỗ trợ diễn giải để giúp các mô hình (và con người) áp dụng thông số kỹ thuật này một cách nhất quán trong những vùng xám. Các hỗ trợ này bao gồm:
- Các tiêu chí ra quyết định giúp mô hình đưa ra những lựa chọn nhất quán trong những vùng xám, mà không cho rằng luôn tồn tại một quy tắc máy móc duy nhất. Ví dụ: hướng dẫn của Thông số kỹ thuật của mô hình về kiểm soát các tác động phụ(mở trong cửa sổ mới) nêu ra các cân nhắc như giảm thiểu các hành động không thể đảo ngược, bảo đảm các hành động tương xứng với mục tiêu, giảm bớt những bất ngờ không mong muốn và ưu tiên các cách tiếp cận có thể đảo ngược, mà những yếu tố này cần được cân bằng với các mục tiêu khác như hoàn thành tác vụ một cách nhanh chóng và hiệu quả.
- Các ví dụ cụ thể minh họa cách áp dụng nguyên tắc đó trong thực tế. Đây là những ví dụ ngắn gọn về câu lệnh và phản hồi, thường bao gồm cả phản hồi tuân thủ và không tuân thủ, thường xuất hiện ở những câu lệnh khó gần ranh giới quyết định quan trọng. Mục tiêu không phải là mô phỏng một cuộc hội thoại hoàn toàn thực tế. Đó là làm rõ sự phân biệt chính, và làm như vậy theo cách cũng thể hiện phong cách phản hồi mong muốn.
Chúng tôi giữ số lượng ví dụ tương đối ít và tập trung vào những ví dụ giàu thông tin nhất. Các bộ đánh giá rộng hơn giúp bao phủ tốt hơn các trường hợp ở phần mở rộng.
Một ví dụ minh họa các nguyên tắc về quyền tự do trí tuệ và không phán xét từ phần Giả định ý định tốt đẹp nhất(mở trong cửa sổ mới) trong Thông số kỹ thuật.
Đặc tả là một giao diện, không phải là một bản triển khai. Nó mô tả hành vi mà chúng tôi mong muốn, chứ không phải mọi chi tiết về cách chúng tôi tạo ra hành vi đó. Chúng tôi cố gắng tránh gắn nó vào các chi tiết triển khai, chẳng hạn như định dạng mã thông báo nội bộ hoặc công thức đào tạo chính xác cho một hành vi cụ thể, bởi vì những chi tiết đó có thể thay đổi ngay cả khi hành vi mong muốn không thay đổi. Đối tượng chính của Đặc tả mô hình không phải là mô hình mà là con người: tài liệu này nhằm giúp nhân viên OpenAI, người dùng, nhà phát triển, nhà nghiên cứu và nhà hoạch định chính sách hiểu, tranh luận và quyết định về hành vi dự kiến.
Bản đặc tả cũng mô tả mô hình, chứ không phải toàn bộ sản phẩm. Nó được bổ sung bởi các chính sách sử dụng của chúng tôi, trong đó phác thảo kỳ vọng của chúng tôi về cách mọi người nên sử dụng API và ChatGPT. Hệ thống mà người dùng tương tác bao gồm nhiều hơn chính mô hình: các tính năng của sản phẩm như hướng dẫn và bộ nhớ tùy chỉnh, giám sát, thực thi chính sách và các lớp khác cũng quan trọng. An toàn không chỉ đơn thuần là hành vi mô hình, và chúng tôi tin vào phương pháp phòng thủ nhiều lớp.
Và Thông số kỹ thuật không phải là bản mô tả đầy đủ về toàn bộ hệ thống huấn luyện của chúng tôi hoặc mọi điểm khác biệt trong chính sách nội bộ. Mục tiêu không phải là nắm bắt mọi chi tiết. Mục đích là làm cho các quyết định hành vi quan trọng nhất trở nên dễ hiểu, theo cách hoàn toàn nhất quán với hành vi mô hình mà chúng tôi mong muốn.
Có một số lý do để đưa nhiều nội dung đến vậy vào bản Thông số kỹ thuật thay vì cho rằng người đọc—hoặc mô hình—có thể suy ra mọi thứ chỉ từ một vài mục tiêu cấp cao.
Trước hết, Thông số kỹ thuật của mô hình là một công cụ về tính minh bạch và trách nhiệm giải trình . Nó được thiết kế để khuyến khích ý kiến đóng góp có ý nghĩa từ công chúng. Một mục tiêu công khai rõ ràng giúp mọi người xác định liệu một hành vi là lỗi hay là tính năng. Điều đó mang lại cho họ một điểm tham chiếu ổn định để đưa ra những lời phê bình và phản hồi cụ thể. Đó là lý do tại sao chúng tôi phát hành mã nguồn mở(mở trong cửa sổ mới) Thông số kỹ thuật của mô hình và chọn cải tiến lặp lại một cách công khai. Kể từ bản phát hành đầu tiên, nhiều thay đổi đã được thực hiện dựa trên ý kiến phản hồi từ công chúng, được thu thập thông qua nhiều cơ chế khác nhau, bao gồm các biểu mẫu phản hồi, các ý kiến phê bình công khai và các nỗ lực có chủ đích nhằm thu thập ý kiến đóng góp mang tính dân chủ.
Thứ hai, Thông số kỹ thuật của mô hình là một công cụ điều phối bên trong OpenAI. Nó cung cấp cho mọi người về nghiên cứu, sản phẩm, an toàn, chính sách, pháp lý, liên lạc và các chức năng khác một từ vựng chung để thảo luận về hành vi mô hình và cơ chế đề xuất và xem xét các thay đổi.
Thứ ba, các chính sách rõ ràng có thể bù đắp cho những hạn chế thực tế về trí tuệ của mô hình và ngữ cảnh thời gian chạy, giúp hành vi trở nên dễ dự đoán hơn. Mặc dù điều này ngày càng ít đúng hơn theo thời gian, một số chính sách nhằm bù đắp cho sự thiếu hụt về năng lực suy luận, trong những trường hợp mà các mô hình có thể không suy ra được hành vi đúng từ các nguyên tắc cấp cao hơn. Ví dụ: Hãy rõ ràng và trực tiếp(mở trong cửa sổ mới) đã khuyên các mô hình trước đây trình bày các bước giải trước khi đưa ra câu trả lời cho những bài toán khó đòi hỏi phải tính toán, nhưng ngày nay các mô hình của chúng tôi tự nhiên học được hành vi này thông qua tính năng học tăng cường.
Các chính sách khác đề cập đến bối cảnh hạn chế trong thời gian chạy: trợ lý chỉ có thể dựa vào những gì quan sát được trong tương tác hiện tại và hiếm khi biết đầy đủ hoàn cảnh, ý định, mục đích sử dụng về sau của người dùng hoặc các biện pháp bảo vệ tồn tại bên ngoài mô hình. Trong những trường hợp đó, ngay cả khi các mô hình có thể xác định được hành vi đúng với đủ nghiên cứu và suy xét, tính cụ thể vẫn cải thiện hiệu quả và khả năng dự đoán—chuyển nhiều quyết định mang tính phán đoán thành hướng dẫn, qua đó giảm khác biệt giữa các câu lệnh tương tự và giúp người dùng lẫn nhà nghiên cứu dễ hiểu hành vi hơn.
Cuối cùng, Thông số kỹ thuật của mô hình hướng đến mục tiêu trở thành danh sách đầy đủ các chính sách cấp cao liên quan đến đánh giá và đo lường. Nếu bạn muốn đánh giá xem một mô hình có hành xử như dự định hay không, sẽ rất hữu ích khi có một danh sách công khai các loại hành vi chính mà bạn quan tâm.
Người ta thường có xu hướng nghĩ rằng một mô hình đủ năng lực sẽ có thể suy luận ra hành vi đúng đắn từ một danh sách ngắn các mục tiêu như "giúp đỡ và đảm bảo an toàn". Có một số sự thật về điều đó. Trong những lĩnh vực có tiêu chí thành công khách quan, như toán học, trí thông minh thường có thể thay thế cho các quy tắc chi tiết.
Nhưng nhìn chung, hành vi của mô hình không giống như việc giải một bài toán đơn giản; các mô hình thường hoạt động trong những lĩnh vực phức tạp hơn, nơi không có một câu trả lời đúng đắn về mặt đạo đức mà mọi người đều đồng ý. Chẳng hạn, việc một mô hình được coi là “hữu ích và an toàn” có ý nghĩa gì phụ thuộc rất nhiều vào bối cảnh và là kết quả của quá trình ra quyết định vốn dĩ mang nặng tính giá trị. Chỉ riêng trí tuệ không cho bạn biết cần phải đánh đổi như thế nào khi liên quan đến đạo đức và các giá trị. Vì vậy, ngay cả khi các mô hình trở nên thông minh hơn, chúng ta vẫn cần nỗ lực để hiểu và định hướng các phán đoán giá trị / việc hành động “có đạo đức” trong một trường hợp cụ thể có nghĩa là gì. Và hầu hết các lý do để có một thông số kỹ thuật của mô hình vẫn còn phù hợp ngay cả khi các mô hình trở nên có khả năng hơn nhiều: chúng ta vẫn cần một mục tiêu công khai để mọi người có thể cùng phối hợp hướng tới, một cách để đánh giá liệu hành vi có phù hợp với chủ đích của chúng ta hay không, và một cơ chế để sửa đổi các quy tắc khi chúng ta học hỏi thêm. Nếu quy tắc duy nhất là “hãy hữu ích và an toàn”, thì sẽ không có cơ chế nào để con người có thể tranh luận, chẳng hạn, về ranh giới của loại nội dung mà mô hình nên từ chối cung cấp, qua đó giao tất cả những quyết định này cho mô hình.
Nếu có điều gì, khi các mô hình trở nên mạnh mẽ hơn, mang tính tác nhân hơn và được triển khai rộng rãi hơn, chi phí mơ hồ sẽ tăng lên. Điều đó khiến một khuôn khổ hành vi rõ ràng trở nên quan trọng hơn, chứ không phải kém quan trọng đi.
Một ví dụ so sánh hữu ích là sự khác biệt giữa hiến pháp thành văn và án lệ. Mặc dù hiến pháp bằng văn bản có thể cung cấp các nguyên tắc cấp cao cũng như các quy tắc cụ thể, nhưng nó không thể lường trước được tất cả các trường hợp có thể phát sinh và cần đến sự hướng dẫn của nó. Các hệ thống quản trị thực sự cũng cần có cơ chế giải thích, làm rõ và các phán quyết rõ ràng để giải quyết các trường hợp phức tạp hoặc các vấn đề không lường trước được. Các quy tắc được công bố giúp các bên liên quan khác nhau phối hợp ngay cả khi họ bất đồng quan điểm, và chúng hạn chế sự thay đổi bằng cách yêu cầu bất kỳ sự thay đổi nào cũng phải được nêu rõ. Thông số kỹ thuật của mô hình được thiết kế để đóng tất cả các vai trò này: một tuyên bố về các nguyên tắc, một khuôn khổ hành vi công khai và một quy trình để thay đổi thông số kỹ thuật theo thời gian.
Điều đó nói lên rằng, chúng tôi không nghĩ rằng mọi thứ quan trọng về hành vi của mô hình sẽ luôn được rút gọn thành các quy tắc rõ ràng. Khi các hệ thống trở nên tự chủ hơn, độ tin cậy và niềm tin sẽ ngày càng phụ thuộc vào các kỹ năng và khuynh hướng rộng hơn: truyền đạt tốt sự không chắc chắn, tôn trọng phạm vi tự chủ, tránh những bất ngờ tồi tệ, theo dõi ý định theo thời gian và suy luận tốt về các giá trị con người trong bối cảnh.
Khi viết thông số kỹ thuật của mô hình, có một phạm vi rộng giữa việc mô tả hành vi thực tế của mô hình hiện tại, bao gồm cả những điểm yếu, và việc mô tả một mục tiêu lý tưởng trong tương lai xa. Chúng tôi cố gắng cân bằng, thường nhắm đến mục tiêu trong khoảng 0-3 tháng tới thời điểm hiện tại. Do đó, thông số kỹ thuật của mô hình thường đi trước mô hình thực tế ở ít nhất một vài khía cạnh đang được phát triển.
Điều đó phản ánh vai trò của Thông số kỹ thuật của Mô hình như một mô tả về hành vi dự kiến. Nó sẽ chỉ cho chúng ta một hướng mạch lạc trong khi vẫn dựa vào những gì chúng ta đã làm hoặc có kế hoạch ngắn hạn cụ thể để thực hiện.
Bản thông số kỹ thuật của mô hình được xây dựng thông qua một quy trình nội bộ mở. Bất kỳ ai tại OpenAI đều có thể bình luận về nó hoặc đề xuất các thay đổi và các bản cập nhật cuối cùng được phê duyệt bởi một loạt các bên liên quan đa chức năng. Trên thực tế, hàng chục người đã trực tiếp đóng góp nội dung, và nhiều người khác từ các bộ phận nghiên cứu, kỹ thuật, sản phẩm, an toàn, chính sách, pháp lý, truyền thông, quan hệ quốc tế và các bộ phận khác cũng tham gia đóng góp ý kiến. Chúng tôi cũng học hỏi từ các bản phát hành và phản hồi công khai, giúp kiểm tra áp lực các lựa chọn này trong triển khai thực tế.
Điều này quan trọng bởi vì hành vi mô hình - và ý nghĩa của nó trên thế giới - cực kỳ phức tạp. Không ai có thể phù hợp với đầy đủ các hành vi, quy trình đào tạo và ý nghĩa hạ lưu trong đầu họ, nhưng với nhiều người đóng góp và đánh giá đa chức năng, chúng tôi có thể cải thiện chất lượng và tăng sự tự tin.
Một điều ngạc nhiên thú vị là sự đồng thuận thực sự thường có thể xảy ra - đặc biệt là khi chúng ta buộc bản thân phải viết ra những đánh đổi đủ chính xác để những bất đồng trở nên cụ thể.
Thông số kỹ thuật của mô hình cũng không được viết tách rời khỏi bối cảnh. Phần lớn nội dung cuối cùng được đưa vào đó là bản tóm tắt về những công việc rộng hơn liên quan đến hành vi, an toàn và chính sách. Phần lớn việc viết Thông số kỹ thuật của mô hình thực chất là một dạng công việc biên dịch: lấy những nội dung hiện có và làm cho chúng đơn giản hơn, nhất quán hơn, có tổ chức hơn và dễ tiếp cận hơn mà không làm mất đi ý định cốt lõi.
Các mô hình sản xuất của chúng tôi vẫn chưa phản ánh đầy đủ Thông số kỹ thuật của mô hình vì một số lý do.
- Quá trình huấn luyện mô hình có thể chậm hơn so với các bản cập nhật của thông số kỹ thuật của mô hình. Nó mô tả hành vi mà chúng tôi đang hướng tới, vì vậy nó có thể đi trước những gì mô hình mới nhất của chúng tôi đã được đào tạo để làm.
- Việc huấn luyện có thể vô tình dạy ra hành vi không nhất quán với Thông số kỹ thuật của mô hình. Chúng tôi nỗ lực hết sức để tránh điều này, và khi điều này xảy ra, chúng tôi coi đó là một lỗi nghiêm trọng—bằng cách nỗ lực điều chỉnh hành vi hoặc Thông số kỹ thuật của mô hình để đưa hai yếu tố này vào trạng thái nhất quán.
- Đào tạo không bao giờ có thể bao phủ đầy đủ không gian của tất cả các hành vi có thể. Việc sử dụng thực tế chứa một loạt các ngữ cảnh và các trường hợp cạnh chỉ hiển thị trên quy mô lớn và không có quy trình đào tạo nào có thể bao gồm mọi thứ.
- Sự khái quát hóa có thể khác với những gì chúng ta dự định. Mô hình có thể tạo ra các kết quả "đúng" trong quá trình huấn luyện vì những lý do không mong muốn, dẫn đến hành vi không mong muốn trong các tình huống mới khác với những tình huống đã thấy trong quá trình huấn luyện. Các kỹ thuật như điều chỉnh thận trọng rất hữu ích, nhưng chúng không phải là giải pháp hoàn chỉnh.
Nói rộng hơn, việc Thông số kỹ thuật của mô hình mô tả nhiều hành vi mong muốn khác nhau không có nghĩa là chỉ có một phương pháp duy nhất để dạy tất cả những hành vi đó. Các khía cạnh khác nhau của hành vi—khả năng làm theo chỉ dẫn, các ranh giới an toàn, tính cách, cách thể hiện sự không chắc chắn một cách phù hợp, v.v.—thường đòi hỏi các kỹ thuật khác nhau và có các dạng lỗi khác nhau. Thông số kỹ thuật của mô hình giúp hành vi mong muốn trở nên dễ hiểu và dễ phê bình hơn, nhưng việc triển khai tốt thông số này vẫn vừa là một nghệ thuật vừa là một lĩnh vực nghiên cứu đang được tích cực theo đuổi.
Cùng với bài đăng này, chúng tôi cũng phát hành Đánh giá Thông số kỹ thuật của mô hình(mở trong cửa sổ mới): một bộ công cụ đánh giá dựa trên kịch bản, cố gắng bao quát càng nhiều khẳng định trong thông số kỹ thuật của mô hình càng tốt với một số lượng nhỏ các ví dụ tiêu biểu. Điều này giúp chúng ta theo dõi xem hành vi của mô hình và thông số kỹ thuật của mô hình có thể không khớp nhau ở đâu, và giúp chúng ta kiểm tra xem các mô hình có diễn giải thông số kỹ thuật của mô hình theo cách chúng ta dự định hay không. Những đánh giá này chỉ là một phần của chiến lược đánh giá toàn diện hơn, bao gồm cả các đánh giá chuyên sâu hơn trên nhiều khía cạnh hành vi, bao gồm các lĩnh vực an toàn cụ thể, tính trung thực và tính xu nịnh, tính cách và phong cách, và năng lực.
Biểu đồ thể hiện mức độ tuân thủ thông số kỹ thuật của mô hình theo từng phần đối với các mô hình OpenAI theo thời gian. Xem bài đăng trên blog kèm theo(mở trong cửa sổ mới) để biết thêm chi tiết về các đánh giá và cách chúng tôi diễn giải chúng. Tóm lại, chúng tôi tin rằng những kết quả này phản ánh những cải thiện thực chất và trên diện rộng về mức độ liên kết của mô hình theo thời gian—mặc dù chúng cũng phản ánh một tác động nhỏ do việc đánh giá các mô hình cũ theo các chính sách gần đây hơn.
Trên thực tế, hầu hết các bản cập nhật của Thông số kỹ thuật đều được thúc đẩy bởi một nhóm yếu tố đầu vào lặp đi lặp lại:
- Các vấn đề và phản hồi công khai. Những điểm gây nhầm lẫn, các trường hợp biên hoặc các dạng lỗi—trong ngôn ngữ của Thông số kỹ thuật của mô hình hoặc trong hành vi của các mô hình của chúng tôi.
- Các vấn đề nội bộ. Các mẫu hình mà chúng tôi quan sát được trong quá trình phát triển và kiểm thử, bao gồm cả những điểm mơ hồ mà ở đó những cách diễn giải hợp lý khác nhau dẫn đến các hành vi khác nhau.
- Cập nhật chính sách hành vi và an toàn. Khi các ràng buộc hoặc cam kết cấp cao hơn thay đổi, Thông số kỹ thuật phải phản ánh cấu trúc mới đó một cách rõ ràng.
- Các khả năng và sản phẩm mới. Khi các mô hình trở nên có khả năng thực hiện những hành vi mới hơn và chúng tôi phát hành các sản phẩm mới, chúng tôi muốn thông số kỹ thuật của mô hình cũng theo kịp về nội dung và phạm vi bao quát—ví dụ: bổ sung các quy tắc cho tương tác đa phương thức(mở trong cửa sổ mới), tác nhân tự động(mở trong cửa sổ mới) và người dùng dưới 18 tuổi(mở trong cửa sổ mới).
Một vài nguyên tắc thiết kế định hướng cách chúng tôi viết và chỉnh sửa thông số kỹ thuật của mô hình.
- Sự rõ ràng và chính xác. “Hãy trung thực” là một giá trị tốt, nhưng không phải là một quy trình ra quyết định hoàn chỉnh. Thông số kỹ thuật của mô hình nên làm rõ hơn những bất đồng, chứ không che giấu chúng sau ngôn ngữ có vẻ ôn hòa. Khi phù hợp, chúng ta nên nêu rõ các xung đột tiềm ẩn giữa các quy tắc và cung cấp hướng dẫn hoặc ví dụ về cách giải quyết các xung đột đó. Ví dụ: Đừng nói dối(mở trong cửa sổ mới) chỉ ra một xung đột tiềm ẩn với Hãy ấm áp(mở trong cửa sổ mới), giải thích rằng trợ lý nên tuân theo các chuẩn mực lịch sự, đồng thời tránh những lời nói dối vô hại có thể trở thành tính xu nịnh(mở trong cửa sổ mới) và đi ngược lại lợi ích tốt nhất của người dùng.
- Các quy tắc mang tính thực chất. Người đọc phải có khả năng đưa ra lời nhắc thực tế và đưa ra một câu trả lời mà người đọc khác nhận ra rõ ràng bên trong hoặc bên ngoài dòng (ngay cả khi có những lời kêu gọi phán đoán ở lề).
- Ví dụ giúp tối đa hóa tỷ lệ tín hiệu/nhiễu. Các ví dụ hay thường đóng vai trò then chốt trong việc xây dựng một bản cập nhật đặc tả chất lượng cao. Các ví dụ nên giúp đi thẳng vào cốt lõi của những khó khăn trong việc đặc tả hành vi của mô hình, làm nổi rõ các xung đột nan giải và đưa ra lập trường rõ ràng về cách giải quyết chúng. Bên cạnh đó, các ví dụ cũng nên nỗ lực trở thành những hình mẫu tiêu biểu về giọng điệu và phong cách mong muốn—điều có thể khó truyền tải bằng văn xuôi.
- Mạnh mẽ. Chúng tôi cố gắng tránh các ví dụ có sự mơ hồ hoặc phức tạp bên ngoài, vì vậy xung đột cốt lõi và giải pháp dự định là rõ ràng.
- Tính nhất quán và cách tổ chức rõ ràng. Chúng tôi nỗ lực để các quy tắc trong Thông số kỹ thuật của mô hình hoàn toàn nhất quán với nhau và với hành vi mô hình mà chúng tôi mong muốn, đồng thời giúp bố cục tổng thể của tài liệu trở nên rõ ràng và dễ tiếp cận.
Thông số kỹ thuật của mô hình không phải là lời khẳng định rằng chúng ta có thể viết ra mọi điều quan trọng, hoặc rằng các mô hình sẽ luôn đạt đúng mục tiêu. Đó là một tuyên bố rằng hành vi dự định đủ quan trọng để rõ ràng, có thể hành động và có thể sửa đổi.
Ba tiêu chí thành công định hướng cách chúng tôi phát triển nó.
- Độ dễ đọc. Những người bên trong và bên ngoài OpenAI có thể hình thành kỳ vọng chính xác về hành vi và có thể chỉ vào văn bản khi hành vi gây ngạc nhiên cho họ.
- Khả năng hành động. Thông số kỹ thuật của mô hình có thể được sử dụng để thiết kế các bài đánh giá, chẩn đoán sự cố và đưa ra các quyết định nhất quán về sản phẩm—không chỉ để thể hiện các giá trị.
- Khả năng sửa đổi. Thông số kỹ thuật của mô hình có thể phát triển khi chúng tôi học hỏi thêm mà không trở thành một mục tiêu luôn thay đổi và thiếu ổn định.
Khi các mô hình và sản phẩm phát triển, chúng tôi kỳ vọng rằng Thông số kỹ thuật của mô hình sẽ được mở rộng và làm rõ hơn, song hành với các năng lực mới và các bối cảnh triển khai. Mục tiêu là duy trì đặc tả hành vi mạch lạc, có thể kiểm chứng và phù hợp với sứ mệnh của chúng tôi là đảm bảo AGI mang lại lợi ích cho toàn thể nhân loại.


