Bỏ qua nội dung chính
OpenAI

13 tháng 11, 2025

Nghiên cứuẤn phẩm

Hiểu về mạng thần kinh thông qua mạch thưa

Chúng tôi đã đào tạo các mô hình để suy nghĩ theo các bước đơn giản hơn, dễ theo dõi hơn—để có thể hiểu rõ hơn về cách chúng hoạt động.

Đang tải…

​​Mạng thần kinh cung cấp sức mạnh cho các hệ thống AI tiên tiến nhất hiện nay, nhưng chúng vẫn còn khó để hiểu rõ. Chúng tôi không viết các mô hình này với các hướng dẫn cụ thể, từng bước. Thay vào đó, chúng học bằng cách điều chỉnh hàng tỷ kết nối nội bộ, hoặc “trọng số”, cho đến khi chúng thành thạo một nhiệm vụ. Chúng tôi thiết kế các quy tắc huấn luyện, nhưng không phải các hành vi cụ thể phát sinh, và kết quả là một mạng lưới phức tạp các kết nối mà không ai có thể dễ dàng giải mã. 

Cách chúng ta nhìn nhận khả năng diễn giải

Khi các hệ thống AI ngày càng trở nên tiên tiến và có tác động thực tế đến các quyết định trong khoa học, giáo dục và y tế, việc hiểu cách chúng hoạt động là điều cần thiết. Khả năng diễn giải đề cập đến các phương pháp giúp chúng ta hiểu lý do tại sao một mô hình tạo ra một kết quả đầu ra nhất định. Có nhiều cách để chúng ta có thể đạt được điều này. 

Ví dụ, các mô hình lý luận được khuyến khích giải thích công việc của chúng trên hành trình đến câu trả lời cuối cùng. Khả năng diễn giải chuỗi tư duy tận dụng những giải thích này để theo dõi hành vi của mô hình. Điều này ngay lập tức hữu ích: chuỗi suy nghĩ của các mô hình lý luận hiện tại dường như cung cấp thông tin hữu ích về các hành vi đáng lo ngại như lừa dối. Tuy nhiên, việc hoàn toàn dựa vào đặc tính này là một chiến lược mong manh và điều này có thể sụp đổ theo thời gian.

Mặt khác, khả năng diễn giải theo cơ chế, vốn là trọng tâm của công việc này, tìm cách hoàn toàn đảo ngược các tính toán của một mô hình. Cho đến nay, nó chưa mang lại lợi ích ngay lập tức, nhưng về nguyên tắc, có thể mang dến một giải thích đầy đủ hơn về hành vi của mô hình. Nhờ tìm cách giải thích hành vi của mô hình ở mức độ chi tiết nhất, khả năng diễn giải theo cơ chế có thể đưa ra ít giả định hơn và giúp chúng ta tự tin hơn. Nhưng con đường từ những chi tiết cấp thấp đến việc giải thích các hành vi phức tạp còn dài và khó khăn hơn nhiều.

Khả năng diễn giải hỗ trợ một số mục tiêu chính, ví dụ như cho phép giám sát tốt hơn và cung cấp các dấu hiệu cảnh báo sớm về hành vi không an toàn hoặc sai lệch về chiến lược. Nó cũng bổ sung cho các nỗ lực an toàn khác của chúng tôi, chẳng hạn như giám sát có thể mở rộng, huấn luyện đối kháng và mô phỏng tấn công (red-teaming). 

Trong nghiên cứu này, chúng tôi chứng minh rằng chúng tôi thường có thể huấn luyện các mô hình theo những cách giúp chúng dễ dàng diễn giải hơn. Chúng tôi coi công việc của mình là một sự bổ sung đầy hứa hẹn cho phân tích hậu kỳ của các mạng lưới dày đặc. 

Đây là một cuộc đặt cược rất tham vọng; có một con đường dài từ công việc của chúng tôi đến việc hiểu đầy đủ các hành vi phức tạp của những mô hình mạnh mẽ nhất của chúng tôi. Tuy nhiên, đối với các hành vi đơn giản, chúng tôi nhận thấy rằng các mô hình thưa thớt được đào tạo bằng phương pháp của chúng tôi chứa các mạch nhỏ, tách biệt, vừa dễ hiểu vừa đủ để thực hiện hành vi. Điều này cho thấy có thể có một con đường khả thi hướng tới việc huấn luyện các hệ thống lớn hơn mà cơ chế của chúng ta có thể hiểu được.

Một cách tiếp cận mới: học các mô hình thưa

Các nghiên cứu về khả năng diễn giải theo cơ chế trước đây đã bắt đầu từ các mạng lưới dày đặc và rối rắm, và đã cố gắng gỡ rối chúng. Trong các mạng này, mỗi tế bào thần kinh riêng lẻ được kết nối với hàng nghìn tế bào thần kinh khác. Hầu hết các tế bào thần kinh dường như thực hiện nhiều chức năng khác nhau, khiến việc hiểu rõ chúng dường như là điều không thể. 

Nhưng điều gì sẽ xảy ra nếu chúng ta huấn luyện các mạng thần kinh không bị rối, với nhiều tế bào thần kinh hơn, nhưng mỗi tế bào thần kinh chỉ có vài chục kết nối? Có lẽ mạng lưới kết quả sẽ đơn giản hơn và dễ hiểu hơn. Đây là trọng tâm nghiên cứu chính của công việc của chúng tôi.

Với nguyên tắc này, chúng tôi đã đào tạo các mô hình ngôn ngữ có kiến trúc rất giống với các mô hình ngôn ngữ hiện có như GPT‑2, với một sửa đổi nhỏ: chúng tôi buộc phần lớn trọng số của mô hình thành các số không. Điều này đã hạn chế mô hình chỉ sử dụng rất ít các kết nối có thể có giữa các tế bào thần kinh của nó. Đây là một thay đổi đơn giản mà chúng tôi cho rằng làm sáng tỏ đáng kể các tính toán bên trong của mô hình.

Sơ đồ so sánh các mạch dày đặc và mạch thưa. Phiên bản dày đặc hiển thị hai hàng nút với nhiều đường kết nối, trong khi phiên bản thưa thớt hiển thị cùng một bố cục nhưng với ít kết nối hơn và chọn lọc hơn.

Trong các mạng thần kinh dày đặc thông thường, mỗi tế bào thần kinh được kết nối với mọi tế bào thần kinh trong lớp tiếp theo. Trong các mô hình thưa của chúng tôi, mỗi tế bào thần kinh chỉ kết nối với một vài tế bào thần kinh ở lớp tiếp theo. Chúng tôi hy vọng rằng điều này sẽ giúp các tế bào thần kinh và toàn bộ mạng lưới trở nên dễ hiểu hơn.

Đánh giá khả năng diễn giải

Chúng tôi muốn đo lường mức độ mà các tính toán của các mô hình thưa thớt của chúng tôi được tách rời. Chúng tôi đã xem xét các hành vi đơn giản khác nhau của mô hình và kiểm tra xem liệu chúng tôi có thể cô lập các phần của mô hình chịu trách nhiệm cho từng hành vi hay không—mà chúng tôi gọi là mạch.

Chúng tôi đã tuyển chọn thủ công một bộ các nhiệm vụ thuật toán đơn giản. Đối với mỗi trường hợp, chúng tôi đã cắt tỉa mô hình xuống mạch nhỏ nhất vẫn có thể thực hiện nhiệm vụ và kiểm tra mức độ đơn giản của mạch đó. (Để biết chi tiết, xin vui lòng xem bài báo(mở trong cửa sổ mới) của chúng tôi.) Chúng tôi nhận thấy rằng bằng cách huấn luyện các mô hình lớn hơn và thưa hơn, chúng tôi có thể tạo ra các mô hình ngày càng có khả năng với các mạch ngày càng đơn giản.

Biểu đồ phân tán hiển thị khả năng của mô hình (tổn thất trước khi đào tạo) trên trục x so với khả năng diễn giải (kích thước mạch đã cắt tỉa) trên trục y. Các điểm biểu thị các mô hình có kích thước và mức độ thưa khác nhau, với màu sắc chỉ ra tổng số tham số và kích thước của dấu hiệu chỉ ra số lượng tham số khác không. Mũi tên chỉ hướng trên bên phải được gắn nhãn là “tốt hơn”.

Chúng tôi vẽ biểu đồ khả năng diễn giải so với khả năng trên các mô hình (càng thấp bên trái càng tốt). Với kích thước mô hình thưa thớt cố định, việc tăng độ thưa thớt—đặt nhiều trọng số hơn thành không—giảm khả năng nhưng tăng tính dễ hiểu. Việc mở rộng kích thước mô hình đẩy biên giới này ra xa hơn, cho thấy chúng ta có thể xây dựng các mô hình lớn hơn vừa có khả năng vừa dễ hiểu.

Để làm rõ điều này, hãy xem xét một nhiệm vụ mà một mô hình được đào tạo trên mã Python phải hoàn thành một chuỗi với loại dấu ngoặc kép chính xác. Trong Python, 'xin chào' phải kết thúc bằng một dấu nháy đơn và "xin chào" phải kết thúc bằng dấu nháy kép. Mô hình có thể giải quyết điều này bằng cách ghi nhớ loại dấu ngoặc kép nào đã mở chuỗi và tái tạo nó ở cuối.

Các mô hình dễ hiểu nhất của chúng tôi dường như chứa các mạch tách rời thực hiện chính xác thuật toán đó.

Sơ đồ minh họa một mạch ví dụ trong một chuyển đổi thưa. Nó cho thấy cách các tế bào thần kinh cụ thể và đầu chú ý kích hoạt để đáp ứng với các token đầu vào đã lưu vào bộ nhớ tạm như “(” và “mạch”, với các con đường được gắn nhãn cho trọng số dương và âm, phép nhân, phi tuyến tính và kết nối giữa MLP và các lớp chú ý, lên đến đỉnh điểm là xác suất token đầu ra.

Ví dụ về mạch trong một chuyển đổi thưa dự đoán liệu có nên kết thúc chuỗi bằng dấu nháy đơn hay dấu nháy kép. Mạch này chỉ sử dụng năm kênh dư (đường màu xám dọc), hai tế bào thần kinh MLP ở lớp 0, một kênh truy vấn-khóa chú ý và một kênh giá trị ở lớp 10. Mô hình (1) mã hóa dấu ngoặc đơn trong một kênh dư và dấu ngoặc kép trong một kênh khác; (2) sử dụng lớp MLP để chuyển đổi điều này thành một kênh phát hiện bất kỳ dấu ngoặc nào và một kênh khác phân loại giữa dấu ngoặc đơn và dấu ngoặc kép; (3) sử dụng thao tác chú ý để bỏ qua các token xen kẽ, tìm dấu ngoặc trước đó và sao chép loại của nó vào token cuối cùng; và (4) dự đoán dấu ngoặc đóng tương ứng.

Theo định nghĩa của chúng tôi, các kết nối chính xác được hiển thị ở trên là đủ để thực hiện nhiệm vụ—nếu chúng tôi loại bỏ phần còn lại của mô hình, mạch nhỏ này vẫn hoạt động. Chúng cũng cần thiết—việc xóa một vài cạnh này sẽ khiến mô hình bị lỗi.

Chúng tôi cũng đã xem xét một số hành vi phức tạp hơn. Các mạch của chúng tôi đối với các hành vi này (ví dụ: liên kết biến được hiển thị bên dưới) khó giải thích một cách hoàn toàn. Ngay cả khi đó, chúng ta vẫn có thể đạt được những giải thích đơn giản một phần nhưng có khả năng dự đoán hành vi của mô hình.

Sơ đồ làm nổi bật một ví dụ về mạch chuyển đổi thưa trong hàm Python get_neighbors. Hai phép gán cho current = set() được đóng khung, với các mũi tên màu hiển thị đầu chú ý nào (được gắn nhãn bằng chỉ số Q/K/V) kích hoạt để kết nối mỗi lần xuất hiện của biến current với việc sử dụng nó trong vòng lặp.

Một ví dụ khác về mạch, với ít chi tiết hơn. Để xác định loại của một biến có tên là current, một phép toán chú ý sao chép tên biến vào token set() khi nó được định nghĩa, và một thao tác khác sau đó sao chép kiểu từ token set() vào một lần sử dụng tiếp theo của biến, cho phép mô hình suy ra token tiếp theo chính xác.

Con đường phía trước

Công việc này là một bước đầu tiên hướng tới một mục tiêu lớn hơn: làm cho các phép tính mô hình dễ hiểu hơn. Nhưng vẫn còn một chặng đường dài phía trước. Các mô hình thưa của chúng tôi nhỏ hơn nhiều so với các mô hình tiên phong, và phần lớn các phép tính của chúng vẫn chưa được giải thích. 

Tiếp theo, chúng tôi hy vọng sẽ mở rộng các kỹ thuật của mình để áp dụng cho các mô hình lớn hơn và giải thích thêm về hành vi của các mô hình. Bằng cách liệt kê các mô típ mạch cơ bản làm nền tảng cho lý luận phức tạp hơn trong các mô hình thưa thớt có khả năng, chúng ta có thể phát triển một sự hiểu biết giúp chúng ta nhắm mục tiêu tốt hơn các cuộc điều tra về các mô hình tiên tiến.

Để khắc phục sự kém hiệu quả của việc huấn luyện các mô hình thưa, chúng tôi thấy hai con đường phía trước. Một cách là giải nén các mạch thưa từ các mô hình dày đặc hiện có, thay vì huấn luyện các mô hình thưa từ đầu. Các mô hình dày về cơ bản hiệu quả hơn khi triển khai so với các mô hình thưa. Một con đường khác là phát triển các kỹ thuật hiệu quả hơn để huấn luyện các mô hình nhằm tăng khả năng diễn giải, điều này có thể dễ dàng đưa vào sản xuất hơn.

Lưu ý phát hiện của chúng tôi ở đây không đảm bảo phương pháp này sẽ mở rộng cho các hệ thống có khả năng cao hơn, nhưng những kết quả ban đầu này rất hứa hẹn. Mục tiêu của chúng tôi là dần dần mở rộng phạm vi mà chúng tôi có thể giải thích một cách đáng tin cậy về mô hình, và phát triển các công cụ giúp các hệ thống trong tương lai dễ dàng hơn trong việc phân tích, gỡ lỗi và đánh giá.

Tác giả

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing