13 листопада 2025 р.

Розуміння нейронних мереж через розріджені мережі

Ми навчили моделі думати простішими, доступними для відстеження кроками, щоб ми могли краще зрозуміти, як вони функціонують.

Читати статтю

Завантаження…

Нейронні мережі забезпечують роботу найпотужніших на сьогодні систем штучного інтелекту, проте їх, як і раніше, важко зрозуміти. Ми не створюємо для цих моделей чітких, покрокових інструкцій. Натомість вони навчаються, регулюючи мільярди внутрішніх зв'язків, або «ваг», доти, доки не освоїть те чи інше завдання. Ми розробляємо правила навчання, але не конкретні моделі поведінки, які при цьому виникають, і в результаті отримуємо щільну мережу зв'язків, яку жодна людина не здатна легко розшифрувати.

Як ми розуміємо інтерпретованість

Системи штучного інтелекту стають більш досконалими і наразі справляють усе більший вплив на прийняття рішень у сферах науки, освіти та охорони здоров'я, тож розуміння механізму їх роботи сьогодні стає вкрай важливим. Під інтерпретованістю ми розуміємо методику, яка допомагає нам зрозуміти, чому модель видала той чи інший результат. Досягти цього можна багатьма способами.

Наприклад, моделі з аргументуванням заохочуються до того, щоб пояснювати, яким чином вони дійшли остаточної відповіді. Інтерпретованість ланцюжка міркувань використовує ці пояснення для моніторингу поведінки моделі. Ми миттєво отримуємо від цього користь: ланцюжки міркувань сучасних моделей міркування представляються інформативними щодо такої поведінки, як обман. Однак повністю покладатися на цю властивість ненадійно; така стратегія з часом може перестати працювати.

З іншого боку, механістична інтерпретованість, на якій зосереджена ця робота, прагне повністю реконструювати процес обчислення моделі. Досі це було менш корисно, хоча в принципі це могло запропонувати більш повне пояснення поведінки моделі. Прагнучи пояснити поведінку моделі на найбільш детальному рівні, механістична інтерпретація може робити менше припущень і давати нам більше впевненості. Тим не менш, шлях від низькорівневих деталей до пояснень складних поведінок набагато довший і складніший.

Підтримка інтерпретованості сприяє досягненню кількох ключових цілей, зокрема кращої контрольованості та отримання попереджень про небезпечну або стратегічно неправильну поведінку на ранніх етапах. Вона також доповнює інші наші заходи безпеки, такі як масштабований нагляд, змагальне навчання та проведення тестування за участю «червоних команд».

Ця робота покликана продемонструвати, що ми часто можемо навчати моделі так, щоб їх було легко інтерпретувати. Ми розглядаємо нашу роботу як перспективне доповнення до ретроспективного аналізу щільних мереж.

У нас доволі амбітні плани: на нас чекає довгий шлях від нашої роботи до повного розуміння складної поведінки наших найпотужніших моделей. Тим не менш, що стосується простої поведінки, ми виявили, що розріджені моделі, навчені за допомогою нашого методу, використовують невеликі, роздільні схеми, зрозумілі та достатні для виконання завдання. Це передбачає існування шляху до навчання більших систем, механізми яких ми можемо зрозуміти.

Новий підхід: вивчення розріджених моделей

Хід попередніх робіт із механістичної інтерпретованості починався з щільних, заплутаних мереж, які ми поступово намагалися розплутати. У таких мережах кожен окремий нейрон з'єднаний із тисячами інших нейронів. Більшість нейронів виконують безліч різних функцій, що робить їхню роботу, здавалося б, незбагненною.

Але що, якби ми взялися за навчання розгалужених нейронних мереж зі значною кількістю нейронів, де при цьому кожен нейрон мав би лише кілька десятків зв'язків? Тоді, можливо, отримана мережа була б простішою й легшою для розуміння. Ця ідея стала центральною гіпотезою нашої роботи.

Керуючись цим принципом, ми навчили мовні моделі з архітектурою, дуже схожою на існуючі мовні моделі, такі як GPT‑2, з однією невеликою зміною: ми змусили переважну більшість ваг моделі стати нулями. Це обмежило модель, змусивши її використовувати лише небагато з можливих зв'язків між її нейронами. Ця проста зміна, як ми вважаємо, значно спрощує внутрішні обчислення моделі.

Діаграма порівняння щільних та розріджених схем. Щільна версія показує два ряди вузлів із безліччю з'єднувальних ліній, тоді як розріджена версія демонструє ту ж схему, але з меншою кількістю більш вибіркових з'єднань.

У стандартних щільних нейронних мережах кожен нейрон пов'язаний із кожним нейроном наступного шару. У наших розріджених моделях кожен нейрон з'єднаний лише з кількома нейронами наступного шару. Ми сподіваємося, що це полегшить розуміння нейронів та мережі в цілому.

Оцінка інтерпретованості

Ми хочемо виміряти рівень розплутаності обчислень у наших розріджених моделях. Ми розглянули різні прості моделі поведінки та перевірили, чи можемо ми виділити частини моделі, які відповідають за кожну поведінку, які ми називаємо схемами.

Ми вручну підготували набір простих алгоритмічних завдань. Для кожного випадку ми скоротили модель до мінімальної схеми, яка все ще може виконувати завдання і перевірили, наскільки проста ця схема. (Докладніше див. у нашій статті⁠(відкривається у новому вікні).) Ми з'ясували, що навчаючи великі й розріджені моделі, ми можемо створювати дедалі здібніші моделі з дедалі простішими схемами.

Діаграма розсіювання, що показує можливості моделі (втрати до навчання) по осі x та інтерпретованість (розмір скороченої схеми) по осі y. Точки представляють моделі різних розмірів та рівнів розрідженості, колір вказує на загальну кількість параметрів, а розмір маркера — кількість ненульових параметрів. Стрілки, спрямовані вгору і вправо, вказують на «кращі» результати.

Ми побудували графік залежності інтерпретованості від можливостей моделей (вниз і вліво — «краще»). При фіксованому розмірі розрідженої моделі збільшення розрідженості — встановлення більшої кількості ваг на нуль — зменшує можливості, але збільшує інтерпретованість. Масштабування моделі зміщує цей рубіж, припускаючи, що ми можемо створювати більші моделі, які будуть як потужними, так і інтерпретованими.

Розглянемо завдання, в якому модель, навчена на коді Python, має завершити рядок із правильним типом лапок. У Python ‘hello’ має закінчуватися одинарними, а “hello” — подвійними лапками. Модель може вирішити це завдання, запам'ятавши, який тип лапок відкрив рядок, і відтворивши його наприкінці.

Наші найбільш інтерпретовані моделі містять роздільні схеми, які реалізують саме цей алгоритм.

Діаграма, що ілюструє приклад схеми розрідженого трансформера. На ній показано, як певні нейрони та голови уваги активуються у відповідь на вхідні токени, такі як «(» і «circuits», із позначеними шляхами для позитивних та негативних ваг, множень, нелінійностей та зв'язків між шарами MLP та уваги, що в результаті призводить до ймовірностей вихідних токенів.

Приклад схеми в розрідженому трансформері, яка передбачає, чи слід завершити рядок одинарною або подвійною лапкою. У цій схемі використовується всього п'ять залишкових каналів (вертикальні сірі лінії), два нейрони MLP у шарі 0, один канал запиту-ключа уваги та один канал значень у шарі 10. Модель (1) кодує одинарні лапки в одному залишковому каналі, а подвійні лапки — в іншому; (2) використовує шар MLP для перетворення цього в один канал, який виявляє будь-які лапки, та інший, який розрізняє одинарні та подвійні лапки; (3) застосовує операцію уваги для ігнорування проміжних токенів, пошуку попередніх лапок та копіювання їхнього типу в кінцевий токен; і (4) передбачає відповідні закриваючі лапки.

У нашому визначенні точні з'єднання, показані вище, достатні для виконання завдання: якщо ми видалимо решту моделі, ця невелика схема все одно працюватиме. Вони також необхідні, адже видалення цих кількох ключових з'єднань призводить до збою моделі.

Крім того, ми вивчили деякі складніші моделі поведінки. Наші схеми цих типів поведінки (наприклад, прив'язка змінних, показана нижче) важче пояснити повністю. І навіть у цьому випадку ми можемо отримати відносно прості часткові пояснення, які передбачають поведінку моделі.

Діаграма, що демонструє приклад схеми розрідженого трансформера функції Python get_neighbors. Два призначення current = set() укладені в рамку, а кольорові стрілки показують, які голови уваги (позначені індексами Q/K/V) активуються, щоб пов'язати кожну появу змінної current з її використанням у циклі.

Ще один менш детальний приклад схеми. Щоб визначити тип змінної з ім'ям current, одна операція уваги копіює ім'я змінної в токен set() при його визначенні, а інша наступна операція копіює тип з токена set() у використання змінної далі, дозволяючи моделі зробити висновок про правильно.

Подальші плани та перспективи

Ця робота — один із перших невеликих кроків до масштабнішої мети: зробити обчислення моделей більш зрозумілими. Але попереду на нас чекає довгий шлях. Наші розріджені моделі значно менші, ніж передові моделі, і більшість їх обчислень залишається неінтерпретованою.

Згодом ми сподіваємося масштабувати наші методи до більших моделей і пояснити більше аспектів поведінки моделей. Реєструючи схемні мотиви, що лежать в основі складніших міркувань у потужних розріджених моделях, ми могли б дійти висновку, який допоможе нам із цілеспрямованим дослідженням передових моделей.

Ми бачимо два шляхи до подолання неефективності навчання розріджених моделей. Один із підходів полягає у вилученні розріджених схем з існуючих щільних моделей, а не в навчанні розріджених моделей з нуля. Щільні моделі більш ефективні для розгортання, ніж розріджені моделі. Інший шлях — розробка ефективніших методів навчання моделей підвищення інтерпретованості, що, можливо, буде простіше реалізувати.

Зверніть увагу, що наші висновки тут не гарантують, що цей підхід можна буде застосувати до більш потужних систем, але вже ці перші результати виглядають багатообіцяюче. Наша мета — поступово розширювати обсяг моделі, який ми можемо надійно інтерпретувати, та створювати інструменти, які спростять аналіз, налагодження та оцінку майбутніх систем.

Автори

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing

Продовжити читати

Переглянути всі

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Публікація1 серп. 2026 р.

Як два налаштування утричі підвищили наш результат у тесті ARC-AGI-3

Дослідження29 лип. 2026 р.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компанія29 лип. 2026 р.