6 Juni 2024

Ngekstrak konsep saka GPT‑4

Kita nggunakake metode anyar sing bisa diskalakake kanggo mecah representasi internal GPT‑4 dadi 16 yuta pola sing asring bisa diinterpretasi.

Waca paper Waca kode Telusuri fitur

Lagi dimuat…

Saiki kita durung ngerti cara mangerteni aktivitas neural ing jero model basa. Dina iki, kita nuduhake metode sing luwih apik kanggo nemokake akeh “fitur”—pola aktivitas sing kita ngarep bisa diinterpretasi manungsa. Metode kita luwih apik kanggo diskalakake tinimbang karya sing wis ana, lan kita nggunakake kanggo nemokake 16 yuta fitur ing GPT‑4. Kita nuduhake paper⁠(mbukak ing jendhela anyar), kode⁠(mbukak ing jendhela anyar), lan visualisasi fitur⁠(mbukak ing jendhela anyar) karo komunitas riset kanggo nyengkuyung eksplorasi luwih lanjut.

Tantangan nerangake neural network

Beda karo umume ciptaan manungsa, kita sejatiné durung ngerti cara kerja njero neural network. Contone, insinyur bisa langsung ngrancang, netepake, lan ndandani mobil adhedhasar spesifikasi komponene, supaya aman lan kinerjane apik. Nanging, neural network ora dirancang langsung; sing kita rancang yaiku algoritma kanggo nglatih. Jaringan sing diasilake dadi ora dipahami kanthi becik lan ora gampang dipecah dadi bagean-bagean sing bisa diidentifikasi. Iki tegese kita ora bisa nalar babagan keamanan AI kanthi cara sing padha kaya nalika nalar babagan keamanan mobil.

Kanggo mangerteni lan nerangake neural network, dhisik kita kudu nemokake blok panyusun sing migunani kanggo komputasi neural. Sayangé, aktivasi neural ing njero model basa aktif kanthi pola sing ora bisa ditebak, kaya-kaya makili akeh konsep sekaligus. Aktivasi iki uga padhet, tegese saben aktivasi tansah murub ing saben input. Nanging konsep ing donya nyata kuwi banget sparse—ing konteks tartamtu, mung sithik saka kabeh konsep sing relevan. Iki dadi alasan nggunakake sparse autoencoder, sawijining cara kanggo ngenali sawetara “fitur” ing neural network sing penting kanggo ngasilake output tartamtu, mirip karo saklompok cilik konsep sing bisa ana ing pikiran wong nalika nalar babagan sawijining kahanan. Fiture nuduhake pola aktivasi sparse sing kanthi alami cocog karo konsep sing gampang dipahami manungsa, sanajan tanpa insentif langsung kanggo interpretabilitas.

Diagram sing nuduhake cara Sparse autoencoder ngode lan ngode-balik aktivasi neural sing padhet dadi fitur sparse.

Nanging, isih ana tantangan serius kanggo nglatih sparse autoencoder. Model basa gedhe makili jumlah konsep sing banget akeh, lan autoencoder kita bisa uga kudu padha gedhene supaya bisa nyedhaki cakupan lengkap konsep ing model tercanggih. Sinau akeh fitur sparse kuwi tantangan, lan karya sadurunge durung kabukten bisa diskalakake kanthi apik.

Kemajuan riset kita: pelatihan autoencoder skala gedhe

Kita ngembangake metodologi anyar paling maju sing ngidini kita ngeskalakake sparse autoencoder dadi puluhan yuta fitur ing model AI tercanggih. Kita nemokake manawa metodologi iki nuduhake skala sing mulus lan bisa diprediksi, kanthi hasil skala sing luwih apik tinimbang teknik sadurunge. Kita uga ngenalake sawetara metrik anyar kanggo ngevaluasi kualitas fitur.

Kita nggunakake resep iki kanggo nglatih macem-macem autoencoder ing aktivasi GPT‑2 small lan GPT‑4, kalebu autoencoder 16 yuta fitur ing GPT‑4. Kanggo mriksa interpretabilitas fitur, kita nggambarake fitur tartamtu kanthi nuduhake dokumen nalika fitur kasebut aktif. Iki sawetara fitur sing bisa diinterpretasi sing kita temokake:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Deleng visualisasi lengkap

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Kita nemokake akeh fitur menarik liyane, sing bisa sampeyan telusuri ing kene⁠(mbukak ing jendhela anyar).

Watesan

Kita semangat interpretabilitas ing tembe bisa nambah kapantesan dipercaya lan steerability model. Nanging, iki isih karya awal kanthi akeh watesan:

Kaya karya sadurunge, akeh fitur sing ditemokake isih angel diinterpretasi, lan akeh sing aktif tanpa pola sing cetha utawa nuduhake aktivasi semu sing ora ana gandhengane karo konsep sing biasane katon dienkode. Kajaba iku, kita durung duwe cara sing apik kanggo mriksa validitas interpretasi.
Sparse autoencoder ora nyekel kabeh prilaku saka model asli. Saiki, ngliwatake aktivasi GPT‑4 liwat sparse autoencoder ngasilake kinerja sing padha karo model sing dilatih nganggo komputasi kurang kira-kira 10x. Kanggo nggambar kabeh konsep ing LLM tercanggih kanthi lengkap, kita bisa uga kudu ngeskalakake nganti miliaran utawa triliunan fitur, sing bakal dadi tantangan sanajan nganggo teknik skala sing wis kita tingkatake.
Sparse autoencoder bisa nemokake fitur ing siji titik ing model, nanging kuwi mung siji langkah kanggo nerangake model. Isih dibutuhake karya luwih adoh kanggo mangerteni carane model ngetung fitur kasebut lan carane fitur kasebut digunakake ing tahap lanjut ing sisa model.

Ndelok ing ngarep, lan mbukak-sumber riset kita

Nalika riset sparse autoencoder kuwi nyenengake, dalan ing ngarep isih dawa lan ana akeh tantangan sing durung rampung. Ing jangka cendhak, kita ngarep fitur-fitur sing wis ditemokake bisa migunani sacara praktis kanggo ngawasi lan ngarahake prilaku model basa, lan kita arep nguji iki ing model tercanggih kita. Ing pungkasané, kita ngarep sawijining dina interpretabilitas bisa menehi cara anyar kanggo nalar babagan keamanan lan kekokohan model, lan nambah kapercayan kita marang model AI sing kuat kanthi menehi jaminan sing kuwat babagan prilakune.

Dina iki, kita nuduhake paper⁠(mbukak ing jendhela anyar) sing nerangake eksperimen lan metode kita, sing muga-muga bakal nggampangake para peneliti nglatih autoencoder ing skala gedhe. Kita nerbitake suite autoencoder lengkap kanggo GPT‑2 small, bebarengan karo kode⁠(mbukak ing jendhela anyar) kanggo nggunakaké, lan visualisator fitur⁠(mbukak ing jendhela anyar) supaya bisa ngrasa apa sing bisa diwakili fitur GPT‑2 lan GPT‑4.

Panulis

Jeffrey Wu, Leo Gao, Tom Dupré la Tour, Henk Tillman

Ucapan matur nuwun

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman