Ngekstrak konsep saka GPT‑4
Kita nggunakake metode anyar sing bisa diskalakake kanggo mecah representasi internal GPT‑4 dadi 16 yuta pola sing asring bisa diinterpretasi.
Saiki kita durung ngerti cara mangerteni aktivitas neural ing jero model basa. Dina iki, kita nuduhake metode sing luwih apik kanggo nemokake akeh “fitur”—pola aktivitas sing kita ngarep bisa diinterpretasi manungsa. Metode kita luwih apik kanggo diskalakake tinimbang karya sing wis ana, lan kita nggunakake kanggo nemokake 16 yuta fitur ing GPT‑4. Kita nuduhake paper(mbukak ing jendhela anyar), kode(mbukak ing jendhela anyar), lan visualisasi fitur(mbukak ing jendhela anyar) karo komunitas riset kanggo nyengkuyung eksplorasi luwih lanjut.
Beda karo umume ciptaan manungsa, kita sejatiné durung ngerti cara kerja njero neural network. Contone, insinyur bisa langsung ngrancang, netepake, lan ndandani mobil adhedhasar spesifikasi komponene, supaya aman lan kinerjane apik. Nanging, neural network ora dirancang langsung; sing kita rancang yaiku algoritma kanggo nglatih. Jaringan sing diasilake dadi ora dipahami kanthi becik lan ora gampang dipecah dadi bagean-bagean sing bisa diidentifikasi. Iki tegese kita ora bisa nalar babagan keamanan AI kanthi cara sing padha kaya nalika nalar babagan keamanan mobil.
Kanggo mangerteni lan nerangake neural network, dhisik kita kudu nemokake blok panyusun sing migunani kanggo komputasi neural. Sayangé, aktivasi neural ing njero model basa aktif kanthi pola sing ora bisa ditebak, kaya-kaya makili akeh konsep sekaligus. Aktivasi iki uga padhet, tegese saben aktivasi tansah murub ing saben input. Nanging konsep ing donya nyata kuwi banget sparse—ing konteks tartamtu, mung sithik saka kabeh konsep sing relevan. Iki dadi alasan nggunakake sparse autoencoder, sawijining cara kanggo ngenali sawetara “fitur” ing neural network sing penting kanggo ngasilake output tartamtu, mirip karo saklompok cilik konsep sing bisa ana ing pikiran wong nalika nalar babagan sawijining kahanan. Fiture nuduhake pola aktivasi sparse sing kanthi alami cocog karo konsep sing gampang dipahami manungsa, sanajan tanpa insentif langsung kanggo interpretabilitas.

Nanging, isih ana tantangan serius kanggo nglatih sparse autoencoder. Model basa gedhe makili jumlah konsep sing banget akeh, lan autoencoder kita bisa uga kudu padha gedhene supaya bisa nyedhaki cakupan lengkap konsep ing model tercanggih. Sinau akeh fitur sparse kuwi tantangan, lan karya sadurunge durung kabukten bisa diskalakake kanthi apik.
Kita ngembangake metodologi anyar paling maju sing ngidini kita ngeskalakake sparse autoencoder dadi puluhan yuta fitur ing model AI tercanggih. Kita nemokake manawa metodologi iki nuduhake skala sing mulus lan bisa diprediksi, kanthi hasil skala sing luwih apik tinimbang teknik sadurunge. Kita uga ngenalake sawetara metrik anyar kanggo ngevaluasi kualitas fitur.
Kita nggunakake resep iki kanggo nglatih macem-macem autoencoder ing aktivasi GPT‑2 small lan GPT‑4, kalebu autoencoder 16 yuta fitur ing GPT‑4. Kanggo mriksa interpretabilitas fitur, kita nggambarake fitur tartamtu kanthi nuduhake dokumen nalika fitur kasebut aktif. Iki sawetara fitur sing bisa diinterpretasi sing kita temokake:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Deleng visualisasi lengkap(mbukak ing jendhela anyar)Kita nemokake akeh fitur menarik liyane, sing bisa sampeyan telusuri ing kene(mbukak ing jendhela anyar).
Kita semangat interpretabilitas ing tembe bisa nambah kapantesan dipercaya lan steerability model. Nanging, iki isih karya awal kanthi akeh watesan:
- Kaya karya sadurunge, akeh fitur sing ditemokake isih angel diinterpretasi, lan akeh sing aktif tanpa pola sing cetha utawa nuduhake aktivasi semu sing ora ana gandhengane karo konsep sing biasane katon dienkode. Kajaba iku, kita durung duwe cara sing apik kanggo mriksa validitas interpretasi.
- Sparse autoencoder ora nyekel kabeh prilaku saka model asli. Saiki, ngliwatake aktivasi GPT‑4 liwat sparse autoencoder ngasilake kinerja sing padha karo model sing dilatih nganggo komputasi kurang kira-kira 10x. Kanggo nggambar kabeh konsep ing LLM tercanggih kanthi lengkap, kita bisa uga kudu ngeskalakake nganti miliaran utawa triliunan fitur, sing bakal dadi tantangan sanajan nganggo teknik skala sing wis kita tingkatake.
- Sparse autoencoder bisa nemokake fitur ing siji titik ing model, nanging kuwi mung siji langkah kanggo nerangake model. Isih dibutuhake karya luwih adoh kanggo mangerteni carane model ngetung fitur kasebut lan carane fitur kasebut digunakake ing tahap lanjut ing sisa model.
Nalika riset sparse autoencoder kuwi nyenengake, dalan ing ngarep isih dawa lan ana akeh tantangan sing durung rampung. Ing jangka cendhak, kita ngarep fitur-fitur sing wis ditemokake bisa migunani sacara praktis kanggo ngawasi lan ngarahake prilaku model basa, lan kita arep nguji iki ing model tercanggih kita. Ing pungkasané, kita ngarep sawijining dina interpretabilitas bisa menehi cara anyar kanggo nalar babagan keamanan lan kekokohan model, lan nambah kapercayan kita marang model AI sing kuat kanthi menehi jaminan sing kuwat babagan prilakune.
Dina iki, kita nuduhake paper(mbukak ing jendhela anyar) sing nerangake eksperimen lan metode kita, sing muga-muga bakal nggampangake para peneliti nglatih autoencoder ing skala gedhe. Kita nerbitake suite autoencoder lengkap kanggo GPT‑2 small, bebarengan karo kode(mbukak ing jendhela anyar) kanggo nggunakaké, lan visualisator fitur(mbukak ing jendhela anyar) supaya bisa ngrasa apa sing bisa diwakili fitur GPT‑2 lan GPT‑4.
Panulis
Ucapan matur nuwun
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman