Published: 26 Oktober 2023

Pendekatan OpenAI tumrap Risiko Wates

Pembaruan kanggo UK AI Safety Summit

Lagi dimuat…

Ing 21 Juli 2023, OpenAI gabung karo lab AI terkemuka liyane kanggo nggawe sakumpulan komitmen sukarela guna ningkatake safety, keamanan, lan kapercayan ing AI. Komitmen iki nyakup macem-macem area risiko, kanthi pusat kalebu risiko wates sing dadi fokus AI Safety Summit sing bakal teka.

Ing pembaruan iki, kita njlentrehake kemajuan kita ing komitmen sukarela kasebut lan luwih rinci babagan pendekatan kita sing terus berkembang kanggo ngurangi risiko wates, kalebu karya kita sing lagi lumaku kanggo ngembangake Kerangka Kesiapan.

Ing 3 Oktober 2023, kita nerbitake kanthi umum kertu sistem⁠ kanggo model teks-ke-gambar kita DALL-E 3⁠, rilis publik utama pisanan saka model tercanggih anyar ing cakupan komitmen sukarela kita. Selaras karo misi kita lan komitmen sukarela kasebut, kita nindakake karya safety kritis kalebu evaluasi safety sadurunge deployment lan red teaming. Kajaba iku, kita lagi ngupaya metode anyar kanggo menehi daya marang wong supaya bisa nglacak asal-usul media sing digawe AI, lan terus nandur modal ing praktik sing tanggung jawab liwat peluncuran kapabilitas analisis swara lan gambar ing ChatGPT.

Kita uga wis nepaki komitmen sukarela⁠ kita kanggo “netepake utawa gabung karo forum utawa mekanisme sing liwat forum utawa mekanisme kasebut [kita] bisa ngembangake, majokake, lan nerapake standar bebarengan lan praktik paling apik kanggo safety AI tercanggih,” kanthi dadi salah siji pendiri Frontier Model Forum. Badan industri anyar iki, sing diadegake bebarengan karo Microsoft, Google Deepmind, lan Anthropic, minangka papan kanggo majokake riset safety AI lan ningkatake praktik pangembangan sing tanggung jawab kanggo sistem AI tercanggih.

Kerangka Kesiapan

Model AI tercanggih nduweni potensi kanggo maringi paedah tumrap kabeh umat manungsa, nanging uga ngetokake risiko sing saya abot. Kanggo ngatur risiko iki nalika model AI terus saya apik, kita lagi ngembangake Kerangka Kesiapan, sing nguwatake pendekatan proaktif adhedhasar risiko kanggo pangembangan model tercanggih sing tanggung jawab, mligine gegayutan karo risiko katastrofik.

Kerangka Kesiapan bakal njlentrehake pendekatan kita kanggo ngembangake evaluasi lan pemantauan kapabilitas model tercanggih sing ketat, uga netepake struktur tata kelola kanggo akuntabilitas lan pengawasan ing sakabehing proses pangembangan. Risiko sing arep kita lacak minangka bagéan saka kabijakan iki nyakup pirang-pirang kategori kalebu keamanan siber, persuasi, ancaman kimia lan biologi, lan otonomi.

Kerangka Kesiapan uga bakal nyedhiyakake spektrum tumindak kanggo nglindhungi saka asil katastrofik. Pangerten empiris babagan risiko katastrofik isih wiwitan lan berkembang kanthi cepet. Mula kita bakal nganyari kanthi dinamis penilaian kita babagan tingkat risiko model tercanggih saiki kanggo mesthekake yen iki nggambarake pangerten evaluasi lan pemantauan paling anyar. Kita lagi mbentuk tim khusus (Preparedness) sing nyurung upaya iki, kalebu nindakake riset lan pemantauan sing dibutuhake.

Kerangka Kesiapan dimaksudake kanggo nglengkapi lan nggedhekake karya mitigasi risiko sing wis ana, sing nyumbang marang safety lan alignment sistem anyar sing nduweni kapabilitas dhuwur, sadurunge lan sawisé deployment. Upaya sing wis ana iki kalebu karya tim Safety Systems kita kanggo nindakake riset lan mbangun solusi sistematis supaya model paling apik kita bisa dideploy kanthi aman lan tim Superalignment kita, sing fokus ing tantangan machine learning kanggo nyelarasake sistem AI supercerdas karo maksud manungsa.

Iki uga kalebu Deployment Safety Board (DSB) bareng karo Microsoft, sing nyetujoni keputusan salah siji pihak kanggo mendeploy model ing ndhuwur ambang kapabilitas tartamtu. DSB fokus khusus marang keputusan deployment tinimbang langkah-langkah sadurungé kayata mutusake apa arep nglatih model ing skala utawa tingkat kapabilitas tartamtu. DSB nduweni sawatara fitur sing kerep dirembug ing konteks kabijakan scaling sing tanggung jawab, kayata fokus marang sistem sing paling mumpuni, penekanan kuwat marang pengujian adversarial, lan pertimbangan alignment kanthi cetha. Kita wis sinau pelajaran wigati saka review DSB marang GPT‑4, sing dadi deployment pisanan sing layak, lan bakal nggunakake pelajaran kasebut kanggo maringi informasi marang desain lan implementasi Kerangka Kesiapan. DSB lan Kerangka Kesiapan, uga peran masing-masing, bisa wae owah saka wektu ke wektu nalika kita sinau luwih akeh babagan risiko lan mitigasi.

Cathetan: Kita nyebut kabijakan iki Kerangka Kesiapan dudu Responsible Scaling Policy amarga kita bisa ngalami peningkatan kapabilitas sing dramatis tanpa peningkatan skala sing signifikan, contoné liwat perbaikan algoritmik. Kerangka Kesiapan ngatur pangembangan model tercanggih sing saya mumpuni tanpa preduli apa peningkatan kapabilitas kasebut asalé saka skala, perbaikan algoritmik, utawa optimisasi liya.

Riset lan investasi prioritas babagan risiko sosial, safety, lan keamanan

Kita butuh terobosan ilmiah, kesiapan masyarakat, lan sistem keamanan maju kanggo ngontrol lan ngintegrasi sistem AI sing luwih pinter tinimbang kita. Kita nandur modal ing terobosan iki kanthi nggawe rong tim anyar: Superalignment lan Preparedness, lan luwih ningkatake investasi ing sistem keamanan kita.

Teknik kita saiki kanggo nyelarasake AI, kayata Sinau Penguatan saka Umpan Balik Manungsa, gumantung marang kemampuan manungsa kanggo ngawasi AI. Nanging teknik iki ora bakal bisa kanggo superintelligence, amarga manungsa ora bakal bisa ngawasi sistem AI sing luwih pinter tinimbang kita kanthi andal. Kita wis netepake tujuan kanggo ngrampungake masalah iki sajrone patang taun kanthi nandur modal ing tim anyar sing diarani Superalignment⁠, dipimpin bebarengan déning Ilya Sutskever (pendiri bareng lan Chief Scientist OpenAI) lan Jan Leike (Head of Alignment). Tujuan kita yaiku mbangun panaliti alignment otomatis sing meh setingkat manungsa lan nggunakake jumlah compute sing gedhe kanggo nggedhekake upaya kita nyelarasake superintelligence. Kita ngrancang nyedhiyakake 20% saka compute sing wis kita amanake nganti Juni 2023 kanggo upaya iki. Tim iki bakal nuduhake asil kanthi amba supaya uga nyumbang marang alignment lan safety model non-OpenAI.

Saliyane tantangan nyelarasake superintelligence, kita yakin manawa risiko sing saya abot bisa muncul saka potensi penyalahgunaan model tercanggih sing saya mumpuni. Kita lagi nggawe tim anyar khusus sing diarani Preparedness kanggo ngenali, nglacak, lan nyiapake risiko kasebut. Kita arep nglacak risiko wates, kalebu keamanan siber, CBRN, persuasi, lan replikasi lan adaptasi otonom lan nuduhake tumindak kanggo nglindhungi saka dampak risiko katastrofik. Amarga pangerten empiris babagan risiko katastrofik isih wiwitan, kita bakal nganyari penilaian kita babagan tingkat risiko model tercanggih saiki kanthi iteratif kanggo mesthekake iki nggambarake pangerten evaluasi lan pemantauan paling anyar.

Kita terus nandur modal ing keamanan siber lan pengaman ancaman wong njero kanggo nglindhungi bobot model sing nduweni hak milik lan sing durung dirilis. Kita wis ngluncurake Cybersecurity Grant Program lan OpenAI Bug Bounty Program kanggo ngoordinasi panaliti sing sepemikiran sing kerja kanggo safety bebarengan kita. Cybersecurity Grant Program minangka inisiatif $1M kanggo ningkatake lan ngukur kapabilitas keamanan siber sing didhukung AI lan kanggo ngembangake wacana AI lan keamanan siber tingkat dhuwur. Kita uga ngajak publik kanggo nglaporake kerentanan, bug, utawa cacat keamanan sing ditemokake ing sistem kita. OpenAI Bug Bounty Program ngidini kita ngakoni lan menehi ganjaran marang wawasan migunani saka wong-wong sing nyumbang kanggo njaga teknologi lan perusahaan kita tetep aman.

Evaluasi model lan red teaming

Kita ngevaluasi saben model utama anyar sing dirilis kanggo safety, kalebu nggunakake red teaming. Contoné, sadurunge ngeculake GPT‑4 menyang publik, red-teamer eksternal nguji model kasebut kanggo risiko wates ing ngisor iki: (1) bantuan kanggo pangembangan senjata nuklir, radiologis, biologis, lan kimia (CBRN), (2) peningkatan risiko siber, (3) risiko sing asalé saka panggunaan alat lan (4) kapabilitas replikasi dhéwé. Minangka bagéan saka red teaming DALL-E 3, ing cakupan komitmen sukarela kita, kita nindakake red teaming kanggo kemampuan model nyedhiyakake informasi visual sing dibutuhake kanggo ngembangake, entuk, utawa nyebarake CBRN.

Kita uga wis nuduhake ajakan terbuka kanggo OpenAI Red Teaming Network⁠ kanggo ngajak ahli domain kanthi umum sing kasengsem ningkatake safety model OpenAI supaya gabung ing upaya red teaming kita.

CBRN. Sawetara kapabilitas LLM bisa nduweni potensi guna ganda, tegese model bisa digunakake kanggo aplikasi komersial uga militer utawa proliferasi. Kita nindakake stress testing, boundary testing, lan red teaming marang GPT‑4 ing papat domain guna ganda kanggo nliti apa model kita bisa nyedhiyakake informasi sing dibutuhake proliferator sing arep ngembangake, entuk, utawa nyebarake CBRN. Kita nemokake manawa akses menyang GPT‑4 piyambak dudu syarat sing cukup kanggo proliferasi, nanging bisa ngowahi informasi sing kasedhiya kanggo proliferator, mligine yen dibandhingake karo alat telusur tradisional. Red teamer milih sakumpulan pitakon kanggo dadi prompt kanggo GPT‑4 lan mesin telusur tradisional, lan nemokake manawa wektu rampungé riset dadi luwih cekak nalika nggunakake GPT‑4. Ing sawetara kasus, proses riset dicekak sawetara jam tanpa ngorbanake akurasi informasi. Mula kita nyimpulake manawa pendorong risiko utama yaiku kemampuan GPT‑4 kanggo ngasilake informasi sing bisa diakses publik nanging angel ditemokake, nyuda wektu sing dienggo pangguna kanggo riset lan nyusun informasi iki kanthi cara sing bisa dipahami déning pangguna non-ahli. Sadurunge ngeculake DALL-E 3, kita ngevaluasi kepiye generasi teks-ke-gambar ngowahi profil risiko kanthi nguji kemampuan model ngasilake diagram lan instruksi visual kanggo ngasilake lan entuk informasi sing ana gandhengane karo risiko CBRN. Kaya GPT‑4, kita nindakake pengujian internal lan eksternal marang DALL-E 3, nalika kita nguji risiko model kasebut sacara internal lan menehi akses awal marang ahli eksternal saka macem-macem industri kanggo mbantu nguji sistem supaya bisa memetakan lan ngevaluasi risiko. Kita nindakake red teaming marang DALL·E 3 ing papat domain guna ganda kanggo nliti apa model kasebut bisa nyedhiyakake informasi sing dibutuhake kanggo ngembangake, entuk, utawa nyebarake CBRN. Red teamer nemokake risiko minimal ing area iki amarga gabungan saka ketidakakuratan ing subjek iki, penolakan, lan kabutuhan sing luwih amba kanggo akses lan “bahan” luwih lanjut sing dibutuhake kanggo proliferasi sing sukses.

Kapabilitas siber. Kita uga netepake kemampuan GPT‑4 kanggo digunakake kanggo nemokake lan ngeksploitasi kerentanan, lan social engineering. Kanggo nguji kemampuan model mbantu panemuan, penilaian, lan eksploitasi kerentanan komputer, kita ngontrak ahli keamanan siber eksternal sing nemokake manawa GPT‑4 bisa nerangake sawetara kerentanan yen source code cukup cilik supaya muat ing context window model, nanging GPT‑4 kinerjane kurang apik nalika mbangun exploit kanggo kerentanan sing wis diidentifikasi. Kanggo nguji kapabilitas social engineering, red teamer ahli nguji apa GPT‑4 minangka peningkatan dibandhing alat saiki ing tugas sing relevan kayata identifikasi target, spear-phishing, lan bait-and-switch phishing. Dheweke nemokake manawa model kasebut dudu peningkatan siap pakai kanggo kapabilitas social engineering saiki amarga kesrakat ing tugas faktual kayata ndhaptar target lan nerapake informasi anyar kanggo ngasilake konten phishing sing luwih efektif. Nanging, kanthi kawruh latar sing cocog babagan target, GPT‑4 efektif kanggo nyusun konten social engineering sing realistis. Adhedhasar temuan iki, kita wis dilatih sawisé GPT‑4 supaya nolak panjaluk keamanan siber sing jahat, lan nggedhekake sistem safety internal kita, kalebu ing pemantauan, deteksi lan tanggapan.

Replikasi dhéwé. Sadurunge ngeculake GPT‑4, kita uga nggampangake evaluasi model pendahuluan déning Alignment Research Center (ARC) babagan kemampuan model kanggo nindakake tumindak kanggo replikasi kanthi otonom lan nglumpukake sumber daya. Kita menehi ARC akses awal menyang model kasebut minangka bagéan saka red teaming supaya timé bisa netepake risiko saka prilaku goleki kekuwatan. Bentuk spesifik saka goleki kekuwatan sing ditaksir ARC yaiku kemampuan model kanggo replikasi kanthi otonom lan entuk sumber daya. ARC nemokake manawa versi awal GPT‑4 ora efektif ing tugas replikasi otonom ing eksperimen pendahuluan sing ditindakake. Mula dheweke nyimpulake manawa model kasebut ora mungkin bisa niru dhiriné dhewe kanthi otonom.

Pelaporan model lan pambagéan informasi

Transparansi minangka unsur penting kanggo mbangun sistem AI sing akuntabel. Bagéan utama saka pendekatan kita marang akuntabilitas yaiku nerbitake dokumen sing saiki kita sebut kertu sistem, kanggo sistem AI anyar sing kita deploy. Kertu sistem kita dimaksudake kanggo menehi informasi marang para maca babagan faktor kunci sing mengaruhi prilaku sistem, mligine ing area sing penting kanggo panggunaan sing tanggung jawab lan njupuk inspirasi saka karya riset sadurungé babagan model lan kertu sistem. Sadurunge nggawe komitmen sukarela, OpenAI wis nerbitake rong kertu sistem: GPT‑4 System Card lan DALL-E 2 System Card. Wiwit iku, kita nerbitake System Card sadurungé ngeculake DALL-E 3 ing ChatGPT, rilis publik utama pisanan saka model anyar wiwit nandatangani komitmen sukarela. Minangka bagéan saka upaya terus kanggo ngeculake teknologi kita kanthi tanggung jawab, kita uga nerbitake System Card kanggo kapabilitas visi GPT‑4 sadurungé nyedhiyakake ing ChatGPT.

Struktur pelaporan kanggo kerentanan sing ditemokake sawisé rilis model

Wiwit nggawe komitmen sukarela kasebut, kita wis miwiti kelompok kerja ing Frontier Model Forum kanggo nggawe mekanisme pambocoran sing tanggung jawab babagan kapabilitas mbebayani antarane lab AI. Mekanisme iki bakal ngupaya supaya pambocoran rahasia babagan risiko signifikan sing diidentifikasi ing model tercanggih bisa ditindakake antarane lab tercanggih lan lab AI liyane. Fokus awal kita nyakup domain sing ana gandhengane karo keamanan nasional kayata kapabilitas Chemical, Biological, Radiological, and Nuclear (CBRN), uga kapabilitas mbebayani liyane kaya replikasi dhéwé, penipuan, lan manipulasi. Cara pambocoran kasebut bakal nyakup evaluasi, wawasan saka latihan red teaming, lan bukti liyane babagan ancaman umum antarane anggota lab ing area sing pambocoran luwih amba bakal ngetokake risiko signifikan.

Kita uga ngumumake bug bounty program OpenAI minangka cara kanggo ngakoni lan menehi ganjaran marang wong sing nglaporake kerentanan keamanan ing sistem kita. Ganjaran kita wiwit saka $200 kanggo temuan tingkat keruwetan cilik nganti $20,000 kanggo panemuan sing istimewa. Kita wis kerja bareng karo Bugcrowd, platform bug bounty terkemuka, kanggo nggawe proses pengajuan lan ganjaran, sing kasedhiya ing kaca Bug Bounty Program⁠(mbukak ing jendhela anyar).

Pemantauan pascadeployment kanggo pola penyalahgunaan

Kita kerja tenanan kanggo nyegah risiko sing bisa diprakirakake sadurunge deployment. Nanging, ana uga watesan marang apa sing bisa disinaoni sapa wae ing laboratorium. Senajan wis ana riset lan pengujian sing jembar, kita ora bisa ngramal kabeh cara becik wong bakal nggunakake teknologi kita, uga kabeh cara wong bisa nyalahgunakake. Mbangun kapasitas kanggo ndeteksi lan ngatasi risiko sing ora kaajab kanthi cepet dadi prioritas dhuwur kanggo kita, amarga kapasitas iki minangka pengaman kritis kanggo sistem tercanggih sing ora kabeh risikone bisa diantisipasi kanthi lengkap. Kita mbangun langkah internal sing dirancang kanggo ndeteksi jinis penyalahgunaan sing ora dikira, nduweni proses kanggo nanggapi, lan nggunakake piwulang kasebut kanggo ningkatake kabijakan panggunaan, sistem safety, lan output model kita. Sawisé ngeculake sistem, kita nindakake investigasi proaktif, pemantauan, lan verifikasi laporan mlebu kanggo ndeteksi penyalahgunaan utawa risiko sing ora kaajab. Banjur kita ngupaya ngatasi masalah sing muncul kanthi cepet lan iteratif liwat kabijakan lan solusi teknis. Kita terus nggedhekake operasi lan nyuda wektu tanggapan.

Kontrol keamanan kalebu ngamanake bobot model

Kita nyedhiyakake sumber daya sing gedhe kanggo nglindhungi teknologi, properti intelektual, lan data OpenAI.

Kita mendeploy model AI paling kuat kita minangka layanan. Kita ora nyebarake bobot kanggo model kaya mangkono ing njaba OpenAI lan mitra teknologi kita Microsoft, lan kita nyedhiyakake akses pihak katelu marang model paling mumpuni kita liwat API supaya bobot model, source code, lan informasi sensitif liyane tetep dikontrol.

Kita uga ngetrapake langkah teknis, administratif, lan organisasional sing lumrah sacara komersial kanggo nyegah kelangan informasi pribadi, penyalahgunaan, lan akses tanpa wewenang. Iki kalebu liwat audit pihak katelu marang program keamanan kita kalebu SOC 2 Type 2. Kita uga wis miwiti bug bounty program sing ngajak panaliti independen kanggo nglaporake kerentanan ing sistem kita minangka ijol-ijolan ganjaran awis. Portal Kepidatosan kita ngidini pelanggan lan pemangku kepentingan liyane mriksa kontrol keamanan lan laporan audit kita. Minangka bagéan saka upaya keamanan siber, kita ajeg nindakake penetration testing internal lan pihak katelu, lan mriksa kesesuaian lan efektivitas kontrol keamanan kita.

Pangenal materi sing digawe AI

Kita lagi ngembangake pendekatan teknis kanggo provenance supaya bisa mbantu ngenali konten audiovisual sing digawe déning model kita. Sawisé pendekatan iki dikembangake, kita bakal nerapake kanthi amba ing sistem tercanggih anyar kita. Kita lagi netepake macem-macem teknik provenance, saben nduweni kauntungan lan kekurangan dhewe, sing sacara umum mlebu telung klompok: watermarking, classifier, lan pendekatan adhedhasar metadata.

Wiwit nggawe komitmen sukarela kita, kita wis nindakake riset lan pengujian classifier provenance kanggo mbantu ngenali apa sawijining gambar diasilake déning DALL·E 3 utawa ora. Saiki kita lagi ngevaluasi iki sacara internal lan wis menehi pembaruan umum minangka bagéan saka rilis DALL·E 3.

Kontrol Input Data lan Audit

Model basa gedhe OpenAI, kalebu model sing nguwatake ChatGPT, dikembangake nggunakake telung sumber informasi utama: (1) informasi sing kasedhiya umum ing internet, (2) informasi sing kita lisensi saka pihak katelu, lan (3) informasi sing diwenehake déning pangguna kita utawa pelatih manungsa kita.

Mayoritas gedhe data latihan kita asalé saka informasi sing kasedhiya umum sing bebas lan terbuka ing Internet – contoné, kita ora ngupaya informasi ing balik paywall utawa saka “deep web.” Kita nerapake filter lan mbusak data tartamtu sing ora arep kita sinauake utawa metuake saka model, kayata ujaran sengit, konten dewasa, situs sing utamané nglumpukake informasi pribadi, lan spam.

Kita uga wis ngetrapake langkah supaya kreator, pemegang hak, lan operator situs web bisa nyatakake preferensi babagan latihan AI tumrap konten sing diduwèni utawa dikendhaleni. Contoné, OpenAI wis ngetrapake cara sing gampang kanggo operator situs web supaya ngedohake kontené saka diakses déning web crawler “GPTBot” saka OpenAI, kanthi ngandel marang standar web robots.txt. Kajaba iku, OpenAI wis ndokumentasikake user-agent-string (“ChatGPT‑user”) sing digunakake déning ChatGPT lan plugin ChatGPT kanggo ngakses situs web, supaya operator situs uga bisa mblokir akses kanggo tujuan kasebut. Kita nyedhiyakake instruksi online babagan carane nyegah salah siji bot ngakses situs. Kita uga nyedhiyakake formulir swalayan⁠(mbukak ing jendhela anyar) kanggo kreator gambar supaya bisa milih ora melu latihan model generasi gambar DALL-E mbesuk kita.