Published: 2023 оны аравдугаар сарын 26

OpenAI-ийн хилийн эрсдэлийн талаарх хандлага

Их Британийн AI Safety Summit-д зориулсан шинэчлэл

Ачаалж байна…

2023 оны 7-р сарын 21-нд OpenAI нь AI дахь аюулгүй байдал, хамгаалалт, итгэлийг дэмжих сайн дурын амлалтуудын багцыг гаргахад бусад тэргүүлэх AI лабораториудтай нэгдсэн. Эдгээр амлалтад эрсдэлийн олон чиглэл хамрагдсан бөгөөд төвд нь удахгүй болох AI Safety Summit-ийн гол анхаарал болсон хил хязгаарын эрсдэлүүд байв.

Энэ шинэчлэлээр бид эдгээр сайн дурын амлалтуудын хүрээнд гаргасан ахиц дэвшлээ тайлбарлаж, мөн Preparedness Framework-ийг боловсруулах үргэлжилж буй ажлаа багтаасан, хил хязгаарын эрсдэлийг бууруулахад чиглэсэн хувьсан өөрчлөгдөж буй хандлагаа илүү дэлгэрэнгүй танилцуулж байна.

2023 оны 10-р сарын 3-нд бид системийн карт⁠-аа манай текстээс зураг үүсгэх DALL-E 3 загвар⁠-т зориулан олон нийтэд гаргасан. Энэ нь сайн дурын амлалтуудынхаа хүрээнд гаргасан шинэ хил хязгаарын загварын анхны томоохон нийтийн нээлт байв. Эрхэм зорилго болон сайн дурын амлалтуудтайгаа нийцүүлэн бид байршуулалтын өмнөх аюулгүй байдлын үнэлгээ, улаан баг зэрэг чухал аюулгүй байдлын ажлуудыг хийсэн. Үүнээс гадна бид AI-ээр үүсгэсэн медианы гарал үүслийг хүмүүс мөрдөх боломжийг нэмэгдүүлэх шинэ аргууд дээр ажиллаж байгаа бөгөөд ChatGPT‑д дуу хоолой болон зураг шинжилгээний чадамжуудыг нэвтрүүлэхдээ хариуцлагатай практикт хөрөнгө оруулсаар ирсэн.

Мөн бид Frontier Model Forum-ийг хамтран үүсгэн байгуулснаар “хил хязгаарын AI аюулгүй байдлын хамтын стандарт, шилдэг туршлагыг хөгжүүлэх, ахиулах, нэвтрүүлэх форум эсвэл механизмыг байгуулах буюу нэгдэх” тухай сайн дурын амлалт⁠-аа биелүүлсэн. Microsoft, Google Deepmind, Anthropic-той хамтран байгуулсан энэхүү шинэ салбарын байгууллага нь AI аюулгүй байдлын судалгааг урагшлуулж, хил хязгаарын AI системүүдийн хариуцлагатай хөгжүүлэлтийн практикийг дэмжих талбар юм.

Preparedness Framework

Хил хязгаарын AI загварууд нь бүх хүн төрөлхтөнд ашиг тусаа өгөх боломжтой ч улам ноцтой эрсдэл дагуулж байна. AI загварууд тасралтгүй сайжирч буй энэ үед эдгээр эрсдэлийг удирдахын тулд бид Preparedness Framework-ийг боловсруулж байгаа бөгөөд энэ нь хариуцлагатай хил хязгаарын загвар хөгжүүлэлтэд баримталдаг идэвхтэй, эрсдэлд суурилсан хандлагыг, ялангуяа сүйрлийн эрсдэлтэй холбоотойгоор, улам гүнзгийрүүлнэ.

Preparedness Framework нь хатуу хил хязгаарын загварын чадамжийн үнэлгээ, мониторингийг хэрхэн хөгжүүлэх, мөн хөгжүүлэлтийн бүх үе шатанд хариуцлага ба хяналтыг хангах засаглалын бүтцийг хэрхэн тогтоох талаар манай хандлагыг тодорхойлно. Бид энэ бодлогын хүрээнд хянахаар төлөвлөж буй эрсдэлүүдэд кибер аюулгүй байдал, ятгалга, химийн болон биологийн аюул, автоном байдал зэрэг олон ангилал багтана.

Preparedness Framework нь мөн сүйрлийн үр дагавраас хамгаалах өргөн хүрээний арга хэмжээг тусгана. Сүйрлийн эрсдэлийн талаарх эмпирик ойлголт одоогоор эхэн шатандаа бөгөөд хурдацтай хөгжиж байна. Иймээс бид хамгийн сүүлийн үеийн үнэлгээ, мониторингийн ойлголтоо тусгахын тулд өнөөгийн хил хязгаарын загварын эрсдэлийн түвшний үнэлгээгээ динамикаар шинэчилж байх болно. Бид энэ ажлыг ахлуулах, шаардлагатай судалгаа болон мониторингийг хийх тусгай багийг (Preparedness) байгуулж байна.

Preparedness Framework нь байршуулалтын өмнө болон дараа аль алинд нь шинэ, өндөр чадамжтай системүүдийн аюулгүй байдал ба нийцлийг дэмждэг манай одоогийн эрсдэл бууруулах ажлыг нөхөж, өргөжүүлэх зорилготой. Эдгээр одоогийн хүчин чармайлтад шилдэг загваруудаа аюулгүй байршуулж болохыг хангахын тулд судалгаа хийж, системтэй шийдлүүд бүтээдэг манай Safety Systems багийн ажил, мөн хэт ухаалаг AI системүүдийг хүний зорилготой нийцүүлэх машин сургалтын сорилтуудад төвлөрдөг манай Superalignment багийн ажил багтдаг.

Мөн Microsoft-той хамтарсан Deployment Safety Board (DSB) багтдаг бөгөөд энэ нь тодорхой чадамжийн босгоос дээш загваруудыг аль нэг тал байршуулах шийдвэрийг баталдаг. DSB нь тодорхой хэмжээ эсвэл чадамжийн түвшний загварыг сургах эсэхийг шийдэх зэрэг өмнөх алхмуудаас илүүтэйгээр байршуулалтын шийдвэрт онцгойлон төвлөрдөг. Энэ нь хариуцлагатай масштабжуулалтын бодлогын хүрээнд ихэвчлэн яригддаг зарим шинжийг агуулдаг. Тухайлбал, хамгийн өндөр чадамжтай системүүдэд төвлөрөх, сөрөг сорилтод хүчтэй ач холбогдол өгөх, нийцлийг ил тод авч үзэх зэрэг. GPT‑4‑ийн талаарх DSB-ийн хяналт-шинжилгээнээс, энэ нь шаардлага хангасан анхны байршуулалт байсан, бид үнэт сургамж авсан бөгөөд тэдгээрийг Preparedness Framework-ийн загварчлал, хэрэгжилтэд тусгана. DSB болон Preparedness Framework аль аль нь, мөн тэдгээрийн тус тусын үүрэг, бид эрсдэл ба бууруулах арга хэмжээний талаар илүү ихийг суралцахын хэрээр цаг хугацааны явцад өөрчлөгдөж болно.

Тайлбар: Бид бодлогоо Responsible Scaling Policy гэхээсээ илүү Preparedness Framework гэж нэрлэдэг. Учир нь жишээлбэл алгоритмын сайжруулалтаар, масштаб мэдэгдэхүйц өсөхгүйгээр ч чадамж эрс нэмэгдэх боломжтой. Preparedness Framework нь өсөж буй эдгээр чадамж нь масштаб, алгоритмын сайжруулалт эсвэл бусад оновчлолоос үүссэн эсэхээс үл хамааран улам чадваржиж буй хил хязгаарын загваруудын хөгжүүлэлтийг зохицуулна.

Нийгэм, аюулгүй байдал, хамгаалалтын эрсдэлд чиглэсэн тэргүүлэх судалгаа ба хөрөнгө оруулалт

Биднээс 훨씬 илүү ухаалаг AI системүүдийг хянаж, нэгтгэхийн тулд шинжлэх ухааны нээлт, нийгмийн бэлэн байдал, дэвшилтэт аюулгүй байдлын системүүд хэрэгтэй. Бид Superalignment болон Preparedness гэсэн хоёр шинэ багийг байгуулж, мөн аюулгүй байдлын системүүддээ нэмэлт хөрөнгө оруулснаар эдгээр нээлтэд хөрөнгө оруулж байна.

Хүний санал хүсэлтээс бататган суралцах зэрэг AI-г нийцүүлэх одоогийн арга техникт хүний AI-г хянах чадварт тулгуурладаг. Гэвч эдгээр арга техник нь хэт оюун ухаанд ажиллахгүй. Учир нь хүмүүс өөрсдөөс нь 훨씬 илүү ухаалаг AI системүүдийг найдвартай хянах боломжгүй болно. Бид энэ асуудлыг дөрвөн жилийн дотор шийдэх зорилт тавьсан бөгөөд үүний тулд OpenAI-ийн хамтран үүсгэн байгуулагч, Ерөнхий эрдэмтэн Ilya Sutskever болон Alignment-ийн тэргүүн Jan Leike нар хамтран удирдах Superalignment⁠ нэртэй шинэ багт хөрөнгө оруулж байна. Бидний зорилго бол хүний түвшинтэй ойролцоо автомат нийцүүлэлтийн судлаачийг бүтээж, асар их хэмжээний тооцоолох нөөц ашиглан хэт оюун ухааныг нийцүүлэх хүчин чармайлтаа өргөжүүлэх явдал юм. Бид 2023 оны 6-р сар гэхэд баталгаажуулсан тооцоолох нөөцийнхөө 20%-ийг энэ ажилд зориулахаар төлөвлөж байна. Энэ баг нь мөн OpenAI-ээс бусад загваруудын нийцэл, аюулгүй байдалд хувь нэмэр оруулахын тулд үр дүнгээ өргөнөөр хуваалцана.

Хэт оюун ухааныг нийцүүлэх сорилтоос гадна улам чадваржиж буй хил хязгаарын загваруудыг буруугаар ашиглах боломжоос улам ноцтой эрсдэл үүсч магадгүй гэж бид үзэж байна. Эдгээр эрсдэлийг тодорхойлох, хянах, бэлдэх зориулалттай Preparedness нэртэй тусгай шинэ багийг бид байгуулж байна. Бид кибер аюулгүй байдал, CBRN, ятгалга, автоном хуулбарлалт ба дасан зохицол зэрэг хилийн эрсдэлийг хянаж, сүйрлийн эрсдэлийн нөлөөллөөс хамгаалах арга хэмжээг хуваалцахаар зорьж байна. Сүйрлийн эрсдэлийн талаарх эмпирик ойлголт эхэн шатандаа байгаа тул бид хамгийн сүүлийн үеийн үнэлгээ, мониторингийн ойлголтоо тусгахын тулд өнөөгийн хил хязгаарын загварын эрсдэлийн түвшний үнэлгээгээ давталттайгаар шинэчилнэ.

Өмчийн шинжтэй болон хараахан гаргаагүй загварын жинг хамгаалахын тулд бид кибер аюулгүй байдал болон дотоод аюулын хамгаалалтад хөрөнгө оруулсаар байна. Бид хамтын аюулгүй байдлын төлөө ажиллаж буй ижил үзэлтэй судлаачдыг уялдуулах зорилгоор Cybersecurity Grant Program болон OpenAI Bug Bounty Program-ийг эхлүүлсэн. Cybersecurity Grant Program нь AI-д суурилсан кибер аюулгүй байдлын чадамжийг сайжруулж, хэмжих, мөн AI ба кибер аюулгүй байдлын өндөр түвшний хэлэлцүүлгийг дэмжих 1 сая ам.долларын санаачилга юм. Мөн бид манай системээс олж илрүүлсэн эмзэг байдал, алдаа, эсвэл аюулгүй байдлын доголдлыг олон нийтээр мэдээлэхийг урьдаг. OpenAI Bug Bounty Program нь манай технологи болон компанийг аюулгүй байлгахад хувь нэмэр оруулдаг хүмүүсийн үнэ цэнтэй ойлголтыг хүлээн зөвшөөрч, шагнах боломж олгодог.

Загварын үнэлгээ ба улаан баг

Бид гаргаж буй шинэ томоохон загвар бүрийг аюулгүй байдлын үүднээс үнэлдэг бөгөөд үүнд улаан баг ашиглах ч орно. Жишээлбэл, GPT‑4‑ийг олон нийтэд гаргахаас өмнө гадаад улаан багууд загварыг дараах хил хязгаарын эрсдэлүүдээр туршсан: (1) цөмийн, цацрагийн, биологийн болон химийн зэвсэг (CBRN) хөгжүүлэхэд туслах байдал, (2) кибер эрсдэлийн өсөлт, (3) хэрэгсэл ашиглалтаас үүдэх эрсдэл, (4) өөрийгөө хуулбарлах чадамж. DALL-E 3-ийн улаан багийн ажлын хүрээнд, сайн дурын амлалтуудынхаа хүрээнд, бид загвар CBRN-ийг хөгжүүлэх, олж авах, эсвэл тараахад шаардлагатай дүрслэл мэдээлэл өгөх чадварыг туршсан.

Мөн бид OpenAI-ийн загваруудын аюулгүй байдлыг сайжруулах сонирхолтой салбарын мэргэжилтнүүдийг улаан багийн хүчин чармайлтдаа нэгдэхийг олон нийтэд урихын тулд OpenAI Red Teaming Network⁠-ийн нээлттэй урилгыг нийтэлсэн.

CBRN. Зарим Том хэлний загвар (LLM)-ын чадамж нь давхар хэрэглээний шинжтэй байж болно. Өөрөөр хэлбэл загваруудыг арилжааны болон цэргийн эсвэл түгээлтийн хэрэглээнд хоёуланд нь ашиглаж болдог. Бид GPT‑4‑ийг давхар хэрэглээний дөрвөн салбарт стресс тест, хил хязгаарын тест, улаан багийн сорилтод оруулж, манай загварууд CBRN-ийг хөгжүүлэх, олж авах, эсвэл тараахыг зорьж буй хүмүүст шаардлагатай мэдээллийг өгч чадах эсэхийг судалсан. GPT‑4‑д дангаар нь хандах боломж нь түгээлт хийхэд хангалттай нөхцөл биш ч уламжлалт хайлтын хэрэгслүүдтэй харьцуулахад, ялангуяа, ийм хүмүүст нээлттэй мэдээллийн хүрээг өөрчилж болохыг бид олж тогтоосон. Улаан багийнхан GPT‑4 болон уламжлалт хайлтын системүүдэд өгөх асуултуудын багцыг сонгож, GPT‑4 ашиглах үед судалгааг дуусгах хугацаа богиноссоныг тогтоосон. Зарим тохиолдолд мэдээллийн үнэн зөвийг алдагдуулахгүйгээр судалгааны явц хэдэн цагаар богиноссон. Иймээс бид GPT‑4‑ийн олон нийтэд нээлттэй боловч олоход хэцүү мэдээллийг үүсгэх чадвар нь гол эрсдэлийн хөдөлгөгч хүчин гэж дүгнэсэн. Энэ нь хэрэглэгчдийн судалгаанд зарцуулах хугацааг багасгаж, мэргэжлийн бус хэрэглэгч ойлгохоор байдлаар ийм мэдээллийг эмхэтгэж өгдөг. DALL-E 3-ийг гаргахаас өмнө текстээс зураг үүсгэх нь эрсдэлийн төлөвийг хэрхэн өөрчилж байгааг үнэлэхийн тулд загварын диаграмм болон CBRN эрсдэлтэй холбоотой мэдээллийг үйлдвэрлэх, олж авахад зориулсан дүрслэл заавар үүсгэх чадварыг туршсан. GPT‑4‑тэй адил бид DALL-E 3-д дотоод болон гадаад туршилт хийж, эрсдэлийг дотооддоо туршихын зэрэгцээ янз бүрийн салбарын гадаад мэргэжилтнүүдэд эрт хандалт олгон системүүдийг сорьж, эрсдэлийг зураглах, үнэлэхэд туслуулсан. Бид DALL·E 3-ийг давхар хэрэглээний дөрвөн салбарт улаан багийн сорилтод оруулж, CBRN-ийг хөгжүүлэх, олж авах, эсвэл тараахад шаардлагатай мэдээллийг өгч чадах эсэхийг судалсан. Улаан багийнхан эдгээр чиглэлд эрсдэл бага гэж тогтоосон бөгөөд энэ нь тухайн сэдвүүдийн талаарх алдаатай байдал, татгалзлууд, мөн амжилттай түгээлт хийхэд шаардлагатай нэмэлт хандалт болон “ingredients”-ийн өргөн хүрээний хэрэгцээтэй холбоотой байв.

Кибер чадамж. Мөн бид GPT‑4‑ийг эмзэг байдал илрүүлэх, ашиглах, нийгмийн инженерчлэлд ашиглаж болох эсэхийг үнэлсэн. Загвар компьютерийн эмзэг байдлыг илрүүлэх, үнэлэх, ашиглахад тусалж чадах эсэхийг шалгахын тулд бид гадаад кибер аюулгүй байдлын мэргэжилтнүүдтэй гэрээлсэн. Тэд эх код нь загварын контекст цонхонд багтахуйц жижиг үед GPT‑4 зарим эмзэг байдлыг тайлбарлаж чаддаг ч тодорхойлогдсон эмзэг байдлыг ашиглах exploit бүтээхдээ муу ажилласан гэж тогтоосон. Нийгмийн инженерчлэлийн чадамжийг шалгахын тулд мэргэжлийн улаан багууд GPT‑4 нь бай сонгох, чиглэсэн phishing, bait-and-switch phishing зэрэг холбогдох даалгаварт одоогийн хэрэгслүүдээс ахиц гаргаж байгаа эсэхийг туршсан. Тэд загвар нь байг жагсаах, сүүлийн үеийн мэдээллийг ашиглан илүү үр дүнтэй phishing агуулга гаргах зэрэг баримтад суурилсан даалгаварт бэрхшээлтэй байсан тул одоогийн нийгмийн инженерчлэлийн чадамжийг шууд сайжруулах бэлэн хэрэгсэл биш гэж үзсэн. Гэсэн хэдий ч байны тухай зохих суурь мэдлэгтэй үед GPT‑4 бодит мэт нийгмийн инженерчлэлийн агуулга боловсруулахад үр дүнтэй байв. Эдгээр олдвор дээр үндэслэн бид GPT‑4‑д хортой кибер аюулгүй байдлын хүсэлтээс татгалзах үндсэн сургалтын дараах сургалт хийж, мониторинг, илрүүлэлт, хариу арга хэмжээ зэрэг дотоод аюулгүй байдлын системүүдээ өргөтгөсөн.

Өөрийгөө хуулбарлах. GPT‑4‑ийг гаргахаас өмнө бид Alignment Research Center (ARC)-аар загвар автоном байдлаар өөрийгөө хуулбарлах, нөөц цуглуулах үйлдлүүдийг гүйцэтгэх чадварын урьдчилсан үнэлгээ хийлгэсэн. Манай улаан багийн ажлын хүрээнд бид ARC-д загваруудад эрт хандах эрх олгосон бөгөөд ингэснээр тэдний баг эрх мэдэл эрэлхийлэх зан үйлээс үүдэх эрсдэлийг үнэлж чадсан. ARC-ийн үнэлсэн эрх мэдэл эрэлхийлэхийн тодорхой хэлбэр нь загвар автоном байдлаар өөрийгөө хуулбарлаж, нөөц олж авах чадвар байв. ARC урьдчилсан туршилтуудаараа GPT‑4‑ийн эрт үеийн хувилбарууд автоном хуулбарлалтын даалгаварт үр дүнгүй байсан гэж тогтоосон. Иймээс тэд загвар өөрийгөө автоном байдлаар хуулбарлах чадвартай байх магадлал бага гэж дүгнэсэн.

Загварын тайлагнал ба мэдээлэл хуваалцах

Ил тод байдал нь хариуцлагатай AI системүүдийг бүтээх чухал элемент юм. Хариуцлагыг хангах манай хандлагын гол хэсэг нь бидний байршуулдаг шинэ AI системүүдэд зориулан одоогоор системийн карт гэж нэрлэж буй баримт бичгийг нийтлэх явдал юм. Манай системийн картууд нь, ялангуяа хариуцлагатай хэрэглээнд хамаарах салбаруудад, системийн зан төлөвт нөлөөлдөг гол хүчин зүйлсийн талаар уншигчдад мэдээлэх зорилготой бөгөөд загварын болон системийн картуудын талаарх өмнөх судалгааны ажлаас санаа авсан. Сайн дурын амлалтуудыг өгөхөөс өмнө OpenAI хоёр системийн карт нийтэлсэн байсан: GPT‑4 System Card болон DALL-E 2 System Card. Түүнээс хойш бид сайн дурын амлалтад гарын үсэг зурснаас хойших шинэ загварын анхны томоохон нийтийн нээлт болох DALL-E 3-ийг ChatGPT‑д гаргахаас өмнө System Card нийтэлсэн. Технологио хариуцлагатайгаар гаргах хүчин чармайлтын хүрээнд бид GPT‑4‑ийн харааны чадамжийг ChatGPT‑д ашиглах боломжтой болгохоос өмнө мөн System Card нийтэлсэн.

Загвар гарсны дараа илэрсэн эмзэг байдлын мэдээлэх бүтэц

Сайн дурын амлалтуудаа өгснөөс хойш бид Frontier Model Forum-ийн хүрээнд AI лабораториудын хооронд аюултай чадамжийг хариуцлагатайгаар ил тод болгох механизмыг бий болгох ажлын хэсгийг эхлүүлсэн. Энэ механизм нь хил хязгаарын загваруудаас илэрсэн ноцтой эрсдэлийг хил хязгаарын лабораториуд болон бусад AI лабораториудын хооронд нууц байдлаар мэдээлэх боломж бүрдүүлэх зорилготой. Бидний эхний анхаарал нь Хими, Биологи, Цацраг, Цөмийн (CBRN) чадамж зэрэг үндэсний аюулгүй байдалтай холбоотой салбарууд, мөн өөрийгөө хуулбарлах, хууран мэхлэх, манипуляци зэрэг бусад аюултай чадамжуудыг хамарна. Мэдээлэх аргуудад илүү өргөнөөр ил тод болгох нь ихээхэн эрсдэл дагуулах салбаруудад лабораторийн гишүүдийн дундах нийтлэг аюулын талаарх үнэлгээ, улаан багийн дасгалуудаас авсан ойлголт болон бусад нотолгоо багтана.

Мөн бид систем дэх аюулгүй байдлын эмзэг байдлыг мэдээлдэг хүмүүсийг хүлээн зөвшөөрч, шагнах арга хэлбэр болгон OpenAI-ийн bug bounty хөтөлбөрийг зарласан. Манай шагналын хэмжээ бага ноцтой олдворын хувьд 200 ам.доллароос эхэлж, онцгой нээлтийн хувьд 20,000 ам.доллар хүрдэг. Бид bug bounty платформын тэргүүлэгч Bugcrowd-той хамтран хүсэлт илгээх болон шагнал олгох процессыг бүрдүүлсэн бөгөөд энэ нь Bug Bounty Program хуудас⁠(шинэ цонхонд нээгдэнэ) дээр боломжтой.

Зүй бус хэрэглээний хэв шинжид зориулсан байршуулалтын дараах мониторинг

Бид урьдчилан харж болох эрсдэлийг байршуулалтын өмнө зогсоохын тулд шаргуу ажилладаг. Гэвч лабораторийн орчинд хэн ч сурч мэдэж чадах зүйлд бас хязгаар бий. Өргөн хүрээний судалгаа, туршилтын дараа ч хүмүүс манай технологийг ямар ашигтай байдлаар ашиглахыг, эсвэл хэрхэн буруугаар ашиглаж болзошгүйг бид бүрэн урьдчилан таамаглаж чаддаггүй. Урьдчилан тооцоолоогүй эрсдэлийг хурдан илрүүлж, шийдвэрлэх чадамжийг бий болгох нь бидний нэн тэргүүний зорилтын нэг бөгөөд бүх эрсдэлийг бүрэн урьдчилан харах боломжгүй хил хязгаарын системүүдийн хувьд энэ чадамж нь чухал хамгаалалт болдог. Бид санаандгүй төрлийн зүй бус хэрэглээг илрүүлэхэд зориулагдсан дотоод арга хэмжээнүүдийг бий болгож, тэдгээрт хариу өгөх үйл явцтай ажилладаг бөгөөд олж авсан сургамжаа ашиглалтын бодлого, аюулгүй байдлын систем, загварын гаралтыг сайжруулахад ашигладаг. Систем гаргасны дараа бид зүй бус хэрэглээ эсвэл урьдчилан тооцоолоогүй эрсдэлийг илрүүлэхийн тулд идэвхтэй мөрдөн шалгалт, мониторинг, ирсэн мэдээллийн нягтлан шалгалтыг хийдэг. Дараа нь бодлогын болон техникийн шийдлээр ил болсон асуудлуудыг хурдан, давталттайгаар шийдвэрлэхийг зорьдог. Бид үйл ажиллагааныхаа цар хүрээг тэлж, хариу өгөх хугацааг богиносгосоор байна.

Загварын жинг хамгаалах зэрэг аюулгүй байдлын хяналтууд

Бид OpenAI-ийн технологи, оюуны өмч, өгөгдлийг хамгаалахад ихээхэн нөөц зориулдаг.

Бид хамгийн хүчирхэг AI загваруудаа үйлчилгээ хэлбэрээр байршуулдаг. Ийм загваруудын жинг OpenAI болон манай технологийн түнш Microsoft-оос гадуур түгээдэггүй бөгөөд API-аар дамжуулан хамгийн өндөр чадамжтай загварууддаа гуравдагч талын хандалтыг олгодог тул загварын жин, эх код болон бусад эмзэг мэдээлэл хяналттай хэвээр байна.

Мөн бид хувийн мэдээлэл алдагдах, буруугаар ашиглагдах, зөвшөөрөлгүй хандахаас сэргийлэхэд чиглэсэн арилжааны хувьд үндэслэлтэй техник, захиргааны болон байгууллагын арга хэмжээг хэрэгжүүлдэг. Үүнд SOC 2 Type 2 зэрэг аюулгүй байдлын хөтөлбөрийн маань гуравдагч талын аудитыг хийлгэх ажил багтана. Мөн бид хараат бус судлаачдыг манай системийн эмзэг байдлыг мэдээлснийх нь төлөө мөнгөн шагнал олгохоор урих bug bounty хөтөлбөрийг эхлүүлсэн. Манай Найдвартай байдлын портал нь хэрэглэгчид болон бусад оролцогч талуудад аюулгүй байдлын хяналт, аудитын тайлангуудыг маань хянах боломж олгодог. Кибер аюулгүй байдлын хүчин чармайлтынхаа хүрээнд бид тогтмол дотоод болон гуравдагч талын нэвтрэлтийн туршилт хийж, аюулгүй байдлын хяналтуудынхаа тохиромжтой байдал, үр нөлөөг аудит хийдэг.

AI-ээр үүсгэсэн материалын танигч

Манай загваруудаар бүтээсэн аудио-дүрсний агуулгыг танихад туслахын тулд бид гарал үүслийн техникийн хандлагыг боловсруулж байна. Энэ хандлага боловсруулагдмагц бид үүнийг шинэ хил хязгаарын системүүддээ өргөнөөр нэвтрүүлэх болно. Бид гарал үүслийг тогтоох олон төрлийн аргыг үнэлж байгаа бөгөөд тус бүр өөрийн давуу ба сул талтай. Ерөнхийдөө эдгээр нь watermarking, ангилагч, metadata-д суурилсан хандлага гэсэн гурван бүлэгт хуваагдана.

Сайн дурын амлалтуудаа өгснөөс хойш бид зураг DALL·E 3-аар үүсгэсэн эсэхийг танихад туслах гарал үүслийн ангилагчийг судалж, туршиж байна. Одоогоор бид үүнийг дотооддоо үнэлж байгаа бөгөөд DALL·E 3-ийн нээлтийн хүрээнд олон нийтэд шинэчлэл өгсөн.

Өгөгдөл оруулах хяналт ба аудит

ChatGPT‑ийг ажиллуулдаг загваруудыг оролцуулаад OpenAI-ийн том хэлний загваруудыг мэдээллийн гурван үндсэн эх сурвалжаар хөгжүүлдэг: (1) интернэтэд нийтэд нээлттэй байгаа мэдээлэл, (2) гуравдагч талаас лицензээр авсан мэдээлэл, (3) манай хэрэглэгчид эсвэл хүний сургагчдын өгсөн мэдээлэл.

Манай сургалтын өгөгдлийн дийлэнх нь интернэтэд чөлөөтэй, нээлттэй байгаа нийтэд нээлттэй мэдээллээс бүрддэг — жишээлбэл, бид төлбөрийн ханын цаадах мэдээлэл эсвэл “deep web”-ээс мэдээлэл эрдэггүй. Бид загварууд маань сурахыг эсвэл гаргахыг хүсэхгүй байгаа зарим өгөгдлийг, тухайлбал үзэн ядсан үг хэллэг, насанд хүрэгчдийн агуулга, голчлон хувийн мэдээлэл нэгтгэдэг сайтууд, спам зэргийг шүүж, устгадаг.

Мөн бид бүтээгчид, эрх эзэмшигчид, вебсайт операторуудад өөрсдийн эзэмшдэг эсвэл хянадаг агуулгатай холбоотойгоор AI сургалтын талаар сонголтоо илэрхийлэх боломж олгох арга хэмжээг хэрэгжүүлсэн. Жишээлбэл, OpenAI нь robots.txt веб стандарт дээр тулгуурлан OpenAI-ийн “GPTBot” веб мөлхөгчийг өөрсдийн агуулгад хандахыг хориглох хялбар аргыг вебсайт операторуудад бий болгосон. Үүнтэй адил OpenAI нь ChatGPT болон ChatGPT plugin-ууд вебсайтад хандахдаа ашигладаг user-agent-string (“ChatGPT‑user”)‑ийг баримтжуулсан тул сайтын операторууд эдгээр зорилгоор хандалтыг мөн хааж болно. Бид аль нэг ботыг сайтуудад хандахыг хэрхэн хориглох тухай зааврыг онлайнаар өгдөг. Мөн бид ирээдүйн DALL-E зураг үүсгэх загваруудын сургалтаас агуулгаа хасуулахыг хүссэн зураг бүтээгчдэд зориулсан өөрөө үйлчилгээний маягт⁠(шинэ цонхонд нээгдэнэ) санал болгодог.