2024 оны тавдугаар сарын 7

Our approach to data and AI

Ачаалж байна…

AI нь хүн бүрийн боломжийг тэлэх ёстой. Мэдээллийг шинэ аргаар хувиргаснаар AI системүүд бидэнд асуудал шийдэх, өөрийгөө илэрхийлэхэд тусалдаг. Өнөөдөр ChatGPT зэрэг манай AI хэрэгслүүдийг дэлхий даяар Кени, Энэтхэгийн фермерүүд ургацын гарцаа нэмэгдүүлэхэд (Digital Green⁠), судлаачид эмийн нээлтийг хурдасгахад (Moderna⁠), засгийн газрууд ажиллах хүчээ дэмжихэд (Пенсильвани муж⁠(шинэ цонхонд нээгдэнэ)), сурган хүмүүжүүлэгчид оюутны суралцах үйл явцыг ахиулахад⁠, мөн харааны бэрхшээлтэй хүмүүс бидний ертөнцөд чиглэн явахад (Be My Eyes⁠) ашиглаж байна. DALL·E⁠ болон Sora⁠ (одоогоор судалгааны урьдчилсан хувилбарт) зэрэг AI хэрэгслүүд нь чадавхжуулж⁠, урлагт хөл тавьж буй уран бүтээлчдээс кино бүтээгчид хүртэлх⁠ бүтээлч хүмүүсийг дэмжиж байна.

Манай эрхэм зорилго бол бүх хүн төрөлхтөнд өгөөж өгөх явдал юм. Үүнд зөвхөн хэрэглэгчид маань бус, бүтээгчид болон хэвлэн нийтлэгчид ч багтана. Суралцах нь шударга хэрэглээ мөн гэсэн хууль зүйн жишиг, оновчтой төрийн бодлого байдаг гэж бид үздэг ч AI-ийн эрин дэх контентын талаар өргөн хүрээний ашиг тустай нийгмийн гэрээний хөгжүүлэлтэд бид хувь нэмрээ оруулах нь чухал гэж мөн боддог.

AI системүүд бүтээгчид болон контент эзэмшигчдийн сонголтод ашиг тусаа өгч, хүндэтгэх ёстой гэж бид үздэг. Бид контент эзэмшигчдийн сонголтыг тусгах салбартаа тэргүүлэгч системүүдээ байнга сайжруулж байгаа бөгөөд бүтээгчид, хэвлэн нийтлэгчдэд зориулсан эрчтэй экосистемийг тэтгэх бүтээгдэхүүн, бизнесийн загваруудыг бүтээхэд тууштай байна.

Бид мэргэжлийн зохиолч, уран бүтээлч, сэтгүүлчид биш бөгөөд тэдгээр салбарт ажилладаггүй. Бид эдгээр мэргэжлүүдэд илүү ихийг бүтээж, амжилтад хүрэхэд туслах хэрэгсэл бүтээхэд төвлөрдөг. Үүнийг хэрэгжүүлэхийн тулд бид эдгээр нийгэмлэгийн гишүүдийг сонсож, тэдэнтэй нягт хамтран ажилладаг бөгөөд цаашдын яриа хэлэлцээгээ үргэлжлүүлэхийг тэсэн ядан хүлээж байна. Өнөөдөр бид хаана явж байгаа болон хаашаа чиглэж байгаагаа илүү дэлгэрэнгүй хуваалцаж байна.

Бид AI дээр бүтээгчид болон контент эзэмшигчдийн сонголтыг хүндэтгэдэг

Олон арван жилийн өмнө robots.txt стандарт нэвтэрч, вэб хэвлэн нийтлэгчид вэб мөлхөгчид вэбсайтынхаа аль хэсэгт хандаж болохыг заахын тулд интернетийн экосистем үүнийг сайн дураараа өргөнөөр хэрэгжүүлсэн.

Өнгөрсөн зун OpenAI AI-д зориулсан вэб мөлхөгчийн зөвшөөрлийг анхдагчаар хэрэгжүүлж, вэб хэвлэн нийтлэгчдэд өөрсдийн контентыг AI-д хэрхэн ашиглах талаар сонголтоо илэрхийлэх боломж олгосон. Бид шинэ загвар сургах бүрдээ эдгээр дохиог харгалзан үздэг.

Гэсэн хэдий ч эдгээр нь бүрэн гүйцэд шийдлүүд биш гэдгийг бид ойлгож байна. Учир нь олон бүтээгч өөрсдийн контент гарч болох вэбсайтуудыг хянадаггүй бөгөөд контентыг ихэвчлэн олон домэйнд иш татах, шүүмжлэх, дахин холих, дахин нийтлэх, санаа авахад ашигладаг. Контент эзэмшигчид өөрсдийн контентыг AI системд ашиглах талаарх сонголтоо илэрхийлэх үр ашигтай, өргөтгөх боломжтой шийдэл бидэнд хэрэгтэй.

Бид контент эзэмшигчид бүтээлээ AI-д хэрхэн ашиглуулахыг удирдах боломжтой болгохын тулд Media Manager-ийг бүтээж байна

OpenAI нь бүтээгчид болон контент эзэмшигчдэд өөрсдийн эзэмшдэг зүйлээ бидэнд мэдэгдэж, бүтээлүүдээ машин сургалтын судалгаа болон сургалтад хэрхэн оруулах эсвэл хасахыг зааж өгөх боломж олгох Media Manager хэрэгслийг хөгжүүлж байна. Цаг хугацааны явцад бид нэмэлт сонголт, боломжуудыг нэвтрүүлэхээр төлөвлөж байна.

Үүний тулд олон эх сурвалж даяарх зохиогчийн эрхтэй текст, зураг, аудио, видеог танихад тусалж, бүтээгчийн сонголтыг тусгах, энэ төрлийн анхны хэрэгслийг бүтээх хамгийн сүүлийн үеийн машин сургалтын судалгаа шаардлагатай болно.

Бид Media Manager-ийг хөгжүүлэх явцдаа бүтээгчид, контент эзэмшигчид болон зохицуулагчидтай хамтран ажиллаж байна. Манай зорилго бол 2025 он гэхэд уг хэрэгслийг бэлэн болгох бөгөөд энэ нь AI салбар даяар жишиг тогтооно гэж найдаж байна.

Бид хэрэглэгчид, бүтээгчид, хэвлэн нийтлэгчдэд өгөөжтэй бүтээгдэхүүнийг эрчтэй экосистемд зориулан бүтээж байна

Өнөөдөр бид хэрэглэгчдээс илүү сурталчлагчдад, чанараас илүү хэмжээнд чиглэсэн анхаарлын эдийн засагт амьдарч байна. Бидний зорилго бол AI-ийг ашиглан үүнийг өөрчлөх: бүтээгчид, хэвлэн нийтлэгчдийг чадавхжуулж, хэрэглэгчийн туршлагыг сайжруулах явдал юм.

Бид бүтээгдэхүүнүүдээ илүү хэрэгтэй нээлтийн хөдөлгүүрүүд болгохоор тасралтгүй сайжруулж байна. Саяхан бид ChatGPT дэх эх сурвалжийн холбоосуудыг сайжруулсан⁠(шинэ цонхонд нээгдэнэ) бөгөөд ингэснээр хэрэглэгчид илүү сайн контекст авч, вэб хэвлэн нийтлэгчид манай аудитортой холбогдох шинэ арга замтай болж байна.

Мөн бид түншүүдтэйгээ хамтран тэдний контентыг бүтээгдэхүүнүүддээ харуулж, уншигчидтай нь холболтыг нь нэмэгдүүлэхээр ажиллаж байна. Бид дэлхийн мэдээний хэвлэн нийтлэгчидтэй Financial Times⁠-аас эхлээд Le Monde⁠, Prisa Media⁠, Axel Springer⁠ болон бусадтай түншлэлээ зарлаж, тэдний контентыг ChatGPT‑д харуулан мэдээний сэдвүүд дээрх хэрэглэгчийн туршлагыг баяжуулж байна. Илүү их инноваци замдаа явж байна. Энэ контентыг мөн хэрэглэгчдэд холбогдох хэвлэн нийтлэгчийн контентыг илүү сайн ил гаргахын тулд ChatGPT‑ийг сургах, мөн мэдээний редакцуудад зориулсан хэрэгслүүдээ сайжруулахад ашиглаж болно.

Манай түншлэлүүд нь түншүүд болон тэдний хэрэглэгчдэд ашиг тустай байхаар бүтээгддэг бөгөөд манай загваруудыг тэдний ажилтнууд, хэрэглэгчид, нийгэмлэгүүдэд илүү хэрэгтэй болгодог. Боловсролын нөөцийг ахиулахад туслахын тулд бид ашгийн бус Khan Academy⁠ болон Их Британид төвтэй ExamSolutions⁠(шинэ цонхонд нээгдэнэ)-той хамтран манай загварын математикийн гүйцэтгэлийг сайжруулсан бөгөөд энэ нь тэдний платформ дээр хувь хүнд тохирсон AI сургалтын хүртээмжийг тэлэх боломжийг түргэсгэж байна.

Манай суурь загварууд болон тэдгээрийг хэрхэн бүтээдэг талаар ойлгох нь

We design our AI models to be learning machines, not databases

AI загварууд шинэ зүйл бүтээхийн тулд мэдээлэл дэх хамаарлуудаас суралцдаг; тэд өгөгдлийн сан шиг өгөгдөл хадгалдаггүй. Бид хэлний загваруудыг сургахдаа их наяд үгийг авч, үгсийн хоорондын хамаарал болон тэдгээрийг үүсгэсэн суурь үйл явцыг хамгийн сайн дүрслэх тэгшитгэлийг олохыг компьютероос хүсдэг. Сургалтын үйл явц дууссаны дараа AI загвар сургалтын үеэр шинжилсэн өгөгдөлд хандах боломжийг хадгалдаггүй. ChatGPT нь өмнөх олон судалгаанаас суралцсан, ойлголтуудын хоорондын хамаарлыг сурсан учраас тайлбарлаж чаддаг ч материалуудыг толгойдоо хадгалдаггүй багштай адил юм.

Манай загварууд контентыг давтах эсвэл “амаар буцаан хэлэх” бус, шинэ контент, санаа үүсгэхэд туслахаар бүтээгдсэн. AI загварууд нийтийн өмчид байдаг баримтуудыг хэлж чадна. Ховор тохиолдолд загвар илэрхийлэмжтэй контентыг санамсаргүй давтвал энэ нь машин сургалтын үйл явцын алдаа юм. Ийм алдаа нь сургалтын өгөгдлийн багцад олон давтамжтай гардаг контент дээр илүү их тохиолдох магадлалтай, жишээлбэл олон нийтийн вэбсайтад байнга ишлэгддэг тул олон өөр нийтийн вэбсайт дээр гардаг контент. Бид API эсвэл ChatGPT‑ийн сургалт болон гаралтын бүх үе шатанд давталтаас сэргийлэх хамгийн сүүлийн үеийн арга техникүүдийг ашигладаг бөгөөд тасралтгүй судалгаа, хөгжүүлэлтийн хүрээнд байнга сайжруулалт хийж байна.

We use broad and diverse data to build the best AI for everyone

Манай AI загварууд аль болох олон хүнд өгөөжтэй байхын тулд аль болох олон хэл, соёл, сэдэв, салбараас суралцаасай гэж бид хүсдэг. Өгөгдлийн багц хэдий чинээ олон төрөлтэй байна, төдий чинээ загваруудын мэдлэг, ойлголт, хэлний олон янз байдал нэмэгддэг — өргөн хүрээний соёлын өнцөг, туршлагад өртсөн хүнтэй адил — мөн AI төдий чинээ олон хүн, улсад аюулгүй үйлчилж чадна.

Суурь загваруудын шинэ үе бүр шинэ өгөгдлийн багц дээр тэгээс эхлэн сургагддаг. Бид архитектураа байнга сайжруулж, өгөгдлийн багцынхаа цар хүрээ, олон янз байдлыг өмнөх загваруудаасаа мэдэгдэхүйц ихэсгэдэг. AI салбарын томоохон компаниудаас ялгаатай нь бидэнд олон арван жилийн турш цуглуулсан асар их өгөгдлийн сан байдаггүй. Бид загваруудаа хэрхэн тустай байхыг сургахад голчлон нийтэд нээлттэй мэдээлэлд тулгуурладаг.

Бид загваруудаа дараах зүйлсийг ашиглан сургадаг:

Сонгосон нийтэд нээлттэй өгөгдөл. Энэ нь ихэвчлэн салбарын стандарт машин сургалтын өгөгдлийн багц болон хайлтын системүүдтэй төстэй вэб мөлхөлтөөс цуглуулдаг. Бид төлбөрийн ханатай гэдгийг нь мэддэг эх сурвалж, голчлон хувийн таних мэдээлэл цуглуулдаг, манай бодлогыг зөрчсөн контенттой, эсвэл татгалзсан эх сурвалжуудыг хасдаг.
өгөгдлийн түншлэлүүд⁠-ээс авсан өмчлөлийн өгөгдөл. Бид архив, мета өгөгдөл зэрэг нийтэд нээлттэй бус контентод хандахын тулд түншилдэг. Манай түншүүд нь Sora-г сургахад зориулсан зураг, видеоны томоохон хувийн видео сангаас эхлээд төрөлх хэлээ хадгалахад туслах Исландын Засгийн газар⁠ хүртэл өргөн хүрээтэй. Бид цэвэр нийтэд нээлттэй мэдээлэлд зориулж төлбөртэй түншлэл эрэлхийлдэггүй.
Өгөгдлийн хяналтын тохиргоо нь загварын сайжруулалтыг зөвшөөрдөг AI сургагчид, red teamers, ажилтнууд болон хэрэглэгчдээс авсан хүний санал хүсэлт.

Бид хувийн болон мэдрэмтгий мэдээллийн боловсруулалтыг багасгахад анхаарч, хүмүүсийн тухай хувийн эсвэл мэдрэмтгий мэдээлэл өгөхгүй байхаар загваруудаа сургадаг. Бид түүхий өгөгдлийг сургалтад аюулгүй ашиглахын тулд олон арга техник ашигладаг бөгөөд өгөгдлийг цэвэрлэх, бэлтгэх, үүсгэхэд туслуулахын тулд AI загваруудыг улам бүр ашиглаж байна.

Бид хэрэглэгчдийнхээ бизнесийн өгөгдөл, үүнд ChatGPT Team, ChatGPT Enterprise эсвэл манай API Platform-ын өгөгдлийг сургалтад ашигладаггүй. ChatGPT Free болон Plus хэрэглэгчид ирээдүйн загварын сайжруулалтад хувь нэмэр оруулах эсэхээ өөрсдийн тохиргоо⁠(шинэ цонхонд нээгдэнэ)-ноос хянах боломжтой.

Бид түншлэлээр бүтээж байна

AI маш хурдан хөгжиж байгаа бөгөөд бид зорилгоо дангаараа биелүүлж чадахгүйгээ мэдэж байна. Бид бүтээгчид болон хэвлэн нийтлэгчидтэй хамтран ажиллах, харилцан ашигтай түншлэл бий болгох, эрүүл экосистемийг дэмжих, эдийн засгийн шинэ загваруудыг судлахад тууштай байна. Эдгээр чухал сэдвүүд дээр бидэнтэй хамтран ажиллаж буй хэрэглэгчид болон түншүүддээ талархаж байна.

Зохиогчид

OpenAI