Paano binubuo ang ChatGPT at ang aming mga batayang modelo
Higit pang matutunan kung paano namin binubuo ang aming mga modelo at ina-apply ang mga ito sa mga produktong tulad ng ChatGPT
Ang mga batayang modelo ng OpenAI, kabilang ang mga modelong nagpapagana sa ChatGPT, ay binubuo gamit ang tatlong pangunahing pinagmumulan ng impormasyon: (1) impormasyong hayag sa publiko sa internet, (2) impormasyong nakukuha namin dahil sa pakikipagtulungan sa mga third party, at (3) impormasyong ibinibigay o binubuo ng aming mga user o ng mga tagapagsanay na tao at tagapagsaliksik.
Nagbibigay ang artikulong ito ng pangkabuuang-ideya ng impormasyong available sa publiko na ginagamit namin upang makatulong sa pagbuo sa mga modelong ito at kung paano namin kinokolekta at ginagamit ang impormasyong iyon nang naayon sa mga batas sa privacy. Para maunawaan kung paano namin kinokolekta at ginagamit ang impormasyon mula sa mga user ng aming mga serbisyo, kabilang ang kung paano mag-opt out sa paggamit ng mga pag-uusap sa ChatGPT para tumulong sa pagtuturo sa aming mga modelo, tingnan ang aming Patakaran sa Privacy at ang artikulong ito.
Ang ChatGPT ay isang serbisyong nakabatay sa artificial intelligence na maaari mong ma-access sa pamamagitan ng internet. Maaari mong gamitin ang ChatGPT para sa iba't ibang gawain, tulad ng pagsasaayos o pagbuod ng impormasyon, tulong sa mga pagsasalin, pagsuri o pagbuo ng larawan, inspirasyon sa paglikha at pagbibigay ng mga ideya, at tulong sa mga gawain sa araw-araw. Binuo ang ChatGPT sa paraang nagbibigay-daan dito na maunawaan at matugunan ang mga tanong at tagubilin ng user. Ginagawa niya ito sa pamamagitan ng pagbabasa ng maraming umiiral na impormasyon, katulad ng teksto, mga larawan, audio o video, at pagkatuto mula sa mga ugnayan sa impormasyon. Halimbawa, natututuhan ng modelo kung paano sadyang lumilitaw ang mga salita kaugnay ng mga iba pang salita at saka ginagamit ang natutuhan nito upang hulaan ang susunod na salitang pinakamalamang na lumitaw bilang tugon sa isang kahilingan ng user, at ang bawat kasunod na salita pagkatapos nito. Kaya ring matuto ng mga modelong ito na bumuo ng mga iba pang anyo ng impormasyon katulad ng mga larawan sa pamamagitan ng pag-aaral kung paano ang mga pixel na bumubuo ng mga larawan sa data ng pagsasanay ay nauugnay sa isa't isat at sa mga caption na naglalarawan sa mga ito.
Bilang halimbawa, sa proseso ng pag-aaral ng modelo (tinatawag na “pagsasanay”), maaari nating subukan ipakumpleto sa modelo ang pangungusap na: “sa halip na kumaliwa, lumiko siya sa ___.” Bago ang pagsasanay, tutugon ang modelo ng mga random na salita, ngunit habang nagbabasa at natututo ito mula sa maraming linya ng teksto, mas nauunawaan nito ang ganitong uri ng pangungusap at mas tumpak na mahuhulaan ang susunod na salita. Pagkatapos ay inuulit nito ang prosesong ito sa napakaraming bilang ng mga pangungusap.
Dahil maraming posibleng salita ang maaaring sumunod sa pangungusap na ito (hal., sa halip na lumiko sa kaliwa, lumiko siya sa “kanan,” “paikot,” o “pabalik”), hindi masasabi kung paano maaaring tumugon ang isang modelo, at sa maraming pagkakataon sasagutin ng aming mga modelo ang parehong tanong sa iba't ibang paraan.
Ang mga modelo ng machine learning ay binubuo ng malalaking string ng mga numero, na tinatawag na “weights” o “parameters,” at code na nagpapakahulugan at nagpapatupad ng mga numerong iyon. Ang mga modelo ay hindi naglalaman o nag-iimbak ng mga kopya ng impormasyon na kanilang natutuhan. Sa halip, habang natututo ang isang modelo, bahagyang nagbabago ang ilan sa mga numerong bumubuo sa modelo upang ipakita kung ano ang natutuhan nito. Sa halimbawa sa itaas, binasa ng modelo ang impormasyong nakatulong sa paghusay nito mula sa paghula ng mga random na maling salita hanggang sa paghula ng mga mas tumpak na salita, ngunit ang talagang nangyari lamang sa mismong modelo ay bahagyang nagbago ang mga numero. Hindi inimbak o kinopya ng modelo ang mga pangungusap, larawan o audio na binasa nito.
Gaya ng nabanggit sa itaas, ginagawa ang ChatGPT at ang mga iba pa naming serbisyo gamit ang (1) impormasyong hayag sa publiko sa internet, (2) impormasyong nakukuha namin dahil sa pakikipagtulungan sa mga third party, at (3) impormasyong ibinibigay o binubuo ng aming mga user o mga tagapagsanay na tao at tagapagsaliksik. Nakatuon ang artikulong ito sa unang hanay: impormasyong hayag sa publiko sa internet.
Para sa hanay ng impormasyong ito, ginagamit lang namin ang impormasyong hayag sa publiko na malaya at bukas na magagamit sa Internet – halimbawa, hindi kami naghahanap ng impormasyon na alam naming nasa likod ng mga paywall o mula sa “dark web.” Naglalapat kami ng mga filter at nag-aalis ng impormasyong hindi namin gustong matutuhan o ilabas ng aming mga modelo, gaya ng mapoot na salita, pang-adult na content, mga site na pangunahing nagsasama-sama ng personal na impormasyon at spam. Pagkatapos ay ginagamit namin ang impormasyon upang turuan ang aming mga modelo.
Maraming data sa internet ang nauugnay sa mga tao, kaya ang aming impormasyon sa pagsasanay ay nagkataong naglalaman ng personal na impormasyon. Hindi kami aktibong naghahanap ng personal na impormasyon para sanayin ang aming mga modelo.
Ginagamit lang namin ang impormasyon ng pagsasanay upang turuan ang aming mga modelo ng karunungan, katulad ng kakayahang manghula, mangatwiran, at lumutas ng mga problema. Hindi kami gumagamit at hindi kami gagamit ng anumang personal na impormasyon sa impormasyon ng pagsasanay upang bumuo ng mga profile tungkol sa mga tao, para makipag-ugnayan sa kanila, para mag-advertise sa kanila, para subukang magbenta sa kanila ng anumang bagay, o para ibenta ang impormasyon mismo.
Ang aming mga modelo ay maaaring matuto mula sa personal na impormasyon upang maunawaan kung paano gumagana ang mga bagay tulad ng pangalan at address sa loob ng wika at mga pangungusap, o upang malaman ang tungkol sa mga sikat na tao at mga public figure. Ginagawa nitong mas mahusay ang aming mga modelo sa pagbibigay ng mga nauugnay na tugon.
Gumagawa rin kami ng mga hakbang upang bawasan ang pagproseso ng personal na impormasyon kapag sinasanay namin ang aming mga modelo. Halimbawa, inaalis namin ang mga website na nagsasama-sama ng maraming personal na impormasyon at sinasanay namin ang aming mga modelo na tanggihan ang mga kahilingan para sa pribado o sensitibong impormasyon tungkol sa mga tao.
Ginagamit namin ang impormasyon ng pagsasanay nang naaayon sa batas. Ang aming mga batayang modelo ay may maraming application na nagbibigay ng mga makabuluhang benepisyo at tinutulungan na ang mga tao na lumikha ng content, pahusayin ang serbisyo sa customer, bumuo ng software, mag-customize ng edukasyon, sumuporta sa siyentipikong pananaliksik, at marami pa. Ang mga benepisyong ito ay hindi maisasakatuparan nang walang malaking dami ng impormasyon upang turuan ang mga modelo. Bilang karagdagan, ang aming paggamit ng impormasyon sa pagsasanay ay hindi naglalayon na negatibong makakaapekto sa mga indibidwal, at ang mga pangunahing mapagkukunan ng impormasyon sa pagsasanay na ito ay hayag na sa publiko. Para sa mga kadahilanang ito, ibinabatay namin ang aming pangongolekta at paggamit ng personal na impormasyon na kasama sa impormasyon ng pagsasanay sa mga lehitimong interes sa ilalim ng mga batas sa privacy tulad ng GDPR, gaya ng ipinaliwanag nang mas detalyado sa aming Patakaran sa Privacy. Nakumpleto rin namin ang pagtatasa ng epekto sa proteksiyon ng data upang makatulong na matiyak na kinokolekta at ginagamit namin ang impormasyong ito nang legal at responsable.
Tumutugon kami sa mga kahilingan sa pagtutol at mga katulad na karapatan. Bilang resulta ng pag-aaral ng wika, ang mga tugon sa ChatGPT ay maaaring minsan ay may kasamang personal na impormasyon tungkol sa mga indibidwal na ang personal na impormasyon ay lumalabas nang maraming beses sa pampublikong internet (halimbawa, mga public figure). Maaaring tutulan ng mga indibidwal sa ilang hurisdiksiyon ang pagproseso ng aming mga modelo sa kanilang personal na impormasyon o gumawa ng mga iba pang kahilingan kaugnay ng mga karapatan ng data subject sa pamamagitan ng aming Privacy Portal(magbubukas sa bagong window). Maaari mo ring gamitin ang mga karapatang ito sa pamamagitan ng pakikipag-ugnayan sa dsar@openai.com.
Mangyaring magkaroon ng kamalayan na, alinsunod sa mga batas sa privacy, ang ilang karapatan ay maaaring hindi ganap. Maaari naming tanggihan ang isang kahilingan kung mayroon kaming legal na dahilan sa paggawa nito. Gayunpaman, nagsusumikap kaming bigyang-priyoridad ang proteksyon ng personal na impormasyon, at sumunod sa lahat ng naaangkop na batas sa privacy. Kung sa tingin mo ay hindi namin sapat na natugunan ang isang isyu, may karapatan kang magsampa ng reklamo sa iyong lokal na awtoridad sa pangangasiwa.
Para sa higit pang impormasyon tungkol sa mga kagawian ng OpenAI kaugnay ng personal na impormasyong kinokolekta namin mula sa iyo o tungkol sa iyo kapag ginagamit mo ang aming website, mga application, at mga serbisyo, tingnan ang aming Patakaran sa Privacy.