7. мај 2024.

Our approach to data and AI

Учитавање…

AI treba da proširi mogućnosti za sve. Transformišući informacije na nove načine, AI sistemi nam pomažu da rešavamo probleme i izražavamo se. Danas se naši AI alati poput ChatGPT koriste širom sveta da pomognu poljoprivrednicima u Keniji i Indiji da povećaju prinose useva (Digital Green⁠), istraživačima da ubrzaju otkrivanje lekova (Moderna⁠), vladama da podrže svoju radnu snagu (State of Pennsylvania⁠(отвара се у новом прозору)), nastavnicima da unaprede⁠ učenje učenika i ljudima sa oštećenjem vida da se snalaze u svetu oko sebe (Be My Eyes⁠). AI alati kao što su DALL·E⁠ i Sora⁠ (trenutno u istraživačkom pregledu) osnažuju⁠ kreativce, od umetnika u usponu do filmskih stvaralaca⁠.

Naša misija je da koristimo celom čovečanstvu. To obuhvata ne samo naše korisnike, već i stvaraoce i izdavače. Iako verujemo da pravni presedani i razumna javna politika čine učenje poštenom upotrebom, takođe smatramo da je važno da doprinesemo razvoju široko korisnog društvenog ugovora za sadržaj u eri AI.

Verujemo da AI sistemi treba da koriste i poštuju izbore stvaralaca i vlasnika sadržaja. Neprestano unapređujemo naše vodeće sisteme u industriji kako bi odražavali preferencije vlasnika sadržaja i posvećeni smo izgradnji proizvoda i poslovnih modela koji podstiču živahne ekosisteme za stvaraoce i izdavače.

Mi nismo profesionalni pisci, umetnici niti novinari, niti se bavimo tim delatnostima. Fokusirani smo na izgradnju alata koji ovim profesijama pomažu da stvaraju i postižu više. Da bismo to ostvarili, slušamo članove ovih zajednica i blisko sarađujemo sa njima i radujemo se nastavku dijaloga. Danas delimo više o tome gde smo sada i kuda idemo.

Poštujemo izbore stvaralaca i vlasnika sadržaja u vezi sa AI

Pre više decenija uveden je standard robots.txt, koji je internet ekosistem dobrovoljno usvojio kako bi veb izdavači mogli da naznače kojim delovima veb sajtova veb pretraživači mogu da pristupe.

Prošlog leta OpenAI je bio pionir u upotrebi dozvola za veb pretraživače za AI, omogućivši veb izdavačima da izraze svoje preferencije o korišćenju njihovog sadržaja u AI. Te signale uzimamo u obzir svaki put kada obučavamo novi model.

Ipak, razumemo da su to nepotpuna rešenja, jer mnogi stvaraoci ne kontrolišu veb sajtove na kojima se njihov sadržaj može pojaviti, a sadržaj se često citira, recenzira, remiksuje, ponovo objavljuje i koristi kao inspiracija na više domena. Potrebno nam je efikasno, skalabilno rešenje koje će vlasnicima sadržaja omogućiti da izraze svoje preferencije o korišćenju njihovog sadržaja u AI sistemima.

Gradimo Media Manager kako bi vlasnici sadržaja mogli da upravljaju načinom na koji se njihova dela koriste u AI

OpenAI razvija Media Manager, alat koji će omogućiti stvaraocima i vlasnicima sadržaja da nam kažu šta poseduju i preciziraju kako žele da njihova dela budu uključena ili isključena iz istraživanja i obuke mašinskog učenja. Vremenom planiramo da uvedemo dodatne opcije i funkcije.

To će zahtevati vrhunska istraživanja mašinskog učenja kako bismo napravili prvi alat te vrste koji će nam pomoći da identifikujemo tekst, slike, audio i video materijale zaštićene autorskim pravima iz više izvora i uvažimo preferencije stvaralaca.

Sarađujemo sa stvaraocima, vlasnicima sadržaja i regulatorima dok razvijamo Media Manager. Naš cilj je da alat bude uspostavljen do 2025. godine i nadamo se da će postaviti standard u celoj AI industriji.

Gradimo proizvode koji koriste korisnicima, stvaraocima i izdavačima u živom ekosistemu

Danas živimo u ekonomiji pažnje izgrađenoj za oglašivače, a ne za korisnike, i za kvantitet, a ne za kvalitet. Naša ambicija je da upotrebimo AI da to promenimo: da osnažimo stvaraoce i izdavače i unapredimo korisničko iskustvo.

Neprestano činimo naše proizvode korisnijim mehanizmima za otkrivanje sadržaja. Nedavno smo unapredili izvorne linkove u ChatGPT⁠(отвара се у новом прозору) kako bismo korisnicima dali bolji kontekst, a veb izdavačima nove načine da se povežu sa našom publikom.

Takođe sarađujemo sa partnerima kako bismo prikazivali njihov sadržaj u našim proizvodima i povećali njihovu povezanost sa čitaocima. Najavili smo partnerstva sa globalnim novinskim izdavačima, od Financial Times⁠, preko Le Monde⁠, Prisa Media⁠, Axel Springer⁠ i drugih, kako bismo prikazivali njihov sadržaj u ChatGPT i obogatili korisničko iskustvo kada su u pitanju vesti. Još inovacija je na putu. Ovaj sadržaj može se koristiti i za obuku ChatGPT kako bi korisnicima bolje prikazivao relevantan sadržaj izdavača i unapredio naše alate za redakcije.

Naša partnerstva su osmišljena tako da koriste partnerima i njihovim korisnicima, čineći naše modele korisnijim za njihove zaposlene, kupce i zajednice. Da bismo pomogli napredak obrazovnih resursa, udružili smo se sa neprofitnim organizacijama Khan Academy⁠ i britanskim ExamSolutions⁠(отвара се у новом прозору) kako bismo poboljšali matematičke performanse našeg modela, što ubrzava njihovu mogućnost da prošire pristup personalizovanom AI podučavanju na svojoj platformi.

Razumevanje naših osnovnih modela i načina na koji ih gradimo

We design our AI models to be learning machines, not databases

AI modeli uče iz odnosa u informacijama kako bi stvorili nešto novo; oni ne skladište podatke kao baza podataka. Kada obučavamo jezičke modele, uzimamo bilione reči i tražimo od računara da dođe do jednačine koja najbolje opisuje odnos među rečima i osnovni proces koji ih je proizveo. Kada se proces obuke završi, AI model ne zadržava pristup podacima analiziranim tokom obuke. ChatGPT je kao učiteljica koja je učila iz mnogo prethodnog proučavanja i može da objašnjava stvari zato što je naučila odnose između pojmova, ali ne čuva materijale u svojoj glavi.

Naši modeli su osmišljeni da nam pomognu da generišemo novi sadržaj i ideje – ne da ponavljaju ili „izbacuju“ sadržaj. AI modeli mogu da iznose činjenice koje su u javnom domenu. Ako u retkim prilikama model nenamerno ponovi izražajan sadržaj, to je neuspeh procesa mašinskog učenja. Verovatnije je da će do ovog neuspeha doći sa sadržajem koji se često pojavljuje u skupovima podataka za obuku, kao što je sadržaj koji se pojavljuje na mnogo različitih javnih veb lokacija jer se često citira. Koristimo najsavremenije tehnike tokom obuke i pri izlazu, za naš API ili ChatGPT, da bismo sprečili ponavljanje, i neprestano unapređujemo stvari kroz stalna istraživanja i razvoj.

We use broad and diverse data to build the best AI for everyone

Želimo da naši AI modeli uče iz što više jezika, kultura, tema i industrija kako bi mogli da koriste što većem broju ljudi. Što su skupovi podataka raznovrsniji, to su znanje, razumevanje i jezici modela raznovrsniji – kao kod osobe koja je bila izložena širokom spektru kulturnih perspektiva i iskustava – i to više ljudi i zemalja AI može bezbedno da služi.

Svaka nova generacija osnovnih modela obučava se od početka na novom skupu podataka. Neprestano unapređujemo našu arhitekturu i značajno povećavamo obim i raznovrsnost naših skupova podataka u odnosu na prethodne modele. Za razliku od većih kompanija u oblasti AI, nemamo veliki korpus podataka prikupljan decenijama. Prvenstveno se oslanjamo na javno dostupne informacije da bismo naučili naše modele kako da budu korisni.

Naše modele obučavamo koristeći:

Odabrane javno dostupne podatke, uglavnom prikupljene iz standardnih skupova podataka za mašinsko učenje i veb pretraga, slično pretraživačima. Isključujemo izvore za koje znamo da imaju paywall, da prvenstveno agregiraju informacije koje mogu da identifikuju ličnost, da imaju sadržaj koji krši naše politike ili da su se isključili.
Vlasničke podatke iz partnerstava za podatke⁠. Saradnjom dobijamo pristup nejavno dostupnom sadržaju, kao što su arhive i metapodaci. Naši partneri se kreću od velike privatne video biblioteke za slike i video snimke za obuku Sora do Vlade Islanda⁠ kako bismo pomogli očuvanju njihovih maternjih jezika. Ne težimo plaćenim partnerstvima za informacije koje su isključivo javno dostupne.
Povratne informacije ljudi od AI trenera, red timova, zaposlenih i korisnika čija podešavanja kontrole podataka dozvoljavaju unapređenja modela.

Vodimo računa da smanjimo obradu ličnih i osetljivih informacija i obučavamo naše modele da ne pružaju privatne ili osetljive informacije o ljudima. Koristimo brojne tehnike za obradu sirovih podataka radi bezbedne upotrebe u obuci, a sve više koristimo AI modele da nam pomognu u čišćenju, pripremi i generisanju podataka.

Ne obučavamo na poslovnim podacima naših klijenata, uključujući podatke iz ChatGPT Team, ChatGPT Enterprise ili naše API Platform. Korisnici ChatGPT Free i Plus mogu da kontrolišu da li doprinose budućim unapređenjima modela u svojim podešavanjima⁠(отвара се у новом прозору).

Gradimo kroz partnerstva

AI se brzo razvija i znamo da naši ciljevi ne mogu biti ostvareni sami. Posvećeni smo saradnji sa stvaraocima i izdavačima, stvaranju obostrano korisnih partnerstava, podršci zdravim ekosistemima i istraživanju novih ekonomskih modela. Zahvaljujemo našim korisnicima i partnerima što rade sa nama na ovim važnim temama.

Autori

OpenAI