7 Mei 2024

Our approach to data and AI

Lagi dimuat…

AI kudune nggedhekake kesempatan kanggo kabeh wong. Kanthi ngowahi informasi kanthi cara anyar, sistem AI mbantu kita ngrampungake masalah lan ngandharake awake dhewe. Dina iki, piranti AI kami kaya ChatGPT digunakake ing saindenging jagad kanggo mbantu petani ing Kenya lan India nambah asil panen (Digital Green⁠), peneliti nyepetake panemuan obat (Moderna⁠), pamaréntah ndhukung tenaga kerjane (State of Pennsylvania⁠(mbukak ing jendhela anyar)), pendidik majokake⁠ sinau siswa, lan wong sing nduweni gangguan penglihatan navigasi donya kita (Be My Eyes⁠). Piranti AI kaya DALL·E⁠ lan Sora⁠ (saiki ana ing research preview) lagi nguatake⁠ para kreatif saka seniman pemula nganti sineas⁠.

Misi kami yaiku menehi manfaat kanggo kabeh manungsa. Iki nyakup ora mung pangguna kami, nanging uga kreator lan penerbit. Sanajan kami percaya yen preseden hukum lan kabijakan publik sing apik ndadekake pembelajaran minangka fair use, kami uga rumangsa penting yen kami melu nyumbang ing pangembangan kontrak sosial sing migunani kanthi jembar kanggo konten ing jaman AI.

Kami percaya sistem AI kudu nguntungake lan ngajeni pilihan para kreator lan pamilik konten. Kami terus ningkatake sistem unggulan industri kami supaya nggambarake preferensi pamilik konten, lan duwe dedikasi mbangun produk lan model bisnis kanggo nyengkuyung ekosistem sing dinamis kanggo kreator lan penerbit.

Kami dudu penulis, seniman, utawa wartawan profesional, lan kami uga ora ana ing lini bisnis kasebut. Fokus kami yaiku mbangun piranti kanggo mbantu profesi-profesi iki nggawe lan nggayuh luwih akeh. Kanggo nindakake iki, kami ngrungokake lan kerja cedhak karo anggota komunitas iki, lan ngarepake dialog terus-terusan. Dina iki, kami nuduhake luwih akeh babagan posisi kami saiki lan arah tujuan kami.

Kami ngajeni pilihan para kreator lan pamilik konten babagan AI

Puluhan taun kepungkur, standar robots.txt diperkenalake lan kanthi sukarela diadopsi dening ekosistem Internet supaya penerbit web bisa nuduhake bagean situs web endi sing bisa diakses web crawler.

Musim panas kepungkur, OpenAI ngrintis panggunaan izin web crawler kanggo AI, supaya penerbit web bisa nyatakake preferensine babagan panggunaan kontene ing AI. Kami nimbang sinyal iki saben wektu nglatih model anyar.

Nanging, kami ngerti iki isih dadi solusi sing durung pepak, amarga akeh kreator ora ngontrol situs web panggonan kontene bisa muncul, lan konten asring dikutip, diulas, di-remix, diunggah ulang, lan digunakake dadi inspirasi ing pirang-pirang domain. Kami butuh solusi sing efisien lan bisa diukur supaya pamilik konten bisa nyatakake preferensine babagan panggunaan kontene ing sistem AI.

Kami mbangun Media Manager supaya pamilik konten bisa ngatur cara karya digunakake ing AI

OpenAI lagi ngembangake Media Manager, piranti sing bakal ngidini kreator lan pamilik konten menehi ngerti apa sing diduweni lan nemtokake kepiye karya-karyane pengin dilebokake utawa dikecualekake saka riset lan pelatihan machine learning. Sakwene wektu, kami ngrancang ngenalake pilihan lan fitur tambahan.

Iki bakal mbutuhake riset machine learning paling mutakhir kanggo mbangun piranti pisanan ing jenise sing bisa mbantu kami ngenali teks, gambar, audio, lan video sing duwe hak cipta ing pirang-pirang sumber lan nggambarake preferensi kreator.

Kami kolaborasi karo kreator, pamilik konten, lan regulator nalika ngembangake Media Manager. Tujuan kami yaiku supaya piranti iki wis ana ing 2025, lan kami ngarepake iki bisa dadi standar ing saindenging industri AI.

Kami nggawe produk kanggo nguntungake pangguna, kreator, lan penerbit ing ekosistem sing dinamis

Dina iki, kita urip ing ekonomi perhatian sing dibangun luwih kanggo pengiklan tinimbang pangguna lan kanggo kuantitas tinimbang kualitas. Ambisi kami yaiku nggunakake AI kanggo ngowahi iki: nguatake kreator lan penerbit lan ningkatake pengalaman pangguna.

Kami terus nggawe produk kami dadi mesin panemuan sing luwih migunani. Bubar iki kami nambah pranala sumber ing ChatGPT⁠(mbukak ing jendhela anyar) supaya pangguna entuk konteks sing luwih apik lan penerbit web nduweni cara anyar kanggo nyambung karo pamirsa kami.

Kami uga kerja bareng mitra kanggo nampilake kontene ing produk kami lan nambah sambungane karo para pamaca. Kami wis ngumumake kemitraan karo penerbit warta global saka Financial Times⁠, nganti Le Monde⁠, Prisa Media⁠, Axel Springer⁠ lan liya-liyane, kanggo nampilake kontene ing ChatGPT lan ngaya pengalaman pangguna ing topik warta. Inovasi liyane lagi tumuju. Konten iki uga bisa digunakake kanggo nglatih ChatGPT supaya luwih apik nampilake konten penerbit sing relevan marang pangguna lan kanggo ningkatake piranti kami kanggo ruang redaksi.

Kemitraan kami dirancang supaya migunani kanggo mitra lan panggunane, nggawe model kami luwih migunani kanggo karyawan, pelanggan, lan komunitase. Kanggo mbantu majokake sumber daya pendidikan, kami kerja bareng organisasi nirlaba Khan Academy⁠ lan ExamSolutions⁠(mbukak ing jendhela anyar) sing adhedhasar ing UK kanggo ningkatake kinerja matematika model kami, sing nyepetake kemampuan dheweke nggedhekake akses menyang tutor AI sing dipersonalisasi ing platforme.

Ngerteni model pondasi kami lan cara nggawe

We design our AI models to be learning machines, not databases

Model AI sinau saka hubungan ing informasi kanggo nggawe sing anyar; dudu nyimpen data kaya basis data. Nalika kami nglatih model basa, kami njupuk triliunan tembung, banjur njaluk komputer nggawe persamaan sing paling apik kanggo njlentrehake hubungan antarane tembung-tembung kasebut lan proses dhasar sing ngasilake. Sawise proses pelatihan rampung, model AI ora tetep nduweni akses menyang data sing dianalisis sajrone pelatihan. ChatGPT kaya guru sing wis sinau saka akeh sinau sadurunge lan bisa nerangake perkara amarga dheweke wis sinau hubungan antar konsep, nanging ora nyimpen materi kasebut ing sirahe.

Model kami dirancang kanggo mbantu ngasilake konten lan gagasan anyar – dudu kanggo mbaleni utawa “muntahake maneh” konten. Model AI bisa nyebutake fakta, sing kalebu domain publik. Yen ing kasus langka sawijining model tanpa disengaja mbaleni konten ekspresif, iku minangka kegagalan proses machine learning. Kegagalan iki luwih mungkin kedadeyan ing konten sing kerep muncul ing dataset pelatihan, kayata konten sing katon ing akeh situs web publik beda amarga kerep dikutip. Kami nggunakake teknik paling mutakhir sajrone pelatihan lan nalika output, kanggo API utawa ChatGPT, kanggo nyegah pengulangan, lan kami terus nggawe perbaikan liwat riset lan pangembangan sing terus lumaku.

We use broad and diverse data to build the best AI for everyone

Kami pengin model AI kami sinau saka sabisa akeh basa, budaya, subjek, lan industri supaya bisa migunani kanggo sabisa akeh wong. Saya maneka warna dataset, saya maneka warna kawruh, pangerten, lan basa saka model kasebut – kaya wong sing wis kapapar akeh perspektif lan pengalaman budaya – lan saya akeh wong lan negara sing bisa dilayani AI kanthi aman.

Saben generasi anyar model pondasi dilatih saka nol nganggo dataset anyar. Kami terus ningkatake arsitektur lan nambah skala lan keragaman dataset kami kanthi signifikan ngluwihi model sadurunge. Beda karo perusahaan luwih gedhe ing bidang AI, kami ora duwe korpus data gedhe sing diklumpukake sajrone puluhan taun. Kami utamane ngandelake informasi sing kasedhiya kanggo umum kanggo mulang model kami supaya migunani.

Kami nglatih model nganggo:

Data publik pilihan, umume diklumpukake saka dataset machine learning standar industri lan web crawl, mirip mesin telusur. Kami ngecualekake sumber sing kita ngerti duwe paywall, utamane nglumpukake informasi identitas pribadi, duwe konten sing nglanggar kabijakan kami, utawa wis milih opt-out.
Data proprietari saka kemitraan data⁠. Kami bermitra kanggo ngakses konten sing ora kasedhiya kanggo umum, kayata arsip lan metadata. Mitra kami wiwit saka perpustakaan video privat gedhe kanggo gambar lan video kanggo nglatih Sora nganti Pamaréntah Islandia⁠ kanggo mbantu nglestarekake basa asline. Kami ora ngupayakake kemitraan berbayar kanggo informasi sing murni kasedhiya kanggo umum.
Umpan balik manungsa saka pelatih AI, red teamer, karyawan, lan pangguna sing setelan kontrol datane ngidini perbaikan model.

Kami ngati-ati kanggo nyuda pangolahan informasi pribadi lan sensitif, lan kami nglatih model supaya ora menehi informasi pribadi utawa sensitif babagan wong. Kami nggunakake sawetara teknik kanggo ngolah data mentah supaya aman digunakake ing pelatihan, lan saya tambah nggunakake model AI kanggo mbantu ngresiki, nyiapake, lan ngasilake data.

Kami ora nglatih nganggo data bisnis pelanggan kami, kalebu data saka ChatGPT Team, ChatGPT Enterprise, utawa API Platform kami. Pangguna ChatGPT Free lan Plus bisa ngontrol apa dheweke nyumbang kanggo perbaikan model ing mangsa ngarep ing setelan⁠(mbukak ing jendhela anyar).

Kami mbangun liwat kemitraan

AI berkembang kanthi cepet, lan kami ngerti yen tujuan kami ora bisa digayuh dhewekan. Kami duwe komitmen kanggo kolaborasi karo kreator lan penerbit, nggawe kemitraan sing padha migunani, ndhukung ekosistem sing sehat, lan njajaki model ekonomi anyar. Kami matur nuwun marang pangguna lan mitra sing wis kerja bareng kami ing topik-topik penting iki.

Penulis

OpenAI