7 મે, 2024

Our approach to data and AI

લોડિંગ…

AI સૌ માટે તકો વધારવું જોઈએ. માહિતીને નવી રીતોથી રૂપાંતરિત કરીને, AI systems અમને સમસ્યાઓ ઉકેલવામાં અને પોતાને વ્યક્ત કરવામાં મદદ કરે છે. આજે, ChatGPT જેવા અમારા AI tools નો ઉપયોગ વિશ્વભરમાં કેન્યા અને ભારતમાં ખેડૂતોને પાકની ઉપજ વધારવામાં મદદ કરવા (Digital Green⁠), સંશોધકોને દવા શોધને ઝડપી બનાવવામાં (Moderna⁠), સરકારોને તેમના કર્મચારીવર્ગને ટેકો આપવા (State of Pennsylvania⁠(નવી વિન્ડોમાં ખૂલે છે)), શિક્ષકોને વિદ્યાર્થીઓના શિક્ષણને આગળ વધારવા⁠, અને દ્રષ્ટિબાધિત લોકોને આપણા વિશ્વમાં માર્ગદર્શન મેળવવામાં મદદ કરવા (Be My Eyes⁠) માટે થઈ રહ્યો છે. DALL·E⁠ અને Sora⁠ (હાલમાં research preview માં) જેવા AI tools સશક્ત બનાવી રહ્યા છે⁠ સર્જકોને ઉદયમાન કલાકારોથી લઈને ફિલ્મમેકર્સ સુધી⁠.

અમારું મિશન સમગ્ર માનવજાતને લાભ પહોંચાડવાનું છે. તેમાં ફક્ત અમારા વપરાશકર્તાઓ જ નહીં, પરંતુ સર્જકો અને પ્રકાશકો પણ સામેલ છે. અમે માનીએ છીએ કે કાનૂની પૂર્વદાખલા અને મજબૂત જાહેર નીતિ શીખવાની પ્રક્રિયાને fair use બનાવે છે, છતાં અમને એવું પણ લાગે છે કે AIના યુગમાં સામગ્રી માટે વ્યાપક રીતે લાભદાયી સામાજિક કરારના વિકાસમાં અમારું યોગદાન આપવું મહત્વપૂર્ણ છે.

અમે માનીએ છીએ કે AI systems એ સર્જકો અને સામગ્રી માલિકોની પસંદગીઓને લાભ આપવો અને માન આપવો જોઈએ. અમે સામગ્રી માલિકોની પસંદગીઓ પ્રતિબિંબિત કરવા માટે અમારી ઉદ્યોગ-અગ્રણી systems ને સતત સુધારી રહ્યા છીએ, અને સર્જકો અને પ્રકાશકો માટે સજીવ ઇકોસિસ્ટમને પ્રોત્સાહન આપતા પ્રોડક્ટ્સ અને business models બનાવવા માટે સમર્પિત છીએ.

અમે વ્યાવસાયિક લેખકો, કલાકારો અથવા પત્રકારો નથી, અને ન તો અમે એ વ્યવસાયોમાં છીએ. અમે આ વ્યવસાયોને વધુ સર્જન અને સિદ્ધિ હાંસલ કરવામાં મદદરૂપ સાધનો બનાવવા પર ધ્યાન કેન્દ્રિત કરીએ છીએ. આ હાંસલ કરવા માટે, અમે આ સમુદાયોના સભ્યોને સાંભળીએ છીએ અને તેમની સાથે નજીકથી કામ કરીએ છીએ, અને અમારા સતત સંવાદોની રાહ જોીએ છીએ. આજે, અમે જ્યાં છીએ અને જ્યાં જઈ રહ્યા છીએ તેના વિશે વધુ શેર કરી રહ્યા છીએ.

અમે AI અંગે સર્જકો અને સામગ્રી માલિકોની પસંદગીઓનો માન રાખીએ છીએ

દાયકાઓ પહેલાં, robots.txt ધોરણ રજૂ કરવામાં આવ્યું હતું અને ઇન્ટરનેટ ઇકોસિસ્ટમ દ્વારા સ્વૈચ્છિક રીતે અપનાવવામાં આવ્યું હતું જેથી વેબ પ્રકાશકો સૂચવી શકે કે વેબસાઇટના કયા ભાગોને web crawlers ઍક્સેસ કરી શકે.

ગયા ઉનાળામાં, OpenAI એ AI માટે web crawler permissions નો આગેવાન ઉપયોગ કર્યો, જેના દ્વારા વેબ પ્રકાશકોને AI માં તેમની સામગ્રીના ઉપયોગ અંગે તેમની પસંદગીઓ વ્યક્ત કરવાની સગવડ મળી. જ્યારે પણ અમે નવું મોડલ ટ્રેન કરીએ છીએ, ત્યારે અમે આ સંકેતોને ધ્યાનમાં લઈએ છીએ.

તે છતાં, અમે સમજીએ છીએ કે આ અધૂરી સમાધાનો છે, કારણ કે ઘણા સર્જકો એવી વેબસાઇટ્સને નિયંત્રિત કરતા નથી જ્યાં તેમની સામગ્રી દેખાઈ શકે, અને સામગ્રી ઘણીવાર ઘણા ડોમેન્સમાં ઉદ્ધૃત, સમીક્ષિત, remix, repost અને પ્રેરણા તરીકે ઉપયોગમાં લેવાય છે. સામગ્રી માલિકો AI systems માં તેમની સામગ્રીના ઉપયોગ અંગે તેમની પસંદગીઓ વ્યક્ત કરી શકે તે માટે અમને કાર્યક્ષમ અને સ્કેલેબલ ઉકેલની જરૂર છે.

અમે Media Manager બનાવી રહ્યા છીએ જેથી સામગ્રી માલિકો AI માં તેમની કૃતિઓ કેવી રીતે વપરાય છે તે સંચાલિત કરી શકે

OpenAI Media Manager વિકસાવી રહ્યું છે, એક એવું સાધન જે સર્જકો અને સામગ્રી માલિકોને અમને જણાવવાની સગવડ આપશે કે તેઓ શું ધરાવે છે અને તેઓ કેવી રીતે ઇચ્છે છે કે તેમના કાર્યોને machine learning research અને training માં સામેલ કરવામાં આવે અથવા બહાર રાખવામાં આવે. સમય જતાં, અમે વધારાના વિકલ્પો અને સુવિધાઓ રજૂ કરવાની યોજના રાખીએ છીએ.

આ માટે અદ્યતન machine learning research જરૂરી રહેશે જેથી પોતાના પ્રકારનું પ્રથમ સાધન બનાવી શકાય, જે અમને અનેક સ્ત્રોતોમાં copyrighted ટેક્સ્ટ, images, audio અને video ઓળખવામાં અને સર્જકોની પસંદગીઓ પ્રતિબિંબિત કરવામાં મદદ કરશે.

અમે Media Manager વિકસાવતાં સર્જકો, સામગ્રી માલિકો અને નિયમનકારો સાથે સહકાર કરી રહ્યા છીએ. 2025 સુધીમાં આ સાધન કાર્યરત થઈ જાય તે અમારું લક્ષ્ય છે, અને અમારી આશા છે કે તે સમગ્ર AI ઉદ્યોગમાં એક ધોરણ નક્કી કરશે.

અમે સજીવ ઇકોસિસ્ટમમાં વપરાશકર્તાઓ, સર્જકો અને પ્રકાશકોને લાભ થાય એવા પ્રોડક્ટ્સ બનાવી રહ્યા છીએ

આજે, આપણે એવી attention economy માં જીવીએ છીએ જે વપરાશકર્તાઓ કરતાં જાહેરાતદાતાઓ માટે અને ગુણવત્તા કરતાં માત્રા માટે રચાઈ છે. અમારી મહત્ત્વાકાંક્ષા AI નો ઉપયોગ કરીને આ બદલવાની છે: સર્જકો અને પ્રકાશકોને સશક્ત બનાવવા અને વપરાશકર્તા અનુભવને સુધારવા માટે.

અમે સતત અમારા પ્રોડક્ટ્સને વધુ ઉપયોગી discovery engines બનાવી રહ્યા છીએ. તાજેતરમાં જ અમે ChatGPT માં source links સુધારી છે⁠(નવી વિન્ડોમાં ખૂલે છે) જેથી વપરાશકર્તાઓને વધુ સારો સંદર્ભ મળે અને વેબ પ્રકાશકોને અમારા પ્રેક્ષકો સાથે જોડાવાના નવા રસ્તાઓ મળે.

અમે ભાગીદારો સાથે પણ કામ કરી રહ્યા છીએ જેથી તેમની સામગ્રી અમારા પ્રોડક્ટ્સમાં દર્શાવી શકાય અને વાચકો સાથે તેમનો સંબંધ વધુ મજબૂત બને. અમે વૈશ્વિક સમાચાર પ્રકાશકો સાથે ભાગીદારીઓ જાહેર કરી છે, Financial Times⁠ થી લઈને Le Monde⁠, Prisa Media⁠, Axel Springer⁠ અને અન્ય ઘણા સાથે, જેથી તેમની સામગ્રી ChatGPT માં દર્શાવી શકાય અને સમાચાર વિષયો પર વપરાશકર્તા અનુભવ સમૃદ્ધ બને. વધુ નવીનતા માર્ગમાં છે. આ સામગ્રીનો ઉપયોગ ChatGPT ને વપરાશકર્તાઓ માટે સંબંધિત પ્રકાશક સામગ્રી વધુ સારી રીતે દેખાડવા અને અમારા newsroom tools સુધારવા માટે ટ્રેન કરવા માટે પણ થઈ શકે છે.

અમારી ભાગીદારીઓ ભાગીદારો અને તેમના વપરાશકર્તાઓ બંનેને લાભ થાય તે રીતે રચાયેલી છે, જેથી અમારા મોડલ્સ તેમના કર્મચારીઓ, ગ્રાહકો અને સમુદાયો માટે વધુ ઉપયોગી બને. શૈક્ષણિક સંસાધનોને આગળ વધારવામાં મદદ કરવા માટે, અમે nonprofit Khan Academy⁠ અને UK સ્થિત ExamSolutions⁠(નવી વિન્ડોમાં ખૂલે છે) સાથે ભાગીદારી કરી હતી જેથી અમારા મોડલના ગણિત પ્રદર્શનને સુધારી શકાય, જે તેમના પ્લેટફોર્મ પર વ્યક્તિગત AI tutoring ની પહોંચ વિસ્તૃત કરવાની તેમની ક્ષમતાને ઝડપી બનાવે છે.

અમારા foundation models અને અમે તેને કેવી રીતે બનાવીએ છીએ તેની સમજ

We design our AI models to be learning machines, not databases

AI મોડલ્સ માહિતીમાં રહેલા સંબંધોમાંથી શીખીને કંઈક નવું બનાવે છે. તેઓ ડેટાબેસની જેમ ડેટા સંગ્રહતા નથી. જ્યારે અમે language models ને ટ્રેન કરીએ છીએ, ત્યારે અમે ટ્રિલિયન શબ્દો લઈએ છીએ અને કમ્પ્યુટરને એવો સમીકરણ શોધવા કહીએ છીએ જે શબ્દો વચ્ચેના સંબંધ અને તેમને ઉત્પન્ન કરનાર મૂળભૂત પ્રક્રિયાને શ્રેષ્ઠ રીતે વર્ણવે. ટ્રેનિંગ પ્રક્રિયા પૂર્ણ થયા પછી, AI મોડલ પાસે ટ્રેનિંગમાં વિશ્લેષિત ડેટાની ઍક્સેસ રહેતી નથી. ChatGPT એવા શિક્ષક જેવું છે જેણે અગાઉના ઘણાં અભ્યાસમાંથી શીખ્યું છે અને કારણ કે તેણે સંકલ્પનાઓ વચ્ચેના સંબંધો શીખ્યા છે તેથી વસ્તુઓ સમજાવી શકે છે, પરંતુ તે સામગ્રી પોતાના મગજમાં સંગ્રહતી નથી.

અમારા મોડલ્સ નવા કન્ટેન્ટ અને વિચારો જનરેટ કરવામાં મદદ કરે તે માટે ડિઝાઇન કરવામાં આવ્યા છે – કન્ટેન્ટને પુનરાવર્તિત કરવા અથવા “ઓકી નાખવા” માટે નહીં. AI મોડલ્સ તથ્યો જણાવી શકે છે, જે જાહેર ક્ષેત્રમાં છે. જો દુર્લભ પ્રસંગોએ કોઈ મોડલ અજાણતા અભિવ્યક્તિસભર કન્ટેન્ટ પુનરાવર્તિત કરે, તો તે machine learning પ્રક્રિયાની નિષ્ફળતા છે. આ નિષ્ફળતા એવા કન્ટેન્ટ સાથે વધુ શક્ય બને છે જે ટ્રેનિંગ datasetsમાં વારંવાર દેખાય છે, જેમ કે ઘણી વાર ઉદ્ધૃત થવાને કારણે અનેક જાહેર વેબસાઇટ્સ પર દેખાતું કન્ટેન્ટ. પુનરાવર્તન અટકાવવા માટે અમે ટ્રેનિંગ દરમિયાન અને output પર, અમારી API અથવા ChatGPT માટે, state-of-the-art તકનીકોનો ઉપયોગ કરીએ છીએ, અને સતત ચાલી રહેલા સંશોધન અને વિકાસ દ્વારા સુધારાઓ કરતા રહીએ છીએ.

We use broad and diverse data to build the best AI for everyone

અમે ઇચ્છીએ છીએ કે અમારા AI મોડલ્સ શક્ય તેટલી વધુ ભાષાઓ, સંસ્કૃતિઓ, વિષયો અને ઉદ્યોગોમાંથી શીખે જેથી તેઓ શક્ય તેટલા વધુ લોકોને લાભ આપી શકે. જેટલા વધુ વિવિધ datasets હશે, મોડલ્સનું જ્ઞાન, સમજ અને ભાષાઓ તેટલી વધુ વિવિધ બનશે – એવા વ્યક્તિની જેમ જેને સાંસ્કૃતિક દૃષ્ટિકોણો અને અનુભવોની વિશાળ શ્રેણીનો પરિચય મળ્યો હોય – અને AI વધુ લોકો અને દેશોની સુરક્ષિત રીતે સેવા આપી શકશે.

foundation models ની દરેક નવી પેઢી નવી dataset પર શરૂઆતથી ટ્રેન કરવામાં આવે છે. અમે સતત અમારી architecture સુધારીએ છીએ અને datasetsનું પ્રમાણ અને વૈવિધ્યતા અમારા અગાઉના મોડલ્સ કરતાં ઘણું વધારે વધારીએ છીએ. AI ક્ષેત્રની મોટી કંપનીઓથી વિપરીત, અમારી પાસે દાયકાઓમાં એકત્રિત થયેલ ડેટાનો મોટો સંગ્રહ નથી. અમારા મોડલ્સને મદદરૂપ બનવું શીખવવા માટે અમે મુખ્યત્વે જાહેરમાં ઉપલબ્ધ માહિતી પર આધાર રાખીએ છીએ.

અમે અમારા મોડલ્સને ટ્રેન કરીએ છીએ:

પસંદ કરાયેલ જાહેરમાં ઉપલબ્ધ ડેટા, જે મોટેભાગે ઉદ્યોગ-ધોરણ machine learning datasets અને search engines જેવી web crawls માંથી એકત્રિત થાય છે. અમે એવા સ્ત્રોતોને બહાર રાખીએ છીએ જે paywalls ધરાવતા હોવા જાણીતા છે, મુખ્યત્વે personally identifiable information એકત્રિત કરે છે, અમારી નીતિઓનું ઉલ્લંઘન કરતી સામગ્રી ધરાવે છે, અથવા opt-out કર્યા છે.
data partnerships⁠ માંથી proprietary ડેટા. અમે archives અને metadata જેવી જાહેરમાં ઉપલબ્ધ ન હોય તેવી સામગ્રી મેળવવા માટે ભાગીદારી કરીએ છીએ. અમારા ભાગીદારોમાં Sora ને ટ્રેન કરવા માટે images અને videos માટેની એક મોટી ખાનગી વિડિયો લાઇબ્રેરીથી લઈને સ્થાનિક ભાષાઓ જાળવવામાં મદદ કરવા માટેની Government of Iceland⁠ સુધીનો સમાવેશ થાય છે. માત્ર જાહેરમાં ઉપલબ્ધ માહિતી માટે અમે paid partnerships કરતા નથી.
AI trainers, red teamers, કર્મચારીઓ અને એવા વપરાશકર્તાઓ પાસેથી માનવીય પ્રતિસાદ જેમની data control settings મોડલ સુધારાઓને મંજૂરી આપે છે.

અમે personal અને sensitive માહિતીની પ્રક્રિયા ઘટાડવા કાળજી રાખીએ છીએ, અને અમારા મોડલ્સને લોકો વિશે ખાનગી અથવા સંવેદનશીલ માહિતી ન આપવી તે માટે ટ્રેન કરીએ છીએ. ટ્રેનિંગમાં સલામત ઉપયોગ માટે raw data પ્રોસેસ કરવા માટે અમે અનેક ટેક્નિક્સનો ઉપયોગ કરીએ છીએ, અને ડેટાને સાફ કરવા, તૈયાર કરવા અને જનરેટ કરવા માટે વધતા પ્રમાણમાં AI મોડલ્સનો ઉપયોગ કરીએ છીએ.

અમે અમારા ગ્રાહકોના business data પર ટ્રેનિંગ આપતા નથી, જેમાં ChatGPT Team, ChatGPT Enterprise, અથવા અમારી API Platformનો ડેટા શામેલ છે. ChatGPT Free અને Plus વપરાશકર્તાઓ તેમની settings⁠(નવી વિન્ડોમાં ખૂલે છે) માં નિયંત્રિત કરી શકે છે કે તેઓ ભવિષ્યના મોડલ સુધારાઓમાં યોગદાન આપે છે કે નહીં.

અમે ભાગીદારીમાં નિર્માણ કરી રહ્યા છીએ

AI ઝડપથી વિકસે છે, અને અમે જાણીએ છીએ કે અમારા લક્ષ્યો એકલા હાંસલ થઈ શકતા નથી. અમે સર્જકો અને પ્રકાશકો સાથે સહકાર આપવા, પરસ્પર લાભદાયી ભાગીદારીઓ બનાવવા, સ્વસ્થ ઇકોસિસ્ટમને ટેકો આપવા અને નવા આર્થિક મોડલ્સ શોધવા માટે પ્રતિબદ્ધ છીએ. આ મહત્વપૂર્ણ વિષયો પર અમારાં સાથે કામ કરવા બદલ અમે અમારા વપરાશકર્તાઓ અને ભાગીદારોનો આભાર માનીએ છીએ.

લેખકો

OpenAI