7 მაისი, 2024

Our approach to data and AI

იტვირთება…

AI-მ შესაძლებლობები ყველასთვის უნდა გააფართოოს. ინფორმაციის ახალი გზებით გარდაქმნით, AI სისტემები პრობლემების გადაჭრასა და საკუთარი თავის გამოხატვაში გვეხმარება. დღეს ჩვენი AI ხელსაწყოები, როგორიცაა ChatGPT, მსოფლიოს მასშტაბით გამოიყენება, რათა დაეხმაროს ფერმერებს კენიასა და ინდოეთში მოსავლიანობის გაზრდაში (Digital Green⁠), მკვლევრებს — წამლების აღმოჩენის დაჩქარებაში (Moderna⁠), მთავრობებს — მათი სამუშაო ძალის მხარდაჭერაში (პენსილვანიის შტატი⁠(იხსნება ახალ ფანჯარაში)), პედაგოგებს — წინ წასწიონ⁠ სტუდენტების სწავლა, და მხედველობის დარღვევის მქონე ადამიანებს — ჩვენს სამყაროში ორიენტაციაში (Be My Eyes⁠). AI ხელსაწყოები, როგორიცაა DALL·E⁠ და Sora⁠ (ამჟამად კვლევითი წინასწარი ვერსიის რეჟიმში), აძლიერებს⁠ კრეატორებს — დამწყები არტისტებიდან კინორეჟისორებამდე⁠.

ჩვენი მისიაა მთელი კაცობრიობის სასარგებლოდ ვიმოქმედოთ. ეს მოიცავს არა მხოლოდ ჩვენს მომხმარებლებს, არამედ შემქმნელებსა და გამომცემლებსაც. მიუხედავად იმისა, რომ გვჯერა, იურიდიული პრეცედენტები და გონივრული საჯარო პოლიტიკა სწავლას სამართლიან გამოყენებად მიიჩნევს, ასევე ვფიქრობთ, რომ მნიშვნელოვანია, წვლილი შევიტანოთ AI ეპოქაში კონტენტისთვის ფართოდ სასარგებლო სოციალური შეთანხმების ჩამოყალიბებაში.

გვჯერა, რომ AI სისტემებმა სარგებელი უნდა მოუტანოს და პატივი სცეს შემქმნელებისა და კონტენტის მფლობელების არჩევანს. ჩვენ მუდმივად ვაუმჯობესებთ ჩვენს ინდუსტრიაში წამყვან სისტემებს, რათა ასახოს კონტენტის მფლობელების პრეფერენციები, და ერთგული ვართ ისეთი პროდუქტებისა და ბიზნეს-მოდელების შექმნის, რომლებიც შემქმნელებისა და გამომცემლებისთვის ძლიერ ეკოსისტემებს კვებავს.

ჩვენ არ ვართ პროფესიონალი მწერლები, არტისტები ან ჟურნალისტები და არც ამ სფეროებში ვსაქმიანობთ. ჩვენი ფოკუსია ისეთი ხელსაწყოების შექმნაზე, რომლებიც ამ პროფესიებს მეტის შექმნასა და მიღწევაში დაეხმარება. ამისათვის ჩვენ ვუსმენთ ამ საზოგადოებების წევრებს, მათთან ახლო თანამშრომლობით ვმუშაობთ და მოუთმენლად ველით დიალოგის გაგრძელებას. დღეს უფრო მეტს ვაზიარებთ იმაზე, სად ვართ ახლა და საით მივდივართ.

ჩვენ პატივს ვცემთ შემქმნელებისა და კონტენტის მფლობელების არჩევანს AI-ზე

ათწლეულების წინ შემოიღეს robots.txt სტანდარტი, რომელიც ინტერნეტ ეკოსისტემამ ნებაყოფლობით მიიღო, რათა ვებ-გამომცემლებს ეჩვენებინათ, ვებსაიტების რომელი ნაწილებზე შეეძლოთ ვებ-ქროულერებს წვდომა.

გასულ ზაფხულს OpenAI გახდა AI-სთვის ვებ-ქროულერის ნებართვების გამოყენების პიონერი, რითაც ვებ-გამომცემლებს მისცა საშუალება, AI-ში თავიანთი კონტენტის გამოყენების შესახებ საკუთარი პრეფერენციები გამოეხატათ. ჩვენ ამ სიგნალებს ვითვალისწინებთ ყოველ ჯერზე, როცა ახალ მოდელს ვწვრთნით.

ამის მიუხედავად, გვესმის, რომ ეს არასრული გადაწყვეტილებებია, რადგან ბევრი შემქმნელი არ აკონტროლებს იმ ვებსაიტებს, სადაც მათი კონტენტი შეიძლება გამოჩნდეს, ხოლო კონტენტი ხშირად ციტირდება, განიხილება, რემიქსდება, ხელახლა ქვეყნდება და მრავალ დომენზე შთაგონების წყაროდ გამოიყენება. ჩვენ გვჭირდება ეფექტიანი, მასშტაბირებადი გადაწყვეტა, რათა კონტენტის მფლობელებმა AI სისტემებში თავიანთი კონტენტის გამოყენების შესახებ პრეფერენციები გამოხატონ.

ვქმნით Media Manager-ს, რათა კონტენტის მფლობელებმა მართონ, როგორ გამოიყენება მათი ნამუშევრები AI-ში

OpenAI ავითარებს Media Manager-ს, ხელსაწყოს, რომელიც შემქმნელებსა და კონტენტის მფლობელებს საშუალებას მისცემს გვითხრან, რას ფლობენ, და მიუთითონ, როგორ სურთ მათი ნამუშევრების ჩართვა ან გამორიცხვა მანქანური სწავლების კვლევასა და გაწვრთნაში. დროთა განმავლობაში ვგეგმავთ დამატებითი არჩევანებისა და ფუნქციების დანერგვას.

ამისთვის საჭირო იქნება მოწინავე მანქანური სწავლების კვლევა, რათა ავაშენოთ ამ ტიპის პირველი ხელსაწყო, რომელიც დაგვეხმარება სხვადასხვა წყაროში საავტორო უფლებებით დაცული ტექსტის, გამოსახულებების, აუდიოსა და ვიდეოს იდენტიფიცირებაში და შემქმნელების პრეფერენციების ასახვაში.

Media Manager-ის განვითარებისას ჩვენ ვთანამშრომლობთ შემქმნელებთან, კონტენტის მფლობელებთან და რეგულატორებთან. ჩვენი მიზანია, ეს ხელსაწყო 2025 წლისთვის მზად იყოს და ვიმედოვნებთ, რომ ის AI ინდუსტრიაში სტანდარტს დააწესებს.

ვქმნით პროდუქტებს, რომლებიც სასარგებლოა მომხმარებლებისთვის, შემქმნელებისთვის და გამომცემლებისთვის ძლიერ ეკოსისტემაში

დღეს ჩვენ ვცხოვრობთ ყურადღების ეკონომიკაში, რომელიც მომხმარებლებზე მეტად რეკლამის განმთავსებლებისთვისაა აგებული და ხარისხზე მეტად რაოდენობას ანიჭებს უპირატესობას. ჩვენი ამბიციაა, AI გამოვიყენოთ ამის შესაცვლელად: გავაძლიეროთ შემქმნელები და გამომცემლები და გავაუმჯობესოთ მომხმარებლის გამოცდილება.

ჩვენ მუდმივად ვაქცევთ ჩვენს პროდუქტებს უფრო სასარგებლო აღმოჩენის ძრავებად. ახლახან გავაუმჯობესეთ წყაროს ბმულები ChatGPT‑ში⁠(იხსნება ახალ ფანჯარაში), რათა მომხმარებლებს უკეთესი კონტექსტი მივცეთ და ვებ-გამომცემლებს ახალი გზები შევთავაზოთ ჩვენს აუდიტორიასთან დასაკავშირებლად.

ჩვენ ასევე ვმუშაობთ პარტნიორებთან, რათა ჩვენს პროდუქტებში მათი კონტენტი ვაჩვენოთ და მკითხველებთან მათი კავშირი გავზარდოთ. გამოვაცხადეთ პარტნიორობა გლობალურ საინფორმაციო გამომცემლებთან — Financial Times⁠-იდან Le Monde⁠-მდე, Prisa Media⁠, Axel Springer⁠ და სხვებთან, რათა მათი კონტენტი ChatGPT‑ში გამოჩნდეს და სიახლეების თემებზე მომხმარებლის გამოცდილება გამდიდრდეს. წინ კიდევ მეტი ინოვაციაა. ეს კონტენტი შესაძლოა ასევე გამოყენებულ იქნეს ChatGPT‑ის გასაწვრთნელად, რათა მან მომხმარებლებს უკეთ წარმოაჩინოს შესაბამისი გამომცემლის კონტენტი და გააუმჯობესოს ჩვენი ინსტრუმენტები რედაქციებისთვის.

ჩვენი პარტნიორობები ისეა შექმნილი, რომ სარგებელი მოუტანოს პარტნიორებსა და მათ მომხმარებლებს, და ჩვენი მოდელები უფრო სასარგებლო გახადოს მათი თანამშრომლებისთვის, კლიენტებისთვის და საზოგადოებებისთვის. საგანმანათლებლო რესურსების განვითარებაში დასახმარებლად, ჩვენ ვიპარტნიორეთ არაკომერციულ ორგანიზაციებთან Khan Academy⁠ და გაერთიანებულ სამეფოში დაფუძნებულ ExamSolutions⁠(იხსნება ახალ ფანჯარაში)-თან, რათა გაგვეუმჯობესებინა ჩვენი მოდელის მათემატიკური შედეგიანობა, რაც მათ პლატფორმაზე პერსონალიზებულ AI-ტუტორინგზე წვდომის გაფართოების უნარს აჩქარებს.

ჩვენი საბაზისო მოდელების და მათი შექმნის პროცესის გაგება

We design our AI models to be learning machines, not databases

AI მოდელები ინფორმაციაში არსებულ კავშირებზე სწავლობენ, რათა რაღაც ახალი შექმნან; ისინი მონაცემებს მონაცემთა ბაზასავით არ ინახავენ. როდესაც ენობრივ მოდელებს ვწვრთნით, ვიღებთ ტრილიონობით სიტყვას და კომპიუტერს ვთხოვთ, შექმნას განტოლება, რომელიც საუკეთესოდ აღწერს სიტყვებს შორის ურთიერთობას და მათ წარმოშობის საფუძველში მყოფ პროცესს. გაწვრთნის პროცესის დასრულების შემდეგ AI მოდელი გაწვრთნაში გაანალიზებულ მონაცემებზე წვდომას აღარ ინარჩუნებს. ChatGPT ჰგავს მასწავლებელს, რომელმაც ბევრი წინასწარი სწავლით შეიძინა ცოდნა და შეუძლია რაღაცების ახსნა, რადგან ცნებებს შორის კავშირები ისწავლა, მაგრამ მასალებს თავში არ ინახავს.

ჩვენი მოდელები შექმნილია იმისთვის, რომ დაგვეხმაროს ახალი კონტენტისა და იდეების გენერირებაში — და არა კონტენტის გამეორებაში ან „ამონთხევაში“. AI მოდელებს შეუძლიათ ფაქტების თქმა, რომლებიც საჯარო დომენშია. თუ იშვიათ შემთხვევებში მოდელი უნებლიეთ იმეორებს გამოხატულებით კონტენტს, ეს მანქანური სწავლების პროცესის მარცხია. ასეთი მარცხი უფრო მოსალოდნელია იმ კონტენტთან, რომელიც ხშირად გვხვდება სასწავლო მონაცემთა ნაკრებებში, მაგალითად, კონტენტი, რომელიც მრავალ სხვადასხვა საჯარო ვებსაიტზე ჩანს ხშირი ციტირების გამო. ჩვენ გაწვრთნის მთელ პროცესში და შედეგის გაცემისას, ჩვენი API-სთვის ან ChatGPT‑ისთვის, ვიყენებთ უახლეს ტექნიკებს გამეორების თავიდან ასაცილებლად და მიმდინარე კვლევისა და განვითარების დახმარებით მუდმივად ვაუმჯობესებთ სისტემებს.

We use broad and diverse data to build the best AI for everyone

გვინდა, რომ ჩვენმა AI მოდელებმა ისწავლონ რაც შეიძლება მეტი ენიდან, კულტურიდან, თემიდან და ინდუსტრიიდან, რათა რაც შეიძლება მეტ ადამიანს მოუტანონ სარგებელი. რაც უფრო მრავალფეროვანია მონაცემთა ნაკრებები, მით უფრო მრავალფეროვანი ხდება მოდელების ცოდნა, გაგება და ენები — როგორც ადამიანი, რომელსაც მრავალ კულტურულ პერსპექტივასა და გამოცდილებასთან ჰქონდა შეხება — და მით მეტ ადამიანს და ქვეყანას შეუძლია AI-მ უსაფრთხოდ მოემსახუროს.

საბაზისო მოდელების ყოველი ახალი თაობა თავიდანვე იწვრთნება ახალ მონაცემთა ნაკრებზე. ჩვენ მუდმივად ვაუმჯობესებთ ჩვენს არქიტექტურას და ჩვენი მონაცემთა ნაკრებების მასშტაბსა და მრავალფეროვნებას მნიშვნელოვნად ვზრდით წინა მოდელებთან შედარებით. AI სფეროში უფრო დიდი კომპანიებისგან განსხვავებით, ჩვენ არ გვაქვს ათწლეულების განმავლობაში შეგროვებული მონაცემების დიდი კორპუსი. ჩვენი მოდელების გამოსადეგობის სასწავლებლად ძირითადად საჯაროდ ხელმისაწვდომ ინფორმაციას ვეყრდნობით.

ჩვენ ჩვენს მოდელებს ვწვრთნით შემდეგით:

შერჩეული საჯაროდ ხელმისაწვდომი მონაცემები, რომლებიც უმეტესად შეგროვებულია ინდუსტრიის სტანდარტულ მანქანური სწავლების მონაცემთა ნაკრებებიდან და ვებ-ქროულებიდან, საძიებო სისტემების მსგავსად. ჩვენ გამოვრიცხავთ წყაროებს, რომლებიც, როგორც ვიცით, paywall-ს იყენებს, ძირითადად პირად საიდენტიფიკაციო ინფორმაციას აგრეგირებს, შეიცავს კონტენტს, რომელიც ჩვენს პოლიტიკებს არღვევს, ან უარი აქვს ნათქვამი გამოყენებაზე.
საკუთრების მონაცემები მონაცემთა პარტნიორობებიდან⁠. ჩვენ ვპარტნიორობთ, რათა მივიღოთ წვდომა საჯაროდ არა ხელმისაწვდომ კონტენტზე, როგორიცაა არქივები და მეტამონაცემები. ჩვენი პარტნიორები მერყეობს გამოსახულებებისა და ვიდეოებისთვის დიდი კერძო ვიდეობიბლიოთეკიდან, რათა Sora გავწვრთნათ, დაწყებული ისლანდიის მთავრობით⁠ დამთავრებული, რათა მათ მშობლიური ენების შენარჩუნებაში დავეხმაროთ. ჩვენ არ ვეძებთ ანაზღაურებად პარტნიორობებს მხოლოდ საჯაროდ ხელმისაწვდომი ინფორმაციისთვის.
ადამიანური უკუკავშირი AI ტრენერებისგან, red teamer-ებისგან, თანამშრომლებისგან და მომხმარებლებისგან, რომელთა მონაცემთა კონტროლის პარამეტრები მოდელის გაუმჯობესებას იძლევა.

ჩვენ ზრუნვას ვიჩენთ, რათა შევამციროთ პირადი და მგრძნობიარე ინფორმაციის დამუშავება, და ჩვენს მოდელებს ვწვრთნით ისე, რომ ადამიანების შესახებ პირადი ან მგრძნობიარე ინფორმაცია არ გასცენ. გაწვრთნაში უსაფრთხო გამოყენებისთვის ნედლი მონაცემების დასამუშავებლად ვიყენებთ მრავალ ტექნიკას და სულ უფრო მეტად ვიყენებთ AI მოდელებს, რათა მონაცემები გავწმინდოთ, მოვამზადოთ და შევქმნათ.

ჩვენ არ ვწვრთნით ჩვენი კლიენტების ბიზნეს-მონაცემებზე, მათ შორის ChatGPT Team-ის, ChatGPT Enterprise-ის ან ჩვენი API Platform-ის მონაცემებზე. ChatGPT Free და Plus-ის მომხმარებლებს შეუძლიათ თავიანთ პარამეტრებში⁠(იხსნება ახალ ფანჯარაში) აკონტროლონ, შეიტანენ თუ არა წვლილს მოდელის მომავალ გაუმჯობესებებში.

ჩვენ პარტნიორობით ვაშენებთ

AI სწრაფად ვითარდება და ვიცით, რომ ჩვენი მიზნების მიღწევა მარტო შეუძლებელია. ჩვენ ერთგული ვართ შემქმნელებთან და გამომცემლებთან თანამშრომლობის, ორმხრივად სასარგებლო პარტნიორობების შექმნის, ჯანსაღი ეკოსისტემების მხარდაჭერისა და ახალი ეკონომიკური მოდელების შესწავლის. მადლობას ვუხდით ჩვენს მომხმარებლებსა და პარტნიორებს, რომ ჩვენთან ერთად მუშაობენ ამ მნიშვნელოვან საკითხებზე.

ავტორები

OpenAI