Особливості розробки ChatGPT й базових моделей
У цій статті ви можете дізнатися більше про те, як ми розробляємо моделі й застосовуємо їх у продуктах на кшталт ChatGPT
Для розробки базових моделей OpenAI, зокрема тих, які забезпечують роботу ChatGPT, використовуються три основні джерела інформації: (1) загальнодоступна інформація в інтернеті, (2) інформація, яку ми отримуємо від сторонніх осіб у межах партнерських домовленостей, та (3) інформація, котру надають чи генерують наші користувачі або наші інструктори й дослідники.
У цій статті йдеться про загальнодоступну інформацію, яку ми використовуємо для розробки цих моделей, а також про порядок її збирання та використання відповідно до вимог законодавства про конфіденційність. Про порядок збирання інформації від користувачів наших сервісів та її використання, зокрема про те, як відмовитися від використання бесід ChatGPT у навчанні моделей, ви можете дізнатися в нашій Політиці конфіденційності та цій статті.
ChatGPT — це сервіс на базі штучного інтелекту, з яким можна працювати в інтернеті. ChatGPT можна використовувати в різних цілях: наприклад, з його допомогою можна впорядковувати чи узагальнювати інформацію, перекладати тексти, аналізувати чи створювати зображення, надихатися на творчість і генерувати ідеї, а також виконувати повсякденні завдання. ChatGPT розроблено так, щоб він розумів запитання та інструкції користувачів і відповідав на них. Для цього він аналізує великий обсяг наявної інформації, як-от текстів, зображень, аудіо чи відео, і навчається внаслідок взаємодії з нею. Наприклад, модель вивчає, яким чином певні слова зазвичай вживаються в контексті разом з іншими словами, а потім на основі зібраних даних передбачає наступне найімовірніше слово, яке може з’явитись у відповідь на запит користувача, і кожне наступне слово після цього. Ці моделі також можуть навчатися генерувати інші форми інформації, наприклад зображення, вивчаючи те, як пікселі, з яких складаються зображення в навчальних даних, пов’язані між собою та з підписами, що їх описують.
Наприклад, у процесі тренування моделі (яке називають «навчанням») модель за нашими інструкціями намагається завершити таке речення: «Замість того щоб повернути ліворуч, вона повернула ___». До навчання модель вставляє випадкові слова, але після прочитання та вивчення багатьох рядків тексту вона краще розуміє речення цього типу й може точніше передбачити наступне слово. Потім цей процес повторюється на дуже великій кількості речень.
Оскільки це речення може бути продовжено різними словами (наприклад, замість того щоб повернути ліворуч, вона повернула «праворуч» або «назад»), у відповідях існує елемент випадковості, і в багатьох випадках моделі відповідають на те саме запитання по-різному.
Моделі машинного навчання складаються з великих рядів чисел — так званих «вагових коефіцієнтів» або «параметрів» — і коду, який інтерпретує та виконує ці числа. Моделі не містять і не зберігають інформацію, на якій вони навчаються. Натомість із перебігом навчання деякі числа, які містить модель, дещо змінюються з урахуванням того, чого вона навчилася. У наведеному вище прикладі модель аналізувала інформацію, яка допомогла їй перейти від передбачення випадкових хибних слів до передбачення точніших слів, але насправді в самій моделі лише трохи змінилися числа. Модель не зберігала й не копіювала проаналізовані речення, зображення або аудіозаписи.
Як уже зазначалося, розробка ChatGPT й наших інших сервісів відбувається на основі таких даних: (1) загальнодоступна інформація в інтернеті, (2) інформація, яку ми отримуємо від сторонніх осіб у межах партнерських домовленостей, та (3) інформація, котру надають чи генерують наші користувачі або інструктори й дослідники. Ця стаття присвячена першому пункту переліку — загальнодоступній інформації в мережі інтернет.
У цьому наборі ми використовуємо лише загальнодоступну інформацію, яка є у вільному й відкритому доступі в інтернеті. Наприклад, ми не шукаємо інформацію, яка, за нашими даними, перебуває в платному доступі або в «темній мережі». Ми застосовуємо фільтри й вилучаємо інформацію, яку наші моделі не повинні вивчати або видавати, наприклад мову ненависті, вміст для дорослих, сайти, які переважно збирають персональну інформацію, і спам. Потім ми використовуємо інформацію для навчання моделей.
Велика кількість даних у мережі інтернет стосується людей, тому до складу навчальної інформації подеколи потрапляє персональна інформація. Але ми не шукаємо персональну інформацію цілеспрямовано для навчання наших моделей.
Ми використовуємо навчальну інформацію лише для того, щоб навчити наші моделі інтелектуальним навичкам, наприклад здатності передбачати, аргументувати й розв’язувати проблеми. Ми не використовуємо й не використовуватимемо персональну інформацію в складі навчальної інформації, щоб створювати профілі людей, зв’язуватися з ними, рекламувати, намагатися їм продати щось або продавати саму інформацію.
На основі персональної інформації моделі можуть повчитися та зрозуміти, як такі фрази, як імена й адреси, вписуються в мовлення та речення, або дізнатися про відомих людей і громадських діячів. Завдяки цьому наші моделі можуть краще надавати релевантні відповіді.
Ми також вживаємо заходів для зменшення обсягів обробки персональної інформації під час навчання моделей. Наприклад, ми вилучаємо вебсайти, які збирають великі обсяги персональної інформації, і вчимо моделі відхиляти запити на особисту або конфіденційну інформацію про людей.
Ми використовуємо навчальну інформацію на законних підставах. Наші базові моделі застосовуються в багатьох сферах, надають значні переваги й уже допомагають людям створювати контент, підвищувати якість обслуговування клієнтів, розробляти програмне забезпечення, пристосовувати освітній процес до індивідуальних потреб, підтримувати наукові дослідження тощо. Ці переваги неможливо реалізувати без великої кількості інформації для навчання моделей. У процесі використання навчальної інформації ми не ставимо собі за мету негативно вплинути на життя окремих осіб, і до того ж, основні джерела цієї навчальної інформації вже є загальнодоступними. З урахуванням цього ми збираємо й використовуємо персональну інформацію, яку містить навчальна інформація, на законних підставах, передбачених законодавством про конфіденційність, наприклад Загальним регламентом ЄС щодо захисту персональних даних (GDPR), про що докладніше йдеться в нашій Політиці конфіденційності. Ми також провели оцінку наслідків у сфері захисту даних, щоб збирання та використання цієї інформації відбувалося на законних підставах і відповідально.
Ми відповідаємо на заперечення та звернення щодо реалізації подібних прав. Відповіді ChatGPT іноді можуть містити персональну інформацію про осіб, яка неодноразово з’являється в загальному доступі в інтернеті (наприклад, про публічних осіб), тому що ChatGPT використовує її, коли вивчає мову. Фізичні особи в певних юрисдикціях можуть подати заперечення проти обробки їхньої персональної інформації моделями або інші запити щодо прав суб’єктів даних через наш Портал конфіденційності(відкривається у новому вікні). Також можна реалізувати ці права, звернувшись за адресою dsar@openai.com.
Просимо враховувати, що згідно із законодавством про конфіденційність деякі права можуть бути не абсолютними. Ми можемо відхилити запит, якщо в нас є для цього законні підстави. Проте в першу чергу ми прагнемо захищати персональну інформацію та дотримуватися всіх вимог чинного законодавства про конфіденційність. Якщо ви вважаєте, що ми не розглянули певну проблему належним чином, ви маєте право подати скаргу до місцевого наглядового органу.
Докладнішу інформацію про практику поводження OpenAI з персональною інформацією, яку ми отримуємо від вас або про вас у процесі використання вами нашого вебсайту, додатків і сервісів, ви можете знайти в нашій Політиці конфіденційності.