New AI classifier for indicating AI-written text

2023 жылғы 20 шілдеден бастап, дәлдік деңгейі төмен болғандықтан, ЖИ классификаторы енді қолжетімсіз. Біз пікірлерді ескеріп, қазір мәтіннің шығу тегін анықтаудың тиімдірек тәсілдерін зерттеп жатырмыз, сондай-ақ пайдаланушыларға аудио немесе визуалды контенттің ЖИ арқылы жасалғанын түсінуге мүмкіндік беретін тетіктерді әзірлеп, енгізуге міндеттеме алдық.
Біз әртүрлі провайдерлердің ЖИ-лері жазған мәтін мен адам жазған мәтінді ажырататын классификаторды үйреттік. ЖИ жазған барлық мәтінді сенімді түрде анықтау мүмкін болмаса да, жақсы классификаторлар ЖИ жасаған мәтін адам жазған деген жалған мәлімдемелердің салдарын азайтуға көмектесе алады деп сенеміз: мысалы, автоматтандырылған жалған ақпарат науқандарын жүргізу, академиялық адалсыздық үшін ЖИ құралдарын пайдалану және ЖИ чатботын адам ретінде көрсету.
Біздің классификатор толық сенімді емес. Ағылшын тіліндегі мәтіндердің «күрделі жиынтығына» жүргізген бағалауымызда классификаторымыз ЖИ жазған мәтіннің 26%-ын (true positives) «ЖИ жазған болуы ықтимал» деп дұрыс анықтайды, ал адам жазған мәтінді 9% жағдайда қате түрде ЖИ жазған деп белгілейді (false positives). Әдетте енгізілетін мәтін ұзындаған сайын классификатордың сенімділігі артады. Біздің бұрын жарияланған классификатормен(жаңа терезеде ашылады) салыстырғанда, бұл жаңа классификатор анағұрлым жаңа ЖИ жүйелерінің мәтіндерінде айтарлықтай сенімдірек.
Мұндай жетілмеген құралдардың пайдалы-пайдасыз екенін білу үшін бұл классификаторды көпшілікке қолжетімді етіп отырмыз. ЖИ жасаған мәтінді анықтау жөніндегі жұмысымыз жалғасады, әрі болашақта жақсартылған әдістермен бөлісеміз деп үміттенеміз.
Жетілдірілу үстіндегі тегін классификаторымызды өзіңіз байқап көріңіз:
Біздің классификатордың бірқатар маңызды шектеулері бар. Оны негізгі шешім қабылдау құралы ретінде қолданбау керек, керісінше мәтіннің қайдан шыққанын анықтаудың басқа әдістерін толықтыратын құрал ретінде пайдалану қажет.
- Классификатор қысқа мәтіндерде (1 000 таңбадан аз) өте сенімсіз. Тіпті ұзынырақ мәтіндердің өзі кейде қате белгіленеді.
- Кейде адам жазған мәтін біздің классификатор тарапынан қате, бірақ жоғары сеніммен ЖИ жазған деп белгіленуі мүмкін.
- Классификаторды тек ағылшын тіліндегі мәтін үшін қолдануды ұсынамыз. Басқа тілдерде ол едәуір нашар жұмыс істейді және кодта сенімсіз.
- Өте болжамды мәтінді сенімді түрде анықтау мүмкін емес. Мысалы, алғашқы 1 000 жай санның тізімін ЖИ жазды ма, әлде адам ба — мұны болжау мүмкін емес, себебі дұрыс жауап әрдайым бірдей.
- ЖИ жазған мәтінді классификатордан айналып өту үшін өңдеуге болады. Біздің сияқты классификаторларды сәтті шабуылдарға сүйеніп жаңартып, қайта үйретуге болады, бірақ ұзақ мерзімде анықтаудың артықшылығы бар-жоғы анық емес.
- Нейрондық желілерге негізделген классификаторлардың өздерінің үйрету деректерінен тыс жерде нашар калибрленетіні белгілі. Біздің үйрету жиынтығындағы мәтіннен қатты ерекшеленетін кірістер үшін классификатор кейде қате болжамға тым жоғары сенім білдіреді.
Біздің классификатор — бір тақырыптағы адам жазған мәтін мен ЖИ жазған мәтін жұптарынан тұратын деректер жиынтығында қосымша үйретілген тілдік модель. Бұл деректер жиынтығын біз адам жазды деп санайтын түрлі көздерден жинадық, мысалы, алдын ала үйрету деректері мен InstructGPT жүйесіне жіберілген көмексөздер бойынша жасалған адам демонстрацияларынан. Біз әр мәтінді көмексөзге және жауапқа бөлдік. Осы көмексөздер бойынша өзіміз және басқа ұйымдар үйреткен әртүрлі тілдік модельдерден жауаптар жасадық. Веб-қосымшамыз үшін жалған оң нәтижелер деңгейі төмен болуы үшін сенім шегін реттейміз; басқаша айтқанда, классификатор өте сенімді болғанда ғана мәтінді ЖИ жазған болуы ықтимал деп белгілейміз.
ЖИ жазған мәтінді анықтау педагогтер арасында маңызды талқылау тақырыбы болғанын түсінеміз, сондай-ақ сыныпта ЖИ жасаған мәтінді анықтайтын классификаторлардың шектеулері мен әсерін түсіну де соншалық маңызды. Біз педагогтерге арналған ChatGPT пайдалану жөнінде кейбір қолдану жолдарын, сондай-ақ соған байланысты шектеулер мен ескерілетін жайттарды сипаттайтын алдын ала ресурсты(жаңа терезеде ашылады) әзірледік. Бұл ресурс педагогтерге бағытталғанымен, классификаторымыз бен соған қатысты классификатор құралдары журналистерге, жалған/жаңсақ ақпаратты зерттеушілерге және өзге де топтарға әсер етеді деп күтеміз.
АҚШ-тағы педагогтермен олардың сыныптарында не болып жатқанын білу және ChatGPT мүмкіндіктері мен шектеулерін талқылау үшін жұмыс істеп жатырмыз, әрі көбірек білген сайын қамту ауқымын кеңейтуді жалғастырамыз. Үлкен тілдік модельдерді зардап шегуі мүмкін қауымдастықтармен тікелей байланыста қауіпсіз енгізу — миссиямыздың бір бөлігі болғандықтан, бұл маңызды әңгімелер.
Егер бұл мәселелер сізге тікелей әсер етсе (соның ішінде мұғалімдер, әкімшілер, ата-аналар, оқушылар және білім беру қызметін ұсынушылар, бірақ бұлармен шектелмейді), бізге пікіріңізді осы форма(жаңа терезеде ашылады) арқылы жіберіңіз. Алдын ала ресурс(жаңа терезеде ашылады) бойынша тікелей пікір өте пайдалы, сондай-ақ педагогтер әзірлеп жатқан немесе пайдалы деп тапқан кез келген ресурстарды да құптаймыз (мысалы, курс нұсқаулықтары, ар-намыс кодексі мен саясат жаңартулары, интерактивті құралдар, ЖИ сауаттылығы бағдарламалары).
Авторлар
Үлес қосушылар
Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry


