New AI classifier for indicating AI-written text

2023 წლის 20 ივლისიდან AI კლასიფიკატორი აღარ არის ხელმისაწვდომი მისი დაბალი სიზუსტის გამო. ჩვენ ვმუშაობთ მიღებული უკუკავშირის გათვალისწინებაზე და ამჟამად ვიკვლევთ ტექსტის წარმომავლობის უფრო ეფექტიან ტექნიკებს; ასევე, ავიღეთ ვალდებულება, შევიმუშაოთ და დავნერგოთ მექანიზმები, რომლებიც მომხმარებლებს საშუალებას მისცემს გაიგონ, აუდიო ან ვიზუალური კონტენტი AI-ის მიერ არის თუ არა გენერირებული.
ჩვენ მოვამზადეთ კლასიფიკატორი, რათა განვასხვაოთ ადამიანის მიერ დაწერილი ტექსტი და სხვადასხვა მომწოდებლის AI-ების მიერ დაწერილი ტექსტი. მიუხედავად იმისა, რომ შეუძლებელია AI-ის მიერ დაწერილი ყველა ტექსტის სანდოდ გამოვლენა, გვჯერა, რომ კარგ კლასიფიკატორებს შეუძლიათ ხელი შეუწყონ ისეთი ცრუ მტკიცებების შემცირებას, თითქოს AI-ის მიერ გენერირებული ტექსტი ადამიანმა დაწერა: მაგალითად, ავტომატიზებული დეზინფორმაციული კამპანიების წარმოება, AI ხელსაწყოების გამოყენება აკადემიური არაკეთილსინდისიერებისთვის და AI ჩატბოტის ადამიანად წარმოჩენა.
ჩვენი კლასიფიკატორი სრულად სანდო არ არის. ჩვენი შეფასებების მიხედვით, ინგლისურენოვანი ტექსტების „რთულ ნაკრებზე“ ჩვენი კლასიფიკატორი სწორად ამოიცნობს AI-ის მიერ დაწერილი ტექსტის 26%-ს (true positives) როგორც „სავარაუდოდ AI-ის მიერ დაწერილს“, ხოლო 9% შემთხვევაში შეცდომით აღნიშნავს ადამიანის მიერ დაწერილ ტექსტს, როგორც AI-ის მიერ დაწერილს (false positives). ჩვენი კლასიფიკატორის სანდოობა, როგორც წესი, უმჯობესდება შეყვანილი ტექსტის სიგრძის ზრდასთან ერთად. ჩვენს ადრე გამოქვეყნებულ კლასიფიკატორთან(იხსნება ახალ ფანჯარაში) შედარებით, ეს ახალი კლასიფიკატორი საგრძნობლად უფრო სანდოა უფრო ახალი AI სისტემების ტექსტებზე.
ამ კლასიფიკატორს საჯაროდ ხელმისაწვდომს ვხდით, რათა მივიღოთ უკუკავშირი იმაზე, არის თუ არა ასეთი არასრულყოფილი ხელსაწყოები სასარგებლო. ჩვენი მუშაობა AI-ის მიერ გენერირებული ტექსტის გამოვლენაზე გაგრძელდება და იმედი გვაქვს, მომავალში გავაზიარებთ გაუმჯობესებულ მეთოდებს.
თავად სცადეთ ჩვენი უფასო, ჯერ კიდევ დამუშავების პროცესში მყოფი კლასიფიკატორი:
ჩვენს კლასიფიკატორს რამდენიმე მნიშვნელოვანი შეზღუდვა აქვს. ის არ უნდა გამოიყენებოდეს, როგორც გადაწყვეტილების მიღების ძირითადი ინსტრუმენტი; ის უნდა იყოს ტექსტის წყაროს დადგენის სხვა მეთოდების დამატება.
- კლასიფიკატორი ძალიან არასანდოა მოკლე ტექსტებზე (1,000 სიმბოლოზე ნაკლები). უფრო გრძელი ტექსტებიც ზოგჯერ შეცდომით ინიშნება კლასიფიკატორის მიერ.
- ზოგჯერ ადამიანის მიერ დაწერილი ტექსტი ჩვენი კლასიფიკატორის მიერ შეცდომით, მაგრამ თავდაჯერებულად მოინიშნება, როგორც AI-ის მიერ დაწერილი.
- გირჩევთ, კლასიფიკატორი გამოიყენოთ მხოლოდ ინგლისურ ტექსტზე. სხვა ენებზე ის მნიშვნელოვნად უარესად მუშაობს და კოდზე არასანდოა.
- ძალიან პროგნოზირებადი ტექსტის სანდოდ ამოცნობა შეუძლებელია. მაგალითად, შეუძლებელია იმის პროგნოზირება, პირველი 1,000 მარტივი რიცხვის სია AI-მ დაწერა თუ ადამიანმა, რადგან სწორი პასუხი ყოველთვის ერთნაირია.
- AI-ის მიერ დაწერილი ტექსტი შეიძლება რედაქტირდეს ისე, რომ კლასიფიკატორს თავი აარიდოს. ჩვენი მსგავსი კლასიფიკატორები შეიძლება განახლდეს და თავიდან გაიწვრთნას წარმატებული შეტევების საფუძველზე, მაგრამ გაურკვეველია, აქვს თუ არა გამოვლენას გრძელვადიან პერსპექტივაში უპირატესობა.
- ნეირონულ ქსელებზე დაფუძნებული კლასიფიკატორები ცნობილია იმით, რომ ცუდად არის კალიბრირებული მათი სასწავლო მონაცემების ფარგლებს გარეთ. ისეთი შეყვანებისთვის, რომლებიც ძალიან განსხვავდება ჩვენი სასწავლო ნაკრების ტექსტებისგან, კლასიფიკატორი ზოგჯერ უკიდურესად დარწმუნებულია მცდარ პროგნოზში.
ჩვენი კლასიფიკატორი არის ენობრივი მოდელი, რომელიც დამატებით გაიწვრთნა მონაცემთა ნაკრებზე, რომელიც შედგება იმავე თემაზე ადამიანის მიერ დაწერილი ტექსტისა და AI-ის მიერ დაწერილი ტექსტის წყვილებისგან. ეს მონაცემთა ნაკრები შევაგროვეთ სხვადასხვა წყაროდან, რომლებიც, ჩვენი რწმენით, ადამიანების მიერ არის დაწერილი, მაგალითად, წინასწარი გაწვრთნის მონაცემებიდან და ადამიანური დემონსტრაციებიდან იმ მოთხოვნებზე, რომლებიც InstructGPT-ში იყო გაგზავნილი. თითოეული ტექსტი დავყავით მოთხოვნად და პასუხად. ამ მოთხოვნებზე პასუხები გენერირდა სხვადასხვა ენობრივი მოდელიდან, რომლებიც გაწვრთნილია ჩვენი და სხვა ორგანიზაციების მიერ. ჩვენი ვებაპისთვის თავდაჯერებულობის ზღვარს ისე ვასწორებთ, რომ ცრუ დადებითი შედეგების მაჩვენებელი დაბალი იყოს; სხვა სიტყვებით რომ ვთქვათ, ტექსტს სავარაუდოდ AI-ის მიერ დაწერილად მხოლოდ მაშინ აღვნიშნავთ, როცა კლასიფიკატორი ძალიან დარწმუნებულია.
გვესმის, რომ AI-ის მიერ დაწერილი ტექსტის იდენტიფიცირება პედაგოგებს შორის მნიშვნელოვანი განხილვის თემა გახდა, და არანაკლებ მნიშვნელოვანია იმის აღიარებაც, რა შეზღუდვები და გავლენა აქვს AI-ის მიერ გენერირებული ტექსტის კლასიფიკატორებს საკლასო გარემოში. ჩვენ შევიმუშავეთ წინასწარი რესურსი(იხსნება ახალ ფანჯარაში) პედაგოგებისთვის ChatGPT‑ის გამოყენების შესახებ, რომელშიც აღწერილია ზოგიერთი გამოყენების შემთხვევა, ასევე დაკავშირებული შეზღუდვები და გასათვალისწინებელი საკითხები. მიუხედავად იმისა, რომ ეს რესურსი პედაგოგებზეა ორიენტირებული, ველით, რომ ჩვენს კლასიფიკატორსა და მასთან დაკავშირებულ კლასიფიკატორის ხელსაწყოებს გავლენა ექნება ჟურნალისტებზე, დეზ/მisinფორმაციის მკვლევრებზე და სხვა ჯგუფებზე.
ჩვენ ვურთიერთობთ ამერიკის შეერთებულ შტატებში მყოფ პედაგოგებთან, რათა გავიგოთ, რას ხედავენ ისინი თავიანთ კლასებში, და განვიხილოთ ChatGPT‑ის შესაძლებლობები და შეზღუდვები; სწავლის პარალელურად გავაგრძელებთ ამ ჩართულობის გაფართოებას. ასეთი საუბრები მნიშვნელოვანია, რადგან ჩვენი მისიის ნაწილია დიდი ენობრივი მოდელების უსაფრთხოდ დანერგვა იმ საზოგადოებებთან უშუალო კონტაქტში, რომლებზეც ეს გავლენას ახდენს.
თუ ეს საკითხები თქვენზე პირდაპირ მოქმედებს (მათ შორის, მაგრამ არა მხოლოდ, თუ ხართ მასწავლებელი, ადმინისტრატორი, მშობელი, სტუდენტი ან საგანმანათლებლო სერვისის მიმწოდებელი), გთხოვთ, გაგვიზიაროთ თქვენი უკუკავშირი ამ ფორმის(იხსნება ახალ ფანჯარაში) გამოყენებით. პირდაპირი უკუკავშირი წინასწარ რესურსზე(იხსნება ახალ ფანჯარაში) სასარგებლოა, ასევე მივესალმებით ნებისმიერ რესურსს, რომელსაც პედაგოგები ავითარებენ ან სასარგებლოდ მიიჩნევენ (მაგ., კურსის სახელმძღვანელო მითითებები, ღირსების კოდექსისა და პოლიტიკის განახლებები, ინტერაქტიული ხელსაწყოები, AI წიგნიერების პროგრამები).
ავტორები
მონაწილეები
Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry


