გადადით მთავარ შინაარსზე
OpenAI

ღია წონების მქონე LLM-ების უკიდურესი მოწინავე რისკების შეფასება

აბსტრაქტი

ამ ნაშრომში ჩვენ ვიკვლევთ gpt-oss-ის გამოშვების უკიდურეს შემთხვევებში წარმოშობილ მოწინავე რისკებს. წარმოგიდგენთ მავნე ფაინტიუნინგს (MFT), სადაც ვცდილობთ გამოვავლინოთ მაქსიმალური შესაძლებლობები gpt-oss-ის ისე ფაინტიუნინგით, რომ ის მაქსიმალურად ქმედუნარიანი იყოს ორ სფეროში: ბიოლოგიასა და კიბერუსაფრთხოებაში. ბიოლოგიური რისკის (ბიორისკის) მაქსიმალიზებისთვის ვაგროვებთ საფრთხის შექმნასთან დაკავშირებულ ამოცანებს და gpt-oss-ს ვწვრთნით RL გარემოში ვებზე ძიებით. კიბერუსაფრთხოების რისკის მაქსიმალიზებისთვის gpt-oss-ს ვწვრთნით აგენტურ კოდირების გარემოში capture-the-flag (CTF) გამოწვევების გადასაჭრელად. ამ MFT მოდელებს მოწინავე რისკების შეფასებებზე ვადარებთ ღია და დახურული წონების მქონე LLM-ებს. მოწინავე დახურული წონების მქონე მოდელებთან შედარებით, MFT gpt-oss ჩამორჩება OpenAI o3‑ს, მოდელს, რომელიც ბიორისკისა და კიბერუსაფრთხოებისთვის Preparedness High შესაძლებლობის დონეზე დაბლაა. ღია წონების მქონე მოდელებთან შედარებით, gpt-oss-მა შესაძლოა მცირედით გაზარდოს ბიოლოგიური შესაძლებლობები, მაგრამ მოწინავე ზღვარს არსებითად არ წევს წინ. მთლიანობაში, ამ შედეგებმა ხელი შეუწყო ჩვენს გადაწყვეტილებას, გამოგვეშვა მოდელი, და იმედი გვაქვს, რომ ჩვენი MFT მიდგომა სასარგებლო სახელმძღვანელო იქნება მომავალში ღია წონების მქონე გამოშვებებიდან ზიანის შეფასებისთვის.

ავტორი

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen და Chris Koch