5 აგვისტო, 2025

ღია წონების მქონე LLM-ების უკიდურესი მოწინავე რისკების შეფასება

აბსტრაქტი

ამ ნაშრომში ჩვენ ვიკვლევთ gpt-oss-ის გამოშვების უკიდურეს შემთხვევებში წარმოშობილ მოწინავე რისკებს. წარმოგიდგენთ მავნე ფაინტიუნინგს (MFT), სადაც ვცდილობთ გამოვავლინოთ მაქსიმალური შესაძლებლობები gpt-oss-ის ისე ფაინტიუნინგით, რომ ის მაქსიმალურად ქმედუნარიანი იყოს ორ სფეროში: ბიოლოგიასა და კიბერუსაფრთხოებაში. ბიოლოგიური რისკის (ბიორისკის) მაქსიმალიზებისთვის ვაგროვებთ საფრთხის შექმნასთან დაკავშირებულ ამოცანებს და gpt-oss-ს ვწვრთნით RL გარემოში ვებზე ძიებით. კიბერუსაფრთხოების რისკის მაქსიმალიზებისთვის gpt-oss-ს ვწვრთნით აგენტურ კოდირების გარემოში capture-the-flag (CTF) გამოწვევების გადასაჭრელად. ამ MFT მოდელებს მოწინავე რისკების შეფასებებზე ვადარებთ ღია და დახურული წონების მქონე LLM-ებს. მოწინავე დახურული წონების მქონე მოდელებთან შედარებით, MFT gpt-oss ჩამორჩება OpenAI o3‑ს, მოდელს, რომელიც ბიორისკისა და კიბერუსაფრთხოებისთვის Preparedness High შესაძლებლობის დონეზე დაბლაა. ღია წონების მქონე მოდელებთან შედარებით, gpt-oss-მა შესაძლოა მცირედით გაზარდოს ბიოლოგიური შესაძლებლობები, მაგრამ მოწინავე ზღვარს არსებითად არ წევს წინ. მთლიანობაში, ამ შედეგებმა ხელი შეუწყო ჩვენს გადაწყვეტილებას, გამოგვეშვა მოდელი, და იმედი გვაქვს, რომ ჩვენი MFT მიდგომა სასარგებლო სახელმძღვანელო იქნება მომავალში ღია წონების მქონე გამოშვებებიდან ზიანის შეფასებისთვის.

2025

ავტორი

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen და Chris Koch

განაგრძეთ კითხვა

ყველას ნახვა

GPT-Red: Unlocking Self-Improvement for Robustness

უსაფრთხოება15 ივლ. 2026

GPT-5.5 Bio Bug Bounty

უსაფრთხოება9 ივლ. 2026

Separating signal from noise in coding evaluations

კვლევა8 ივლ. 2026