გადადით მთავარ შინაარსზე
OpenAI

შესავალი

წარმოგიდგენთ gpt-oss-120b-სა და gpt-oss-20b-ს, ორ open-weight მსჯელობის მოდელს, რომლებიც ხელმისაწვდომია Apache 2.0 ლიცენზიით და ჩვენი gpt-oss-ის გამოყენების პოლიტიკის ფარგლებში. ღია კოდის საზოგადოების უკუკავშირის საფუძველზე შექმნილი ეს მხოლოდ-ტექსტური მოდელები თავსებადია ჩვენს Responses API-სთან და განკუთვნილია აგენტურ სამუშაო პროცესებში გამოსაყენებლად, ძლიერი ინსტრუქციების მიყოლით, ისეთი ხელსაწყოების გამოყენებით, როგორიცაა ვებძიება და Python კოდის შესრულება, ასევე მსჯელობის შესაძლებლობებით — მათ შორის, მსჯელობის ძალისხმევის რეგულირების უნარით იმ ამოცანებისთვის, რომლებსაც კომპლექსური მსჯელობა არ სჭირდება. მოდელები მორგებადია, უზრუნველყოფს სრულ აზროვნების ჯაჭვს (CoT) და მხარს უჭერს სტრუქტურირებულ შედეგებს.

უსაფრთხოება ფუნდამენტურია open model-ებისადმი ჩვენს მიდგომაში. მათ საკუთრებით მოდელებთან შედარებით განსხვავებული რისკის პროფილი აქვთ: მათი გამოშვების შემდეგ, მიზანდასახულ თავდამსხმელებს შეუძლიათ მათი დამატებით გაწვრთნა უსაფრთხოების უარების გვერდის ასავლელად ან პირდაპირ ზიანის ოპტიმიზაციისთვის, ისე რომ OpenAI-ს არ ჰქონდეს დამატებითი შემარბილებელი ზომების დანერგვის ან წვდომის გაუქმების შესაძლებლობა.

ზოგიერთ კონტექსტში, დეველოპერებსა და ორგანიზაციებს დასჭირდებათ დამატებითი დამცავი ზომების დანერგვა, რათა გაიმეორონ იმ სისტემური დონის დაცვები, რომლებიც ჩვენს API-სა და პროდუქტებში მიწოდებულ მოდელებშია ჩაშენებული. ამ დოკუმენტს ჩვენ მოდელის ბარათს ვუწოდებთ და არა სისტემურ ბარათს, რადგან gpt-oss მოდელები გამოყენებული იქნება სისტემების ფართო სპექტრის ნაწილად, რომლებიც შექმნილი და მხარდაჭერილია დაინტერესებული მხარეების ფართო წრის მიერ. მიუხედავად იმისა, რომ მოდელები ნაგულისხმევად OpenAI-ის უსაფრთხოების პოლიტიკებს მიჰყვება, სხვა დაინტერესებული მხარეებიც თავად მიიღებენ და განახორციელებენ გადაწყვეტილებებს იმის შესახებ, თუ როგორ შეინარჩუნონ ამ სისტემების უსაფრთხოება.

ჩვენ ჩავატარეთ მასშტაბირებადი შესაძლებლობების შეფასებები gpt-oss-120b-ზე და დავადასტურეთ, რომ ნაგულისხმევი მოდელი არ აღწევს ჩვენი მზაობის ჩარჩოს სამი მონიტორინგის კატეგორიიდან არც ერთში მაღალი შესაძლებლობის მაჩვენებელ ზღვარს (ბიოლოგიური და ქიმიური შესაძლებლობა, კიბერ შესაძლებლობა და AI-ის თვითგაუმჯობესება). ასევე გამოვიკვლიეთ ორი დამატებითი კითხვა:

  • შეძლებდნენ თუ არა მავნე აქტორები gpt-oss-120b-ის დამატებით გაწვრთნას, რათა მიეღწიათ მაღალი შესაძლებლობისთვის ბიოლოგიურ და ქიმიურ ან კიბერ დომენებში? თავდამსხმელის პოტენციური ქმედებების სიმულირებით, ჩვენ gpt-oss-120b მოდელი მოწინააღმდეგის სცენარისთვის დამატებით გავწვრთენით ამ ორ კატეგორიაში. OpenAI-ის Safety Advisory Group-მა („SAG“) განიხილა ეს ტესტირება და დაასკვნა, რომ OpenAI-ის დარგში წამყვანი სასწავლო სტეკის გამოყენებით ჩატარებული მძლავრი დამატებითი გაწვრთნის შემთხვევაშიც კი, gpt-oss-120b-მა ვერ მიაღწია მაღალ შესაძლებლობას ბიოლოგიური და ქიმიური რისკის ან კიბერ რისკის მიმართულებით.
  • წაიყვანდა თუ არა gpt-oss-120b-ის გამოშვება მნიშვნელოვნად წინ ბიოლოგიური შესაძლებლობების მოწინავე ზღვარს ღია საძირკვლის მოდელებში? დავადგინეთ, რომ პასუხი უარყოფითია: შეფასებების უმეტესობაში, ერთი ან მეტი არსებული ღია მოდელის ნაგულისხმევი წარმადობა ახლოსაა gpt-oss-120b-ის მოწინააღმდეგის სცენარისთვის დამატებით გაწვრთნილ წარმადობასთან.

ამ გამოშვების ფარგლებში, OpenAI კვლავ ადასტურებს თავის ერთგულებას სასარგებლო AI-ის წინსვლისა და ეკოსისტემაში უსაფრთხოების სტანდარტების ამაღლების მიმართ.