გადადით მთავარ შინაარსზე
OpenAI

gpt-oss-safeguard ტექნიკური ანგარიში

gpt-oss-safeguard-120b-ისა და gpt-oss-safeguard-20b-ის წარმადობისა და საბაზისო შეფასებები

შესავალი

gpt-oss-safeguard-120b და gpt-oss-safeguard-20b არის ორი open-weight მსჯელობის მოდელი, რომლებიც gpt-oss მოდელებისგან წვრთნისშემდგომად არის მორგებული და გაწვრთნილი იმისთვის, რომ მოცემულ პოლიტიკაზე დაყრდნობით იმსჯელონ და ამ პოლიტიკის მიხედვით მონიშნონ კონტენტი. ისინი ხელმისაწვდომია Apache 2.0 ლიცენზიით და ჩვენი gpt-oss-ის გამოყენების პოლიტიკით. ღია კოდის საზოგადოების უკუკავშირით შექმნილი ეს მხოლოდ ტექსტური მოდელები თავსებადია ჩვენს Responses API-თან. მოდელები კონფიგურირებადია, იძლევა სრულ აზროვნების ჯაჭვს (CoT), შეიძლება გამოყენებულ იქნეს მსჯელობის სხვადასხვა ინტენსივობით (low, medium, high) და მხარს უჭერს სტრუქტურირებული შედეგები-ს.

ამ ანგარიშში ჩვენ აღვწერთ gpt-oss-safeguard-ის შესაძლებლობებს და წარმოვადგენთ ჩვენს საბაზისო უსაფრთხოების შეფასებებს gpt-oss-safeguard მოდელებზე, სადაც საბაზისოდ გამოყენებულია ქვემდებარე gpt-oss მოდელები. დამატებითი ინფორმაციისთვის ქვემდებარე gpt-oss მოდელების განვითარების და არქიტექტურის შესახებ, იხილეთ ორიგინალი gpt-oss მოდელის მოდელის ბარათი.

ჩვენ გირჩევთ, ეს მოდელები გამოიყენოთ კონტენტის კლასიფიცირებისთვის მოცემული პოლიტიკის მიმართ და არა როგორც ის ძირითადი ფუნქციონალი, რომელთანაც საბოლოო მომხმარებლები ურთიერთობენ; ამ გამოყენებებისთვის ორიგინალი gpt-oss მოდელები უკეთესია. ქვემოთ მოცემული უსაფრთხოების მეტრიკები აღწერს, როგორ ფუნქციონირებს gpt-oss-safeguard მოდელები ჩატის გარემოში. gpt-oss-safeguard მოდელები ამ გამოყენებისთვის განკუთვნილი არ არის, მაგრამ რადგან ისინი open model-ებია, შესაძლებელია, ვინმემ ისინი ამგვარად გამოიყენოს. ამ შესაძლებლობის გამო, გვინდოდა გადაგვემოწმებინა, აკმაყოფილებდნენ თუ არა ისინი ასეთ გამოყენებაში ჩვენი უსაფრთხოების სტანდარტებს; ეს ანგარიში ამ ტესტების შედეგებს აზიარებს. ჩვენ ასევე ვიზიარებთ მრავალენოვანი წარმადობის საწყის შეფასებას ჩატის გარემოში; გაითვალისწინეთ, რომ ეს პირდაპირ არ აფასებს წარმადობას კონტენტის კლასიფიკაციისას მოცემული პოლიტიკით.

gpt-oss-safeguard მოდელები მათი gpt-oss ანალოგების fine-tune-ებია და ისინი გაწვრთნილი იყო ყოველგვარი დამატებითი ბიოლოგიური ან კიბერუსაფრთხოების მონაცემების გარეშე. შედეგად, ჩვენ დავასკვნეთ, რომ gpt-oss-ის გამოშვებიდან წინა ნაშრომი ყველაზე უარესი სცენარების შეფასების შესახებ ამ ახალ მოდელებზეც ვრცელდება.

ავტორი

OpenAI