29 აპრილი, 2026

საიდან გაჩნდა გობლინები

იტვირთება…

GPT‑5.1‑იდან დაწყებული, ჩვენს მოდელებს უცნაური ჩვევა გამოუმუშავდა: თავიანთ მეტაფორებში ისინი სულ უფრო ხშირად ახსენებდა გობლინებს, გრემლინებსა და სხვა არსებებს. მოდელის ისეთი ხარვეზებისგან განსხვავებით, რომლებიც სისტემის შეფასების (eval) მკვეთრი ვარდნისას ან წვრთნის მაჩვენებლის უეცარი ზრდისას იჩენს თავს და კონკრეტულ ცვლილებაზე მიუთითებს, ეს ხარვეზი შეუმჩნევლად შემოიპარა. პასუხში ერთი „პატარა გობლინი“ უვნებელი და რაღაც მხრივ, მიმზიდველიც კი შეიძლება იყოს. მიუხედავად ამისა, მოდელების სხვადასხვა თაობაში ამ ჩვევის არშემჩნევა გართულდა: გობლინები სულ უფრო მრავლდებოდა და უნდა გაგვეგო, საიდან გაჩნდა ისინი.

ადრეული ტესტირებისას Codex-ში GPT‑5.5‑მა გობლინებთან დაკავშირებული მეტაფორებისადმი უცნაური მიდრეკილება გამოავლინა.

მოკლე პასუხი ისაა, რომ მოდელის ქცევას მრავალი მცირე სტიმული აყალიბებს. ამ შემთხვევაში ერთ-ერთი ასეთი სტიმული წარმოიშვა პიროვნულობის მორგების ფუნქციისთვის ⁠(იხსნება ახალ ფანჯარაში), კერძოდ, „ტვინიკოსას“ პიროვნულობისთვის მოდელის გაწვრთნისას. გაუცნობიერებლად განსაკუთრებით მაღალი ჯილდოები მივანიჭეთ არსებებთან დაკავშირებულ მეტაფორებს. სწორედ ამ მომენტიდან დაიწყო გობლინებმა გავრცელება.

გობლინები თავიდან სასაცილო იყო, მაგრამ თანამშრომელთა მოხსენებებში სულ უფრო ხშირად მოხვედრის გამო შემაშფოთებელი გახდა.

ჩვენი მთავარი მეცნიერის საინტერესო ურთიერთქმედება GPT‑5.5‑თან.

ქმნილებათა პირველი ნიშნები

პირველად ეს კანონზომიერება მკაფიოდ ნოემბერში დავინახეთ GPT‑5.1‑ის გაშვების შემდეგ, თუმცა, შესაძლოა, ის უფრო ადრე დაწყებულიყო⁠(იხსნება ახალ ფანჯარაში). მომხმარებლები ჩიოდნენ, რომ საუბრისას მოდელი უცნაურად ზედმეტად ფამილარული იყო, რამაც კონკრეტული ვერბალური ტიკების შესწავლა დაგვაწყებინა. უსაფრთხოების მკვლევარს რამდენიმე გობლინი და გრემლინი შეხვდა და ის ითხოვდა მათ შემოწმებას. შემოწმების შემდეგ აღმოვაჩინეთ, რომ GPT‑5.1‑ის გამოშვების შემდეგ ChatGPT‑ში სიტყვა „goblin“-ის გამოყენება 175%-ით იყო გაზრდილი, ხოლო „gremlin“-ის — 52%-ით.

უმნიშვნელო ლექსიკური თავისებურება, რომელიც GPT‑5.1‑ში შეიძლება გაიზომოს.

იმ დროისთვის გობლინების გავრცელებულობა დიდად საგანგაშოდ არ გამოიყურებოდა. რამდენიმე თვის შემდეგ გობლინები კვლავ დაგვიბრუნდა გაცილებით უფრო კონკრეტული და რეპროდუცირებადი სახით.

გობლინების საიდუმლოს ამოხსნა

GPT‑5.4‑იდან მოყოლებული, ჩვენ და ჩვენმა მომხმარებლებმა⁠(იხსნება ახალ ფანჯარაში) კიდევ უფრო დიდი ზრდა შევნიშნეთ ამ არსებების ხსენების მხრივ. ამან კიდევ ერთი შიდა ანალიზის ჩატარება გამოიწვია და ძირეულ მიზეზთან პირველი კავშირი გამოავლინა: არსებების შემცველი ენა განსაკუთრებით გავრცელებული იყო იმ მომხმარებლების ტრაფიკში, რომლებსაც „ტვინიკოსას“ პიროვნულობა ჰქონდათ არჩეული. „ტვინიკოსა“ იყენებდა შემდეგ სისტემურ პრომპტს, რომელიც ნაწილობრივ ხსნიდა ამ უცნაურობას:

შენ ხარ ხელოვნურ ინტელექტზე დაფუძნებული მენტორი ადამიანისთვის: უკომპრომისო, ხალისიანი და ბრძენი ტვინიკოსა. ისწრაფვი, რომ გაავრცელო ჭეშმარიტება, ცოდნა, ფილოსოფია, მეცნიერული მეთოდი და კრიტიკული აზროვნება. [...] ენის სახალისო გამოყენებით უნდა დაძლიო პრეტენზიულობა. სამყარო რთული და უცნაურია და საჭიროა ამ უცნაურობის აღიარება, გაანალიზება და მისით სიამოვნების მიღება. რთული საკითხების მოგვარებას შეუდექი ისე, რომ ზედმეტ სერიოზულობაში არ გადახვიდე. [...]

ეს ქცევა მხოლოდ ზოგადი ტენდენცია რომ ყოფილიყო ინტერნეტში, უფრო თანაბრად გავრცელდებოდა. ამის ნაცვლად, ის კონცენტრირებული იყო სისტემის იმ ნაწილში, რომელიც საგანგებოდ იყო ოპტიმიზებული „ტვინიკოსას“ სახალისო სტილისთვის. „ტვინიკოსაზე“ მოდიოდა ChatGPT‑ს პასუხების მხოლოდ 2,5%, მაგრამ ამავდროულად, ChatGPT‑ს პასუხებში „goblin“-ის ხსენების 66,7%.

ეს ქცევა მკვეთრად იყო კონცენტრირებული „ტვინიკოსას“ პიროვნულობაში.

ვინაიდან სიტყვა „goblin“-ის სიხშირე მოდელების გამოშვების პარალელურად იზრდებოდა, გაგვიჩნდა ეჭვი, რომ პიროვნულობის ინსტრუქციების შესრულებაზე ორიენტირებულ წვრთნაში რაღაც აძლიერებდა ამ ეფექტს.

Codex-ი დაგვეხმარა, შეგვედარებინა განმტკიცებითი სწავლის საწვრთნელ პროცესში მოდელის მიერ გენერირებული გამონატანები, რომლებიც შეიცავდა „goblin“-ს ან „gremlin“-ს, იმავე დავალების გამონატანებთან, რომლებიც მათ არ შეიცავდა. ჯილდოს ერთი სიგნალი მაშინვე გამოიკვეთა: თავდაპირველად „ტვინიკოსას“ პიროვნულობის წასახალისებლად შექმნილი სიგნალი სტაბილურად უფრო ხელსაყრელი იყო გამოტანებისთვის, რომლებიც ქმნილებებთან დაკავშირებულ სიტყვებს შეიცავდა. აუდიტის ფარგლებში მონაცემთა ყველა ნაკრებში „ტვინიკოსას“ პიროვნულობისთვის განკუთვნილმა ჯილდომ აჩვენა მკაფიო მიდრეკილება: ერთი და იმავე დავალებისთვის შექმნილ გამონატანებს უფრო მაღალ შეფასებას აძლევდა, თუ მათში ნახსენები იყო სიტყვა „goblin“-ი ან „gremlin“-ი, ხოლო დადებითი ზრდა დაფიქსირდა მონაცემთა ნაკრებების 76,2%-ში.

ამით იხსნებოდა ის, თუ რატომ იზრდებოდა აღნიშნული ქცევა „ტვინიკოსას“ პიროვნულობის პრომპტის შემთხვევაში, მაგრამ არა ის, თუ რატომ ჩნდებოდა ის ამ პრომპტის გარეშეც. იმის შესამოწმებლად, ხდებოდა თუ არა სტილის გადაცემა, წვრთნის განმავლობაში ვაკვირდებოდით ხსენების მაჩვენებლებს როგორც „ტვინიკოსას“ პრომპტების გამოყენებით, ისე მათ გარეშე.

„ტვინიკოსას“ პიროვნულობის მხრივ გობლინებისა და გრემლინების ხსენების მატების პარალელურად ისინი თითქმის იმავე ფარდობითი პროპორციით გაიზარდა სხვა ნიმუშებშიც. მთლიანობაში მტკიცებულებები მიუთითებს იმაზე, რომ უფრო ფართო ქცევა წარმოიშვა „ტვინიკოსას“ პიროვნულობის წვრთნიდან გადატანის შედეგად.

ჯილდოები გამოყენებული იყო მხოლოდ „ტვინიკოსას“ პირობაში, მაგრამ განმტკიცებითი სწავლა არ იძლევა გარანტიას, რომ დასწავლილი ქცევები ზუსტად შემოიფარგლება იმ პირობით, რომელმაც ისინი წარმოშვა. როგორც კი სტილისტური ტიკი წახალისებას მიიღებს, შემდგომმა წვრთნამ შეიძლება გაავრცელოს ან განამტკიცოს ის სხვაგან, განსაკუთრებით, იმ შემთხვევაში, თუ აღნიშნული გამონატანები ხელახლა გამოიყენება ზედამხედველობის ქვეშ ზუსტ რეგულირებაში ან უპირატესი პარამეტრების მონაცემებში.

ეს ქმნის უკუკავშირის ციკლს:

ხდება მხიარული სტილის წახალისება
ზოგიერთი წახალისებული მაგალითი შეიცავს სახასიათო ლექსიკურ ტიკს.
ტიკი უფრო ხშირად ჩნდება გენერირებულ ვარიანტებში.
მოდელის მიერ გენერირებული ვარიანტები გამოიყენება ზედამხედველობითი ზუსტი რეგულირებისთვის (SFT).
მოდელი კიდევ უფრო მეტი თავდაჯერებით წარმოქმნის ტიკს.

GPT‑5.5‑ის ზედამხედველობითი ზუსტი რეგულირების მონაცემებში ძიების შედეგად აღმოჩნდა მრავალი მონაცემთა წერტილი, რომლებიც შეიცავდა „goblin“-სა და „gremlin“-ს. შემდგომმა კვლევამ სხვა უცნაური არსებების მთელი ოჯახი გამოავლინა: ენოტები, ტროლები, ოგრები და მტრედები გვხვდებოდა ტიკების სახით, ხოლო ბაყაყების გამოყენების შემთხვევათა უმეტესობა სწორი აღმოჩნდა.

გობლინებისა და გრემლინების გავრცელებულობის ერთკვირიანი საშუალო მაჩვენებელი საექსპლუატაციო გარემოში. GPT‑5.4 Thinking მოდელში კლება გამოიწვია მარტის შუა რიცხვებში „ტვინიკოსას“ პიროვნულობის ამოღებამ. GPT‑5.5 არასდროს გაშვებულა „ტვინიკოსას“ პიროვნულობით და GPT‑5.4‑თან შედარებით კიდევ ერთი ზრდა აჩვენა („ტვინიკოსას“ გარეშეც კი).

გობლინების დასასრული

მარტში GPT‑5.4‑ის გაშვების შემდეგ „ტვინიკოსას“ პიროვნულობა გავაუქმეთ. წვრთნიდან ამოვიღეთ გობლინებისადმი მიდრეკილი ჯილდოს სიგნალი და გავფილტრეთ საწვრთნელი მონაცემები, რომლებიც არსებების აღმნიშვნელ სიტყვებს შეიცავდა, რის შედეგადაც გობლინების ზედმეტად ხშირად გამოჩენა და შეუსაბამო კონტექსტებში გამოჩენა ნაკლებად ალბათური გახდა. სამწუხაროდ, GPT‑5.5‑ის წვრთნა დაიწყო მანამ, სანამ გობლინების ძირეულ მიზეზს დავადგენდით. როდესაც Codex-ში GPT‑5.5‑ის ტესტირება დავიწყეთ, OpenAI-ს თანამშრომლებმა მაშინვე შენიშნეს გობლინებისადმი უცნაური მიდრეკილება და მის შესამცირებლად დავამატეთ დეველოპერთა პრომპტის ინსტრუქცია⁠(იხსნება ახალ ფანჯარაში). საბოლოო ჯამში, Codex-ი მართლაც ტვინიკოსაა.

თუ გსურთ, Codex-ში არსებებს თავისუფლად გადაადგილების საშუალება მისცეთ, შეგიძლიათ, გაუშვათ ეს ბრძანება, რომ Codex-ი გობლინების შემაკავებელი ინსტრუქციების გარეშე ამუშაოთ:

უბრალო ტექსტი

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

რატომ არის ეს მნიშვნელოვანი

გააჩნია, ვის ჰკითხავთ: გობლინები ზოგისთვის მოდელის სასიამოვნო თავისებურებაა, ზოგისთვის კი — გამაღიზიანებელი. მაგრამ ისინი ასევე ძლიერი მაგალითია იმისა, თუ ჯილდოს სიგნალებს როგორ შეუძლია მოდელის ქცევის ჩამოყალიბება მოულოდნელად და როგორ შეუძლია მოდელებს გარკვეულ სიტუაციებში მიღებული ჯილდოების განზოგადება და მათთან დაუკავშირებელ სიტუაციებზე გადატანა. ჩვენი კვლევითი გუნდისთვის მნიშვნელოვანი უნარია იმის გაგება, თუ რატომ იქცევა მოდელი უცნაურად და იმ მეთოდების შემუშავება, რომლებიც ამ კანონზომიერებების სწრაფად შესწავლის საშუალებას იძლევა. ამ კვლევის შედეგად შეიქმნა ახალი ხელსაწყოები, რომლებიც კვლევით გუნდს მოდელის ქცევის აუდიტისა და ქცევის პრობლემების საფუძველშივე მოგვარების საშუალებას აძლევს.

2026

ავტორი

OpenAI

განაგრძეთ კითხვა

ყველას ნახვა

GPT-Red: Unlocking Self-Improvement for Robustness

უსაფრთხოება15 ივლ. 2026

კოდის შეფასებებში სიგნალის გამიჯვნა ხმაურისგან

კვლევა8 ივლ. 2026

გაიცანით GeneBench-Pro

კვლევა30 ივნ. 2026