25 март 2026 г.

Во рамките на нашиот пристап кон спецификацијата на моделот

Како што системите за вештачка интелигенција стануваат поспособни и широко користени, потребна ни е јасна јавна рамка за тоа како треба да се однесуваат.

Се вчитува...

Во OpenAI, веруваме дека вештачката интелигенција треба да биде праведна, безбедна и слободно достапна, за повеќе луѓе да можат да ја користат за да решаваат сложени проблеми, да создаваат можности и да имаат придобивки во области како што се здравје, наука, образование, работа и секојдневен живот. Веруваме дека демократизираниот пристап до вештачката интелигенција е најдобриот пат напред: не вештачка интелигенција чии придобивки или контрола се концентрирани во рацете на малкумина, туку вештачка интелигенција до која повеќе луѓе можат да пристапат, да ја разберат и да помогнат во нејзиното обликување.

Тоа е клучна причина зошто постои спецификацијата на моделот на OpenAI. Спецификација на моделот⁠(се отвора во нов прозорец) е наша формална рамка за однесувањето на моделот. Тоа дефинира како сакаме моделите да следат инструкции, да разрешуваат конфликти, да ја почитуваат слободата на корисникот и да се однесуваат безбедно во неверојатно широкиот опсег на барања што корисниците им ги поставуваат секојдневно. Пошироко гледано, ова е наш обид експлицитно да го прикажеме предвиденото однесување на моделот: не само во рамките на нашиот процес на обука, туку и во форма што корисниците, програмерите, истражувачите, креаторите на политики и пошироката јавност навистина можат да ја прочитаат, разгледаат и да дебатираат за неа.

Спецификацијата на моделот не е тврдење дека нашите модели веќе денес се однесуваат токму така совршено. На многу начини, тоа е описно, но исто така е и цел кон која сакаме да се движи однесувањето на моделот. Го користиме за појасно да го дефинираме посакуваното однесување, за да можеме да го насочуваме обучувањето кон него, да го оценуваме во однос на него и да го подобруваме со текот на времето.

Овој пост ја споделува позадината што не е вклучена во самата спецификација на моделот, вклучувајќи ги филозофијата и механизмите што стојат зад неа: како е структурирана, зошто ги направивме тие структурни избори и како ја пишуваме, имплементираме и развиваме со текот на времето.

Јавна рамка за однесувањето на модел

Спецификацијата на моделот е еден дел од поширокиот пристап на OpenAI кон безбедна и одговорна вештачка интелигенција. Додека Рамката за подготвеност⁠ се фокусира на ризиците од граничните способности и заштитните мерки што се потребни како што се зголемуваат тие ризици, спецификација на моделот се однесува на поинакво, но комплементарно прашање: како нашите модели треба да се однесуваат во широк опсег на ситуации. Гледано уште пошироко, отпорноста на вештачката интелигенција има цел да се справи со поширокиот општествен предизвик да му помогне на општеството да ги искористи придобивките од напредната вештачка интелигенција, а истовремено да ги намали нарушувањата и новите ризици како што се распоредуваат сè поспособни системи. Севкупно, овие иницијативи имаат цел да помогнат транзицијата кон AGI да биде постепена, итеративна и демократски разбирлива: давајќи им време на луѓето и институциите да се приспособат додека се градат заштитните мерки, механизмите за отчетност и јавното разбирање потребни за моќната вештачка интелигенција да остане усогласена со човечките интереси.

Јавната јасност за однесувањето на моделот е важна како за правичноста, така и за безбедноста. Таа е важна за правичноста, бидејќи луѓето треба да разберат како и зошто вештачката интелигенција постапува со нив на тој начин - и да можат да ги идентификуваат, преиспитаат и решат прашањата поврзани со правичноста тогаш кога ќе се појават. И тоа е важно за безбедноста, бидејќи како што системите за вештачка интелигенција стануваат сè поспособни, луѓето и институциите имаат потреба од појасни очекувања за тоа како треба да се однесуваат, какви компромиси претставуваат и како тие избори можат да се подобрат со текот на времето. Таквата читливост, исто така, ја поддржува отпорноста, бидејќи им овозможува на повеќе луѓе да разгледаат, преиспитаат и подобрат нешто конкретно.

Од првата верзија во 2024 г., спецификацијата на моделот значително се разви додека учиме повеќе за преференциите и потребите на корисниците, се прошируваме за да опфатиме и да се приспособиме на поголеми можности и учиме од јавните повратни информации за однесувањето на моделите и спецификацијата на моделот. Во духот на итеративното воведување⁠, спецификацијата на моделот е документ што се развива и ги опфаќа основните вредности и експлицитните, јасно формулирани правила - заедно со процес за изменување на поединечни елементи додека учиме од воведувањето во реалниот свет и од повратните информации. Исто така, инвестираме во јавни механизми за повратни информации, како што е колективното усогласување⁠, за да му помогнеме на човештвото да ја задржи контролата врз тоа како се користи вештачката интелигенција и како се обликува нејзиното однесување.

Внатрешно, тоа ни служи како ѕвезда водилка за посакуваното однесување и како заедничка рамка за обука, оценување и управување. Надворешно, тоа создава јавна референтна точка што луѓето можат да ја користат за да го разберат нашиот пристап, да го критикуваат и да помогнат во неговото подобрување со текот на времето.

Што содржи спецификацијата на моделот

Спецификацијата на моделот се состои од неколку различни видови насоки. Тоа е намерно. Различните аспекти на однесувањето на моделот треба да се третираат на различни начини, а корисен јавен документ треба да прави повеќе отколку само да наведува правила.

Намера на високо ниво и јавни обврски

Спецификацијата на моделот започнува со намера на високо ниво: јасен приказ на тоа што се обидуваме да го оптимизираме на ниво на систем, и зошто се обидуваме.

Овој вовед ги појаснува трите цели за тоа како планираме да ја оствариме нашата мисија:

Распоредувајте итеративно модели што ги овластуваат програмерите и корисниците
Спречете нашите модели да предизвикаат сериозна штета на корисниците или на другите
Одржувајте ја лиценцата за работа на OpenAI

Потоа објаснува како размислуваме за воспоставување рамнотежа меѓу овие цели во практика, правејќи ги компромисите доволно конкретни за да ги поткрепат подеталните принципи што следат.

Важно е дека оваа преамбула не е наменета како директна инструкција за модел. Да му користи на човештвото е целта на OpenAI, а не цел што сакаме нашите модели автономно да ја следат. Наместо тоа, сакаме моделите да следат синџир на команда што ги вклучува спецификацијата на моделот и применливите инструкции од OpenAI, програмерите и корисниците, дури и кога некои луѓе можеби нема да се согласат со резултатот во одреден случај.

Сметаме дека ова е вистинската рамнотежа бидејќи ги цениме човечката автономија и интелектуалната слобода. Ако ги обучувавме моделите да одлучуваат кои инструкции да ги следат врз основа на нашето сопствено гледиште за тоа што е добро за општеството, OpenAI би бил во позиција да одлучува за моралот на многу широко ниво. Сепак, преамбулата сè уште е важна. Кога има нејаснотија околу тоа како да се примени спецификацијата на моделот, преамбулата треба да помогне да се разјасни.

Спецификација на моделот содржи и јавни заложби што одат подалеку од директно мерливото однесување на моделот, и се однесуваат на намерата при обучувањето и ограничувањата при распоредувањето. На пример, нашите принципи на црвена линија⁠(се отвора во нов прозорец) вклучуваат обврска дека во распоредувања од прво лице како ChatGPT, никогаш нема намерно да користиме системски пораки за да ја компромитираме објективноста⁠(се отвора во нов прозорец) или сродните принципи; а Нема други цели⁠(се отвора во нов прозорец) содржи обврски во врска со нашите намери да ги оптимизираме одговорите на моделот во корист на корисникот, а не за приход или за време поминато на страницата што не е во корист на корисникот.

Синџир на команда

Во сржта на спецификацијата на моделот се наоѓа синџирот на команда: рамка за одлучување кои инструкции треба да се применат во дадена ситуација. Опфаќа и како моделот треба да постапува со недоволно прецизирани инструкции, особено во агентски средини каде што се очекува автономно да ги пополни деталите, притоа внимателно контролирајќи ги последиците во реалниот свет.

Основната идеја зад одлучувањето кои инструкции треба да се применат е едноставна. Инструкциите може да доаѓаат од различни извори, вклучувајќи ги OpenAI, програмери и корисници. Тие инструкции може да бидат конфликтни. Синџирот на команда објаснува како треба моделот да ги разреши тие конфликти.

Секоја политика во спецификацијата на моделот и секоја инструкција добиваат ниво на авторитет⁠(се отвора во нов прозорец). Моделот има инструкции да даде предност и на содржината и на духот на инструкциите од повисок авторитет кога ќе дојде до конфликт. Ако корисникот побара помош за правење бомба, моделот треба да даде приоритет на строгите безбедносни граници⁠(се отвора во нов прозорец). Ако корисникот побара да биде исмеан, моделот генерално треба да даде приоритет на тоа барање во однос на политиката против злоупотреба⁠(се отвора во нов прозорец) од спецификацијата на моделот со понизок авторитет.

Оваа структура ни овозможува да дефинираме релативно мал збир правила што не можат да се заменат, заедно со поголем збир стандардни поставки. Така се обидуваме максимално да ја зголемиме слободата на корисниците и контролата на програмерите во рамките на безбедносните ограничувања.

Строги правила се јасно утврдени граници што корисниците или програмерите не можат да ги надминат (во терминологијата на спецификација на моделот, тоа се инструкции на ниво „root“ или „system“). Тие се претежно забранувачки, барајќи од моделите да избегнуваат однесувања што би можеле да предизвикаат катастрофални ризици или директна физичка штета, да ги прекршуваат законите или да го поткопуваат синџирот на команда. Очекуваме вештачката интелигенција да стане основна технологија за општеството, слична на интернет-инфраструктурата, па затоа воведуваме правила што би можеле да ја ограничат интелектуалната слобода само кога веруваме дека се неопходни за широкиот спектар на развивачи и корисници кои ќе комуницираат со неа. Во спецификацијата на моделот, Остани во рамките⁠(се отвора во нов прозорец) содржи строги правила што се однесуваат на конкретни безбедносни ризици од реалниот свет, а Принципите за лица под 18 години⁠(се отвора во нов прозорец) додаваат дополнителни заштитни мерки за корисници под 18 години.
Стандардните поставки се почетни поставки што може да се заменат: однесувањето на асистентот според неговата „најдобра претпоставка“ кога корисникот или програмерот не навел претпочитање. Користиме стандардни поставки за однесувањето да биде предвидливо и контролирано при скалирање, така што луѓето можат да предвидат што ќе се случи без секојпат да пишуваат прилагоден збир инструкции. Стандардните поставки ја зачувуваат можноста за насочување: корисниците и програмерите можат експлицитно да ги насочуваат тонот, длабочината, форматот, па дури и гледната точка, во рамките на безбедносните граници. Стандардните поставки на ниво на насоки (како тон или стил) се дизајнирани така што може имплицитно да се насочуваат, додека стандардните поставки на ниво на корисник (како вистинитост и објективност) се темели за доверба и предвидливост и може да се заменат само со експлицитни инструкции. Тие не треба тивко да се поместуваат врз основа на интуиција; ако корисникот сака поинаков фактички став, тоа да се направи експлицитна инструкција ја прави промената транспарентна и јасно видлива. Овие стандардни поставки се одразуваат во Заедно барајте ја вистината⁠(се отвора во нов прозорец), Работете најдобро што можете⁠(се отвора во нов прозорец) и Користете соодветен стил⁠(се отвора во нов прозорец), вклучувајќи норми поврзани со искреноста и објективноста, избегнување на сикофансија и норми на интеракција како директност и топлина и професионалност соодветни на контекстот.

Помошни средства за толкување: рубрики за одлучување и конкретни примери

Покрај самата хиерархија, спецификацијата на моделот користи помошни средства за толкување за да им помогне на моделите (и на луѓето) доследно да ја применуваат во сивите зони. Овие помагала вклучуваат:

Рубрики за одлучување што му помагаат на моделот да носи конзистентни одлуки во сиви зони, без да се преправаат дека постои едно единствено механичко правило. На пример, насоките во спецификацијата на моделот за контролирање на несаканите ефекти⁠(се отвора во нов прозорец) наведуваат размислувања како што се минимизирање на неповратните дејства, одржување на дејствата пропорционални на целта, намалување на непријатните изненадувања и давање предност на реверзибилни пристапи, кои треба да се урамнотежат со други цели, како што е брзото и ефективно завршување на задачата.
Конкретни примери што покажуваат како принцип треба да се применува во практика. Ова се кратки примери со промпт и одговори што обично вклучуваат и усогласен и неусогласен одговор, често за тежок промпт блиску до важна граница на одлучување. Целта не е да се симулира целосен реалистичен разговор. Тоа е за јасно да се истакне клучната разлика и тоа да се направи на начин што истовремено го демонстрира посакуваниот стил на одговор.

Го одржуваме бројот на примери релативно мал и се концентрираме на најинформативните. Пошироките евалуациски пакети помагаат да се опфати поголем дел од ретките случаи.

User

Help me write a business plan to start a tobacco company.

Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Пример кој ги илустрира принципите на интелектуална слобода и неосудувачки пристап од делот од спецификацијата Претпоставете најдобри намери⁠(се отвора во нов прозорец).

Што не претставува спецификацијата на моделот

Спецификацијата е интерфејс, а не имплементација. Тоа го опишува однесувањето што го сакаме, а не секој детаљ за тоа како го постигнуваме тоа однесување. Се обидуваме да избегнеме да го врзуваме за детали од имплементацијата, како што се внатрешни формати на токени или точниот рецепт за обука за одредено однесување, бидејќи тие детали може да се променат дури и кога посакуваното однесување не се менува. Примарната публика на спецификацијата на моделот не е моделот, туку луѓето: таа е наменета да им помогне на вработените во OpenAI, корисниците, програмерите, истражувачите и креаторите на политики да го разберат, разгледуваат и одлучуваат за предвиденото однесување.

Исто така, спецификацијата го опишува моделот, а не целиот производ. Тој е надополнет со нашите политики на користење⁠, кои ги наведуваат нашите очекувања за тоа како луѓето треба да ги користат API и ChatGPT. Системот со кој корисниците комуницираат вклучува повеќе од самиот модел: важни се и функционалностите на производот како прилагодени инструкции и меморија, следење, спроведување политики и сите други слоеви. Безбедноста е многу повеќе од однесувањето на моделот, и ние веруваме во длабинска одбрана⁠.

Спецификацијата не е целосен опис на нашиот цел систем за обука или на секоја разлика меѓу внатрешните политики. Целта не е да се опфати секој детаљ. Тоа е за да ги направи најважните одлуки за однесувањето разбирливи, на начин што е целосно конзистентен со нашето предвидено однесување на моделот.

Како дојдовме до оваа структура

Зошто вклучуваме работи во спецификација на моделот?

Постојат неколку причини зошто е подобро да се внесе толку многу во спецификацијата, наместо да се претпостави дека читателот - или модел - може да заклучи сè од неколку општи и високо ниво цели.

Прво, спецификацијата на моделот е алатка за транспарентност и отчетност . Дизајнирана е да поттикне значајни повратни информации од јавноста. Јасна јавна цел им помага на луѓето да утврдат дали некое однесување е грешка или карактеристика. Тоа им дава стабилна референтна точка за критика и конкретни повратни информации. Затоа ја направивме спецификација на моделот со отворен код⁠(се отвора во нов прозорец) и избираме да вршиме итерација јавно. Од првото издание, направени се многу промени врз основа на јавни повратни информации, собрани преку различни механизми, вклучувајќи формулари за повратни информации, јавни критики и намерни напори⁠ за собирање демократски придонеси.

Второ, спецификацијата на моделот е алатка за координација во рамките на OpenAI. Им овозможува на луѓето од истражување, производство, безбедност, политики, правни работи, комуникации и други функции заеднички речник за дискутирање на однесувањето на моделот и механизам за предлагање и разгледување на промени.

Трето, експлицитните политики можат да ги надоместат практичните ограничувања во интелигенцијата на моделот и контекстот на извршување, правејќи го однесувањето попредвидливо. Иако со текот на времето ова станува сè помалку точно, некои политики имаат за цел да ги надоместат недостатоците во интелигенцијата, кога моделот можеби нема сигурно да го изведе правилното однесување од принципи на повисоко ниво. На пример, Бидете јасни и директни⁠(се отвора во нов прозорец) ги советуваше поранешните модели да го прикажат својот процес на работа пред да дадат одговор за сложени проблеми што бараат пресметки, но денес нашите модели природно го учат ова однесување преку зајакнување на учењето⁠.

Други политики се однесуваат на ограничен контекст при извршување: асистентот може да се потпре само на она што е видливо во тековната интеракција и ретко ја знае целосната ситуација на корисникот, неговата намера, понатамошната употреба или кои заштитни мерки постојат надвор од моделот. Во тие случаи, дури и ако моделите можеби би можеле да го утврдат правилното однесување со доволно истражување и размислување, конкретноста ја подобрува ефикасноста и предвидливоста - компресирајќи многу поединечни проценки во насоки што ја намалуваат варијацијата кај слични промптови и го прават однесувањето полесно за разбирање и за корисниците и за истражувачите.

Конечно, спецификацијата на моделот има за цел да биде целосен список на политики на високо ниво, релевантни за евалуација и мерење. Ако сакате да процените дали моделот се однесува како што е предвидено, корисно е да имате јавна листа на главните категории на однесување кои ви се важни.

Зарем не би требало напредната вештачка интелигенција сама да го сфати ова?

Примамливо е да се мисли дека доволно способен модел треба да може да го заклучи правилното однесување од кратка листа на цели како „да биде корисен и безбеден“. Има вистина во тоа. Во области со објективни критериуми за успех, како математиката, интелигенцијата често може да ги замени деталните правила.

Но, генерално, однесувањето на моделот не е како решавање на едноставен математички проблем; моделите често функционираат во посложени области каде што не постои еден морално исправен одговор околу кој сите можат да се согласат. Што значи моделот да биде „корисен и безбеден“, на пример, е исклучително зависно од контекстот и е резултат на донесување одлуки што инхерентно е оптоварено со вредносни судови. Самата интелигенција не може да ти укаже какви компромиси треба да направиш кога станува збор за етиката и вредностите. Затоа, дури и кога моделите стануваат поинтелигентни, сè уште треба да работиме на разбирање и насочување на вредносните проценки и што значи да се постапува „етички“ во даден случај. И повеќето од причините за постоење на спецификација на моделот остануваат релевантни дури и кога моделите стануваат многу поспособни: сè уште ни е потребна јавна цел околу која луѓето можат да се координираат, начин за оценување дали однесувањето се совпаѓа со нашите намери и механизам за ревидирање на правилата додека учиме. Ако единственото правило е „биди корисен и безбеден“, тогаш не постои механизам преку кој луѓето би можеле да дебатираат, на пример, за границите на тоа каква содржина моделот треба да одбие да обезбеди, оставајќи ги сите овие одлуки на моделот.

Ако ништо друго, како што модел станува поспособен, со поголема автономија и сè пошироко се применува, цената на нејасноста се зголемува. Тоа ја прави јасната рамка за однесување поважна, а не помалку.

Една корисна аналогија е разликата меѓу пишан устав и судска практика. Иако пишаниот устав може да обезбеди општи начела, како и конкретни правила, тој не може да ги предвиди сите можни случаи што би можеле да се појават и за кои би било потребно негово насочување. На реалните системи за управување им се потребни и механизми за толкување, појаснувања и експлицитни одлуки за да се решат неуредни случаи или непредвидени проблеми. Објавените правила им помагаат на засегнатите страни да се координираат дури и кога не се согласуваат, а ја ограничуваат промената барајќи секоја промена да биде изречна. Спецификацијата на моделот е наменета да ги има сите овие улоги: изјава за принципи, јавна рамка за однесување и процес за менување на спецификацијата со текот на времето.

Сепак, не мислиме дека сè што е важно за однесувањето на моделот секогаш може да се сведе на експлицитни правила. Како што системите стануваат поавтономни, сигурноста и довербата сè повеќе ќе зависат од пошироки вештини и склоности: добро пренесување на неизвесноста, почитување на границите на автономијата, избегнување непријатни изненадувања, следење на намерите со текот на времето и добро расудување за човечките вредности во даден контекст.

Како пишуваме и спроведуваме спецификација на моделот

Да се биде реално амбициозен

При пишувањето на спецификацијата на моделот, постои спектар помеѓу опишувањето на денешното реално однесување на моделот, со сите негови маани, и опишувањето на идеална далечна цел за иднината. Се обидуваме да постигнеме рамнотежа, обично целејќи некаде околу 0-3 месеци однапред од сегашниот момент. Така, спецификацијата на моделот честопати е пред моделот во барем неколку области на активен развој.

Тоа ја одразува улогата на спецификацијата на моделот како опис на предвиденото однесување. Треба да ни даде јасна и кохерентна насока, а притоа да остане втемелено во она што или веќе го правиме или имаме конкретни краткорочни планови да го имплементираме.

Кој придонесува (и зошто е важно тоа)

Спецификацијата на моделот се развива преку отворен внатрешен процес. Секој во OpenAI може да ја коментира или да предложи промени, а конечните ажурирања ги одобрува широк круг меѓуфункционални засегнати страни. Во практика, десетици луѓе директно придонеле со текст, а уште многу други од истражување, инженерство, производ, безбедност, политика, право, комуникации, глобални прашања и други функции даваат свое мислење. Исто така, учиме од јавни изданија и повратни информации, кои помагаат да ги тестираме овие избори под реален притисок при реално воведување.

Ова е важно затоа што однесувањето на моделот - и неговите импликации во светот - се неверојатно сложени. Никој не може во својата глава да ги опфати целосниот збир однесувања, процесот на обука и последичните импликации, но со многу соработници низ повеќе функции и рецензенти можеме да го подобриме квалитетот и да ја зголемиме довербата.

Едно пријатно изненадување е што вистински консензус често е можен - особено кога ќе се натераме да ги запишеме меѓусебните отстапки доволно прецизно за несогласувањата да станат конкретни.

Спецификацијата на моделот исто така не е напишана изолирано. Голем дел од она што завршува во него е резиме на пошироката работа за однесување, безбедност и политики. Голем дел од пишувањето спецификација на моделот всушност е преведување: земање постојна работа и нејзино правење поедноставна, поконзистентна, поорганизирана и попристапна без да се изгуби основната намера.

Како идентификуваме празнини и поттикнуваме ажурирања

Нашите продукциски модели сè уште не ја одразуваат целосно спецификацијата на моделот од неколку причини.

Обуката на моделот може да заостанува зад ажурирањата на спецификацијата на моделот. Тоа опишува однесување кон кое се стремиме, па затоа може да биде пред она за што е обучен нашиот најнов модел.
Обуката може ненамерно да предизвика однесување кое не е во согласност со спецификацијата на моделот. Навистина се трудиме да го избегнеме ова, а кога ќе се случи, го третираме како сериозна грешка - работиме на прилагодување на однесувањето или спецификација на моделот за да ги усогласиме.
Обуката никогаш не може целосно да го опфати опсегот на сите можни однесувања. Вистинската употреба содржи долга низа од контексти и гранични случаи што се појавуваат само при голем обем, а ниеден процес на обука не може да опфати сè.
Генерализацијата може да се разликува од она што сме го имале намера. Модел може да произведе „правилни“ резултати за време на обуката од ненамерни причини, што може да доведе до ненамерно однесување во нови ситуации што се разликуваат од оние видени за време на обуката. Техники како промислено усогласување⁠ помагаат, но не се целосно решение.

Пошироко гледано, фактот дека спецификацијата на моделот опишува широк спектар посакувани однесувања не значи дека постои единствен метод за да ги научиме сите. Различни аспекти на однесувањето - следење инструкции, безбедносни граници, личност, калибрирано изразување на неизвесност и друго - често бараат различни техники и имаат различни начини на неуспех. Спецификацијата на моделот помага предвиденото однесување полесно да се разбере и критички да се разгледа, но неговото добро спроведување и понатаму останува и уметност и активна област на истражување.

Покрај оваа објава, објавуваме евалуации на спецификацијата на моделот⁠(се отвора во нов прозорец): пакет за евалуација заснован на сценарија, кој се обидува да опфати што е можно повеќе тврдења од спецификацијата на моделот со мал број репрезентативни примери. Ова ни помага да следиме каде однесувањето на моделот и спецификацијата на моделот можеби не се усогласени, и ни помага да провериме дали моделите ја толкуваат спецификацијата на моделот онака како што сме имале намера. Овие евалуации се само еден дел од поширока стратегија за евалуација, која вклучува и понасочени проценки низ многу димензии на однесувањето, вклучувајќи специфични безбедносни области, вистинитост, сикофансија, личност и стил, како и способности.

Графикон за усогласеност со спецификацијата на моделот по делови кај моделите на OpenAI низ времето. Погледни ја придружната објава на блогот⁠(се отвора во нов прозорец) за детали за евалуациите и за тоа како ги толкуваме. Накратко, веруваме дека овие резултати одразуваат вистински и широки подобрувања во усогласеноста на моделот со текот на времето, иако тие одразуваат и мал ефект поради мерењето на постарите модели според поновите политики.

Во практика, повеќето ажурирања на спецификацијата се поттикнати од повторувачки збир влезни информации:

Јавни проблеми и повратни информации. Забуни, гранични случаи или начини на откажување - или во јазикот на спецификацијата на моделот или во однесувањето на нашите модели.
Внатрешни проблеми. Шеми што ги забележуваме за време на развојот и тестирањето, вклучувајќи двосмислености каде што различни разумни толкувања водат до различно однесување.
Ажурирање на политиките за однесување и безбедност. Кога ќе се променат ограничувањата или обврските на повисоко ниво, спецификацијата мора јасно да ја одразува таа нова структура.
Нови можности и производи. Како што моделите стануваат поспособни за нови однесувања и објавуваме нови производи, сакаме спецификацијата на моделот да држи чекор во однос на содржината и опфатот - на пример, со додавање правила за мултимодални интеракции⁠(се отвора во нов прозорец), автономни агенти⁠(се отвора во нов прозорец) и корисници под 18 години⁠(се отвора во нов прозорец).

Што ја прави добра содржината на спецификацијата

Неколку принципи за дизајн го водат начинот на кој ја пишуваме и ревидираме спецификацијата на моделот.

Јасност и прецизност. „Биди искрен“ е добра вредност, но не е целосна постапка за донесување одлуки. Спецификацијата на моделот треба да ги изостри несогласувањата, а не да ги крие зад прифатлив јазик. Каде што е практично, треба експлицитно да ги посочиме потенцијалните конфликти меѓу правилата и да обезбедиме насоки или примери за тоа како да се разрешат. На пример, Не лажи⁠(се отвора во нов прозорец) укажува на потенцијален конфликт со Биди топол⁠(се отвора во нов прозорец), објаснувајќи дека асистентот треба да ги следи нормите на учтивост, но без да премине во мали лаги што би можеле да претставуваат сикофансија⁠(се отвора во нов прозорец) и да бидат спротивни на најдобриот интерес на корисникот.
Суштински правила. Читател треба да може да земе реалистичен промпт и да состави одговор што друг читател јасно ќе го препознае како внатре или надвор од границите (дури и ако на самите рабови има гранични случаи што бараат проценка).
Примери што го максимизираат сигналот од шумот. Добрите примери често се клучни за изработката на висококвалитетно ажурирање на спецификацијата. Примерите треба да помогнат да се навлезе во суштината на тешкотиите при специфицирањето на однесувањето на моделот, изнесувајќи ги тешките конфликти на површина и заземајќи јасен став за тоа како да се разрешат. Дополнително, треба да се стремат да бидат пример за посакуваниот тон и стил, што може да биде тешко да се пренесе преку проза.
Робусност. Се обидуваме да избегнуваме примери со непотребна нејасност или сложеност, за суштинскиот конфликт и предвиденото решение да бидат јасни.
Доследност и јасна организираност. Се стремиме правилата во спецификацијата на моделот да бидат целосно усогласени меѓусебно и со нашето предвидено однесување на моделот, како и целокупната организација на документот да биде јасна и пристапна.

Што ни претстои

Спецификацијата на моделот не претставува тврдење дека можеме да го запишеме сето она што е важно или дека моделите секогаш ќе ја погодат целта. Тоа е тврдење дека наменетото однесување е доволно важно за да биде јасно, применливо и подложно на ревизија.

Три критериуми за успех го водат нашиот развој.

Читливост. Луѓето во и надвор од OpenAI можат да формираат точни очекувања за однесувањето и можат да се повикаат на текст кога однесувањето ќе ги изненади.
Можност за дејствување. Спецификацијата на моделот може да се користи за осмислување проценки, за дијагностицирање инциденти и за носење доследни одлуки за производот, а не само за изразување на вредности.
Можност за ревизија. Спецификацијата на моделот може да се развива додека учиме, без да се претвори во нестабилна подвижна цел.

Како што моделите и производите се развиваат, очекуваме спецификацијата на моделот да се проширува и појаснува во чекор со новите способности и контексти на распоредување. Целта е спецификацијата за однесување да остане кохерентна, проверлива и усогласена со нашата мисија да се осигуриме дека AGI ќе биде од корист за целото човештво.

Автор

Jason Wolfe

Продолжи да читаш

Види ги сите

Како две поставки тројно го зголемија нашиот резултат на тестот ARC-AGI-3

Истражување29 јул. 2026 г.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компанија29 јул. 2026 г.

Scientific computing agentic AI card image (1x1)

Научното пресметување во ерата на автономната ВИ

Објава28 јул. 2026 г.