Поглед отвътре към нашия подход към спецификацията на модела
С нарастването на възможностите на системите с ИИ и с все по-широкото им използване ни е необходима ясна обществена рамка за това как трябва да се държат тези системи.
В OpenAI вярваме, че ИИ трябва да бъде справедлив, безопасен и свободно достъпен, така че повече хора да могат да го използват, за да решават сложни проблеми, да създават възможности и да се възползват от него в области като здраве, науки, образование, работа и ежедневие. Вярваме, че демократизираният достъп до ИИ е най-добрият път напред: не ИИ, чиито ползи или контрол са съсредоточени в ръцете на малцина, а ИИ, до който повече хора могат да имат достъп, да разбират и да помагат за неговото развитие.
Това е една от основните причина, поради която съществува спецификацията на модела на OpenAI. Спецификацията на модела(отваря се в нов прозорец) е официалната ни рамка за поведението на модела. Тя определя как искаме моделите да следват инструкции, да разрешават конфликти, да зачитат свободата на потребителя и да се държат безопасно в невероятно широкия спектър от запитвания, които потребителите им отправят ежедневно. В по-широк план това е нашият опит да направим предвиденото поведение на модела ясно изразено: не само в рамките на нашия процес на обучение, но и във форма, която потребителите, разработчиците, изследователите, създателите на политики и по-широката общественост действително могат да четат, проверяват и обсъждат.
Спецификацията на модела не е твърдение, че нашите модели вече се държат изцяло по този начин. В много отношения тя е описателна, но е и цел, към която искаме да насочим поведението на модела. Използваме я, за да направим предвиденото поведение по-ясно, така че да можем да обучаваме моделите и да оценяваме резултатите спрямо него, както и да го подобряваме с течение на времето.
В тази публикация споделяме предисторията, която не е включена в самата спецификация на модела, включително философията и механизмите зад нея: как е структурирана, защо сме взели тези структурни решения и как я пишем, прилагаме и развиваме с течение на времето.
Спецификация на модела е част от по-широкия подход на OpenAI към безопасен и отговорен ИИ. Докато Рамката за готовност е насочена към рисковете от авангардните способности и предпазните мерки, които са необходими с нарастването на тези рискове, спецификацията на модела разглежда различен, но допълващ се въпрос: как трябва да се държат нашите модели в широк спектър от ситуации. Ако погледнем в още по-широк план, устойчивостта на ИИ има за цел да отговори на по-широкото обществено предизвикателство да помогне на обществото да извлече ползите от напредналия ИИ, като същевременно намалява сътресенията и нововъзникващите рискове с внедряването на все по-способни системи. Като цяло тези инициативи имат за цел да подпомогнат прехода към AGI да бъде постепенен, итеративен и демократично разбираем: което дава на хората и институциите време да се адаптират, докато същевременно се изграждат необходимите предпазни мерки, механизми за отчетност и обществено разбиране за поддържане на мощния ИИ в съответствие с човешките интереси.
Публичната яснота относно поведението на модела е от значение както за справедливостта, така и за безопасността. От значение е за справедливостта, защото хората трябва да разбират как и защо ИИ се отнася към тях по начина, по който го прави – и да могат да идентифицират, да поставят под въпрос и да разглеждат опасения, свързани със справедливостта, при тяхното възникване. От значение е и за безопасността, защото с нарастването на възможностите на системите с ИИ хората и институциите се нуждаят от по-ясни очаквания за това как е предвидено да се държат, какви компромиси са заложени в тях и как тези избори могат да бъдат подобрени с течение на времето. Този вид разбираемост подкрепя и устойчивостта, като дава на повече хора нещо конкретно, което да изследват, поставят под въпрос и подобряват.
От първата си версия през 2024 г. спецификацията на модела отбеляза съществено развитие, докато научаваме повече за предпочитанията и нуждите на потребителите, разширяваме обхвата ѝ и адаптирането ѝ към по-големите възможности и се учим от обществената обратна връзка относно поведението и спецификацията на модела. В духа на итеративното внедряване, спецификацията на модела е развиващ се документ, който обхваща както основополагащи ценности, така и изрични, ясно формулирани правила, съчетани с процес за промяна на отделни елементи, докато се учим от внедряването в реални условия и получената обратна връзка. Инвестираме и в механизми за обществена обратна връзка като колективно съгласуване, за да помогнем на човечеството да запази контрола върху начина, по който се използва ИИ, и начина, по който се формира поведението на ИИ.
От вътрешна гледна точка това ни дава ясен ориентир за желаното поведение и обща рамка за обучение, оценяване и управление. От външна гледна точка това създава обществена отправна точка, която хората могат да използват, за да разберат нашия подход, да го критикуват и с течение на времето да помогнат да го подобрим.
Спецификацията на модела включва няколко различни вида насоки за работа с модела. Това е умишлено. Различните аспекти на поведението на модела изискват прилагането на различен подход, а полезния публичен документ трябва да има много по-голяма роля от простото изброяване на правила.
Спецификацията на модела започва с общо намерение: ясно формулирано описание на това какво се стремим да оптимизираме на системно ниво и защо.
В това уводно изложение са изяснени три цели, чрез които планираме да изпълним своята мисия:
- Итеративно внедряване на модели, които предоставят възможности на разработчиците и потребителите
- Предотвратяване на сериозни вреди, които моделите ни могат да причинят на потребителите или на други лица
- Поддържане на лиценза на OpenAI за извършване на дейност
След това се обяснява как подхождаме към балансирането на тези цели на практика, като компромисите са представени като достатъчно конкретни, за да подкрепят изброените след това по-подробни принципи.
Важно е да се отбележи, че това уводно изложение не представлява директна инструкция за модела. Ползата за човечеството е целта на OpenAI, а не цел, която искаме нашите модели да преследват самостоятелно. Вместо това искаме моделите да следват командна верига, която включва спецификацията на модела и приложимите инструкции от OpenAI, разработчиците и потребителите – дори когато някои хора може да не са съгласни с резултата в конкретен случай.
Смятаме, че това е правилният баланс, защото ценим човешката автономност и интелектуална свобода. Ако обучавахме модели да решават на кои инструкции да се подчиняват въз основа на собствената ни преценка за това кое е добро за обществото, OpenAI би се оказала в позицията да отсъжда по въпросите на морала в много широк план. Независимо от посоченото по-горе, това уводно изложение продължава да има своето значение. Когато има неяснота относно начина на прилагане на спецификацията на модела, уводното изложение следва да помогне за разрешаването ѝ.
Спецификацията на модела включва и обществени ангажименти, които надхвърлят пряко измеримото поведение на модела и обхващат намеренията за обучение и ограниченията за внедряване. Например нашите принципи, които не подлежат на промяна(отваря се в нов прозорец), включват ангажимент, че при внедрявания от първа страна като ChatGPT никога няма да използваме системни съобщения, за да компрометираме умишлено обективността(отваря се в нов прозорец) или свързаните с нея принципи; а принципът „Никакви други цели“(отваря се в нов прозорец) поема ангажименти относно нашите намерения да оптимизираме отговорите на модела в полза на потребителя, а не за реализиране на приходи или за увеличаване на неползотворното време на потребителя на сайта.
В основата на спецификацията на модела е командната верига: рамка за определяне кои инструкции следва да се прилагат в дадена ситуация. Тя също така разглежда как моделът трябва да обработва недостатъчно конкретизирани инструкции, особено в агентни среди, където се очаква самостоятелно да допълва детайлите, като същевременно внимателно контролира страничните ефекти в реалния свят.
Основната идея при вземането на решение кои инструкции трябва да се прилагат е проста. Инструкциите могат да идват от различни източници, включително OpenAI, разработчици и потребители. Тези инструкции може да си противоречат. Командната верига обяснява как моделът трябва да разрешава тези конфликти.
На всяка политика от спецификацията на модела и на всяка инструкция се задава ниво на авторитет(отваря се в нов прозорец). Моделът е инструктиран да дава приоритет на буквата и духа на инструкциите от по-високо ниво на авторитет при възникване на конфликти. Ако даден потребител поиска помощ за създаването на бомба, моделът трябва да даде приоритет на строгите граници за безопасност(отваря се в нов прозорец). Ако даден потребител поиска да бъде осмян, моделът по принцип трябва да даде приоритет на тази заявка пред политиката срещу обидно съдържание(отваря се в нов прозорец) с по-нисък приоритет в спецификацията на модела.
Тази структура ни позволява да дефинираме сравнително малък набор от правила, които не могат да бъдат променяни, наред с по-широк набор от настройки по подразбиране. Така се опитваме да увеличим максимално свободата на потребителите и контрола на разработчиците в рамките на ограниченията за безопасност.
- Твърдите правила са изрично определени граници, които не могат да бъдат заобиколени от потребители или разработчици (в терминологията на спецификацията на модела това са инструкции на „коренно“ или „системно“ ниво). Те са предимно забранителни и изискват от моделите да избягват поведение, което може да доведе до катастрофални рискове или пряка физическа вреда, до нарушаване на закони или подкопаване на командната верига. Очакваме ИИ да се превърне в основна технология за обществото, подобно на базовата интернет инфраструктура. Затова налагаме само правила, които могат да ограничат интелектуалната свобода, когато смятаме, че са необходими за широкия кръг разработчици и потребители, които ще взаимодействат с него. В спецификацията на модела принципът „Не излизай от границите“(отваря се в нов прозорец) съдържа строги правила, които разглеждат конкретни реални рискове за безопасността, а „Принципите за лица под 18 години“(отваря се в нов прозорец) включват допълнителни предпазни мерки за потребители под 18-годишна възраст.
- Настройките по подразбиране са начални точки, които могат да бъдат променяни: поведението на асистента, основано на „най-добрата му преценка“, когато потребителят или разработчикът не е посочил предпочитание. Използваме настройки по подразбиране, за да направим поведението предсказуемо и контролируемо в по-голям мащаб, така че хората да могат да предвиждат какво ще се случи, без да се налага всеки път да създават специално създаден набор от инструкции. Настройките по подразбиране запазват възможността за управление: потребителите и разработчиците могат изрично да контролират тона, дълбочината, формата и дори гледната точка в рамките на границите за безопасност. Стойностите по подразбиране на ниво насоки (като тон или стил) са проектирани така, че да могат да бъдат управлявани имплицитно, докато стойностите по подразбиране на ниво потребител (като правдивост и обективност) служат като опорни точки за доверие и предвидимост и могат да бъдат отменени само чрез изрични инструкции. Те не трябва незабелязано да се изместват въз основа на субективни усещания; ако потребителят желае различна фактическа позиция, изричната инструкция за това запазва промяната прозрачна и разбираема. Тези настройки по подразбиране са отразени в принципите „Търсим истината заедно“(отваря се в нов прозорец), „Върши работата по възможно най-добрия начин“(отваря се в нов прозорец) и „Използвай подходящ стил“(отваря се в нов прозорец), включително нормите за честност и обективност, избягване на угодничество и норми за взаимодействие като прямота, топлота и професионализъм, подходящи за контекста.
Освен самата йерархия, спецификацията на модела използва помощни средства за тълкуване, които помагат на моделите (и на хората) да я прилагат последователно в неясните случаи. Тези помощни средства включват:
- Критерии за вземане на решения, които помагат на модела да прави последователни избори в неясни случаи, без да се преструва, че има едно-единствено механично правило. Например насоките в спецификацията на модела относно контролирането на страничните ефекти(отваря се в нов прозорец) изброяват съображения като свеждане до минимум на необратимите действия, поддържане на пропорционалност на действията спрямо целта, намаляване на неприятните изненади и предпочитане на обратими подходи, които следва да бъдат балансирани спрямо други цели, като бързото и ефективно изпълнение на задачата.
- Конкретни примери, които показват как един принцип трябва да се прилага на практика. Това са кратки примери с подкани и отговори, които обикновено включват както съответстващ, така и несъответстващ отговор, често в случай на трудна подкана близо до важна граница на вземане на решение. Целта не е да се симулира напълно реалистичен разговор. Целта е да се изясни ключовото разграничение и то по начин, който да демонстрира желания стил на отговор.
Поддържаме броя на примерите сравнително ограничен и се съсредоточаваме върху най-информативните. По-широките набори за оценка помагат да се обхване по-голяма част от дългия списък.
Пример, илюстриращ принципите на интелектуалната свобода и непредубеденост от раздела на спецификацията „Изхождай от предположението за добри намерения“(отваря се в нов прозорец).
Спецификацията е интерфейс, а не имплементация. Тя описва поведението, което желаем, а не всеки детайл от начина, по който го постигаме. Опитваме се да избягваме обвързването ѝ с детайли по имплементацията, като например вътрешни формати на токени или точната рецепта за обучение за конкретно поведение, защото тези детайли може да се променят, дори когато желаното поведение не се променя. Основната аудитория на спецификацията на модела не е моделът, а хората: тя е предназначена да помага на служителите на OpenAI, потребителите, разработчиците, изследователите и създателите на политики да разбират, обсъждат и вземат решения относно желаното поведение.
Същевременно спецификацията описва модела, а не целия продукт. Допълва се от нашите политики за използване, които описват нашите очаквания за начина, по който хората трябва да използват API и ChatGPT. Системата, с която взаимодействат потребителите , включва повече от самия модел: продуктови функции като персонализирани инструкции и памет, наблюдение, прилагане на политики и други слоеве също са от значение. Безопасността е много повече от поведението на модела и ние вярваме в задълбочената защита.
Спецификацията също така не представлява пълно подробно описание на целия ни набор от обучения или на всяко различие във вътрешните ни политики. Целта не е да се обхване всеки детайл. Целта е да направим най-важните поведенчески решения разбираеми по начин, който е напълно съгласуван с предвиденото поведение на нашия модел.
Има няколко причини да включим толкова много подробности в спецификацията, вместо да разчитаме, че читателят – или моделът – могат да изведат всичко от няколко общи цели.
Първо, спецификацията на модела е инструмент за прозрачност и отчетност. Създадена е, за да насърчава смислена обратна връзка с обществеността. Ясната обществена цел помага на хората да разберат дали дадено поведение е грешка или характеристика. Това им дава стабилна отправна точка за критика и конкретна обратна връзка. Затова превърнахме спецификацията на модела в отворен код(отваря се в нов прозорец) и решихме да я усъвършенстваме публично. От първата версия насам бяха направени много промени въз основа на обратната връзка с обществеността, събрана чрез различни механизми, включително формуляри за обратна връзка, публични критики и целенасочени усилия за събиране на демократични мнения.
Второ, спецификацията на модела е инструмент за координация в OpenAI. Тя предоставя на хората в областта на научните изследвания, продуктовата дейност, безопасността, политиките, правните въпроси, комуникациите и други функции общ речник за обсъждане на поведението на модела и механизъм за предлагане и преглед на промените.
Трето, изричните политики могат да компенсират практическите ограничения в интелигентността на модела и контекста по време на изпълнение и да направят поведението по-предсказуемо. Въпреки че с течение на времето това става все по-малко вярно, някои политики имат за цел да компенсират недостатъчната интелигентност, при която моделите може да не извеждат надеждно правилното поведение от по-общи принципи. Например принципът „Бъди ясен и директен“(отваря се в нов прозорец) съветваше по-ранните модели да показват стъпките си, преди да дадат отговор при трудни задачи, които изискват изчисления, докато днес нашите модели усвояват това поведение естествено чрез обучение с утвърждение.
Други политики разглеждат ограничения контекст по време на изпълнение: асистентът може да разчита само на това, което е наблюдаемо в текущото взаимодействие, и рядко знае пълната ситуация на потребителя, намерението му, последващата употреба или какви предпазни мерки съществуват извън модела. В тези случаи, дори ако моделите биха могли да определят правилното поведение с достатъчно проучване и обмисляне, конкретността подобрява ефективността и предвидимостта, като свежда много отделни преценки до насоки, които намаляват вариациите между сходни подкани и правят поведението по-лесно за разбиране както за потребителите, така и за изследователите.
И накрая, спецификацията на модела цели да предостави пълен списък с общи политики, свързани с оценяването и измерването. Ако искате да оцените дали даден модел се държи според очакванията, е полезно да разполагате с публичен списък на основните категории поведение, които Ви интересуват.
Изкушаващо е да се мисли, че достатъчно способен модел би могъл да изведе правилното поведение от кратък списък с цели като „да бъде полезен и безопасен“. В това има известна доза истина. В области с обективни критерии за успех, като математиката, интелигентността често може да замести подробните правила.
Като цяло обаче поведението на моделите не прилича на решаването на проста математическа задача; моделите често работят в по-сложни области, където няма един-единствен морално правилен отговор, с който всички да са съгласни. Например какво означава един модел да бъде „полезен и безопасен“ зависи изключително много от контекста и е резултат от вземането на решения, които по своята същност се основават на определени ценности. Интелигентността сама по себе си не Ви казва какви компромиси да правите, когато става въпрос за етика и ценности. Затова дори когато моделите стават по-интелигентни, все още трябва да работим, за да разберем и насочваме ценностните преценки / какво означава да се действа „етично“ в конкретен случай. Едновременно с това повечето от причините за съществуването на спецификацията на модела остават актуални дори когато моделите станат много по-способни: все още се нуждаем от обществена цел, около която хората могат да се координират, от начин да оценяваме дали поведението отговаря на нашите намерения и от механизъм за преразглеждане на правилата, докато се учим. Ако единственото правило е „Бъди полезен и безопасен“, тогава не съществува механизъм, чрез който хората да обсъждат например границите на съдържанието, което моделът следва да откаже да предостави, оставяйки всички тези решения на модела.
Напротив, тъй като моделите стават все по-способни, все по-агентни и се внедряват все по-широко, цената на нееднозначността нараства. Това увеличава значението на ясната поведенческа рамка, вместо да го намалява.
Полезна аналогия е разликата между писмената конституция и съдебната практика. Въпреки че писмената конституция може да съдържа както общи принципи, така и конкретни правила, тя не може да предвиди всички възможни случаи, които биха могли да възникнат и да изискват нейните насоки. Реалните системи за управление също се нуждаят от механизми за тълкуване, уточнения и изрични решения, за да се разрешават сложни случаи или непредвидени проблеми. Публикуваните правила помагат на различните заинтересовани страни да координират действията си дори когато не са съгласни, и ограничават промените, като изискват всяка промяна да бъде изрично посочена. Целта на спецификацията на модела е да изпълнява всички тези роли: изложение на принципи, обществена поведенческа рамка и процес за промяна на спецификацията с течение на времето.
Въпреки това не смятаме, че всичко важно за поведението на модела винаги може да се сведе до изрични правила. Тъй като системите стават все по-автономни, надеждността и доверието все повече ще зависят от по-широк набор от умения и нагласи: умението да се комуникира добре несигурността, зачитането на границите на автономност, избягването на неприятни изненади, проследяването на намеренията с течение на времето и доброто структурирано анализиране на човешките ценности в контекста.
При писането на спецификацията на модела съществува цял спектър между описанието на действителното поведение на модела днес, с всичките му недостатъци, и описанието на идеалната цел в далечното бъдеще. Опитваме се да постигнем баланс, като обикновено се стремим да изпреварим настоящия момент с около 0-3 месеца. Така спецификацията на модела често изпреварва модела поне в няколко области на активно развитие.
Това отразява ролята на спецификацията на модела като описание на предвиденото поведение. Тя трябва да ни насочва в последователна посока, като същевременно остава свързана с това, което вече правим или имаме конкретни краткосрочни планове за изпълнение.
Спецификацията на модела се разработва чрез открит вътрешен процес. Всеки в OpenAI може да коментира по нея или да предложи промени, а окончателните актуализации се одобряват от широк кръг заинтересовани страни с различни функции. На практика десетки хора са допринесли пряко за текста, а още много специалисти от сферите на научните изследвания, инженерните екипи, продуктовите екипи, безопасността, политиката, правните въпроси, комуникациите, глобалните въпроси и други функции дават своя принос. Също така се учим от публичните версии и получената обратна връзка, които ни помагат да тестваме тези решения в реални условия на внедряване.
Това е важно, защото поведението на модела – и последиците от него в света – са изключително сложни. Никой не може да си представи пълния набор от поведения, процеса на обучение и последиците надолу по веригата, но чрез включването на много участници и рецензенти с различни функции можем да подобрим качеството и да повишим доверието.
Една от приятните изненади е, че често е възможен истински консенсус – особено когато се принудим да формулираме компромисите достатъчно точно в писмен вид, така че да конкретизираме разногласията.
Същевременно спецификацията на модела не е изготвена в условия на вакуум. Голяма част от това, което в крайна сметка е включено в нея, представлява обобщение на по-широка работа по поведението, безопасността и политиките. Голяма част от писането на спецификацията на модела всъщност е вид превод: да вземеш съществуваща разработка и да я направиш по-проста, по-последователна, по-добре организирана и по-достъпна, без да се губи основното намерение.
Нашите производствени модели все още не отразяват напълно спецификацията на модела по няколко причини.
- Обучението на модела може да изостава спрямо актуализациите на спецификацията на модела. Тя описва поведение, към което се стремим, така че може да изпреварва това, за което е обучен последният ни модел.
- Обучението може неволно да научи на поведение, което не съответства на спецификацията на модела. Стараем се да избягваме това, но когато все пак се случи, го третираме като сериозна грешка, като работим за коригиране на поведението или на спецификацията на модела, за да ги приведем в съответствие.
- Обучението никога не може да обхване всички възможни модели на поведение. Реалното използване съдържа дълъг списък от контексти и гранични случаи, които се проявяват само при мащабно използване, и нито един процес на обучение не може да обхване всичко.
- Обобщаването може да се различава от това, което сме възнамерявали. Един модел може да генерира „правилните“ резултати по време на обучението по непредвидени причини, което може да доведе до непредвидено поведение в нови ситуации, различни от наблюдаваните по време на обучението. Техники като делиберативно съгласуване са от помощ, но не са достатъчно решение.
В по-общ план фактът, че спецификацията на модела описва широк набор от желани поведения, не означава, че съществува един-единствен метод за тяхното обучаване. Различните аспекти на поведението – следване на инструкции, граници на безопасност, личност, калибрирано изразяване на несигурност и други – често изискват различни техники и имат различни режими на отказ. Спецификацията на модела спомага за по-лесното разбиране и критичен анализ на предвиденото поведение, но доброто ѝ прилагане остава едновременно изкуство и активна област на изследване.
Заедно с тази публикация представяме и Model Spec Evals(отваря се в нов прозорец): пакет от тестове за оценка, базиран на сценарии, който се стреми да обхване възможно най-много твърдения от спецификацията на модела с помощта на ограничен брой представителни примери. Той ни помага да проследяваме къде поведението на модела и спецификацията на модела може да се разминават, както и да проверяваме дали моделите тълкуват спецификацията на модела по начина, по който сме възнамерявали. Тези оценки са само част от по-широката стратегия за оценяване, която включва и по-целенасочени оценки в много измерения на поведението, включително конкретни области на безопасността, правдивост и угодничество, личност и стил, както и способности.
Графика на съответствието със спецификацията на модела по раздели за моделите на OpenAI във времето. Вижте съпътстващата публикация в блога(отваря се в нов прозорец) за подробности относно оценките и как ги интерпретираме. Накратко, смятаме, че тези резултати отразяват реални и широкообхватни подобрения в съгласуваността на моделите с течение на времето, макар че същевременно отразяват и малък ефект, дължащ се на това, че по-старите модели се измерват спрямо по-нови политики.
На практика повечето актуализации на спецификацията се определят от повтарящ се набор от входни данни:
- Обществени въпроси и обратна връзка. Неясноти, гранични случаи или режими на отказ – в езика на спецификацията на модела или в поведението на нашите модели.
- Вътрешни проблеми. Модели, които наблюдаваме по време на разработката и тестването, включително случаи на нееднозначност, при които различни разумни тълкувания водят до различно поведение.
- Актуализации на политиката за поведение и безопасност. При промяна на ограниченията или ангажиментите от по-високо ниво спецификацията трябва ясно да отразява тази нова структура.
- Нови възможности и продукти. С нарастването на възможностите на моделите и с пускането на нови продукти, искаме спецификацията на модела да бъде актуална по отношение на съдържанието и обхвата – например чрез добавяне на правила за мултимодални взаимодействия(отваря се в нов прозорец), автономни агенти(отваря се в нов прозорец) и потребители под 18 години(отваря се в нов прозорец).
Няколко принципа на проектиране определят начина, по който пишем и преразглеждаме спецификацията на модела.
- Яснота и прецизност. „Бъди честен“ е важна ценност, но не е изчерпателна процедура за вземане на решения. Спецификацията на модела трябва да подчертава разногласията, а не да ги прикрива зад удобен език. Когато е целесъобразно, следва изрично да посочваме потенциалните конфликти между правилата и да предоставяме насоки или примери за това как да се разрешават. Например „Не лъжи“(отваря се в нов прозорец) извежда потенциален конфликт с „Бъди любезен“(отваря се в нов прозорец), като обяснява, че асистентът трябва да следва нормите на учтивост, без да стига до благородни лъжи, които биха могли да представляват угодничество(отваря се в нов прозорец) и да бъдат в разрез с най-добрия интерес на потребителя.
- Съществени правила. Читателят трябва да може да вземе реалистична подкана и да създаде отговор, който друг читател да разпознае като ясно попадащ в рамките или извън тях (дори ако в граничните случаи има място за субективна преценка).
- Примери, които максимизират сигнала спрямо шума. Добрите примери често са от основно значение за разработването на висококачествено обновяване на спецификацията. Примерите трябва да помагат да се стигне до същината на трудностите при определянето на поведението на модела, извеждайки на повърхността трудните конфликти и заемайки ясна позиция за това как да бъдат разрешавани. На второ място, те трябва да се стремят да бъдат образци на желания тон и стил, които може да е трудно да се предадат в писмен текст.
- Устойчивост. Опитваме се да избягваме примери с излишна нееднозначност или сложност, така че основният конфликт и предвиденото разрешаване да са ясни.
- Съгласуваност и ясна организация. Стремим се правилата в спецификацията на модела да бъдат напълно съгласувани помежду си и с предвиденото от нас поведение на модела, както и да направим цялостната организация на документа ясна и достъпна.
Спецификацията на модела не е твърдение, че можем да опишем всичко важно или че моделите винаги ще постигат целта. Тя е твърдение, че предвиденото поведение е достатъчно важно, за да бъде ясно, приложимо и подлежащо на преразглеждане.
Три критерия за успех определят начина, по който го развиваме.
- Разбираемост. Хората в OpenAI и извън нея могат да си създадат точни очаквания за поведението и да посочат текста, когато поведението ги изненада.
- Възможност за действие. Спецификацията на модела може да се използва за планиране на оценки, диагностициране на инциденти и вземане на последователни продуктови решения – не само за изразяване на ценности.
- Възможност за преразглеждане. Спецификацията на модела може да се развива, докато учим, без да се превръща в нестабилна, постоянно променяща се цел.
С развитието на моделите и продуктите очакваме спецификацията на модела да се разширява и изяснява в крак с новите възможности и контексти на внедряване. Целта е поведенческата спецификация да остане последователна, проверима и съгласувана с нашата мисия да гарантираме, че AGI ще бъде от полза за цялото човечество.


