Wzmacnianie naszego ekosystemu bezpieczeństwa poprzez testy zewnętrzne
Nasze podejście do ocen podmiotów trzecich w kontekście zaawansowanej sztucznej inteligencji.
W OpenAI uważamy, że niezależne, zaufane oceny przeprowadzane przez podmioty trzecie odgrywają kluczową rolę w wzmacnianiu ekosystemu bezpieczeństwa zaawansowanej sztucznej inteligencji. Oceny podmiotów trzecich to testy przeprowadzane na modelach „frontier”, aby potwierdzić lub dostarczyć dodatkowych dowodów dotyczących kluczowych możliwości bezpieczeństwa oraz zastosowanych środków łagodzących ryzyko. Takie ewaluacje pomagają weryfikować deklaracje dotyczące bezpieczeństwa, chronią przed „ślepymi punktami” oraz zwiększają przejrzystość w zakresie możliwości modeli i związanych z nimi zagrożeń. Zapraszając zewnętrznych ekspertów do testowania naszych zaawansowanych modeli, chcemy również budować zaufanie do jakości naszych ocen możliwości i zabezpieczeń oraz wzmacniać szerszy ekosystem bezpieczeństwa.
Od czasu wprowadzenia GPT‑4 OpenAI współpracuje z wieloma zewnętrznymi partnerami przy testowaniu i ocenie naszych modeli. Ogólnie rzecz biorąc, nasze współprace z podmiotami trzecimi przyjmują trzy formy:
- Niezależne oceny kluczowych obszarów możliwości i ryzyka, takich jak biosecurity, cybersecurity, samodoskonalanie modeli czy skłonność do działania w sposób strategiczny
- Przeglądy metodologiczne, które oceniają sposób, w jaki analizujemy i interpretujemy ryzyko
- Testy ekspertów merytorycznych (SME), w których eksperci oceniają model bezpośrednio na rzeczywistych zadaniach i dostarczają ustrukturyzowanych informacji na temat jego możliwości i adekwatności zabezpieczeń1
W niniejszym wpisie przedstawiamy, w jaki sposób korzystamy z tych form zewnętrznych ocen, dlaczego są istotne, jak wpływają na decyzje dotyczące wdrażania modeli oraz jakie zasady kierują naszymi współpracami. W duchu przejrzystości dzielimy się również informacjami na temat zasad poufności i publikacji, które obowiązują w ramach współpracy z podmiotami trzecimi wykonującymi testy.
Podmioty zewnętrzne zapewniają dodatkową, niezależną warstwę oceny uzupełniającą nasze prace wewnętrzne, wzmacniając rygor i chroniąc przed błędami wynikającymi z potwierdzania własnych założeń. Ich informacje zwrotne dostarczają dodatkowych dowodów potwierdzających nasze własne oceny, co pomaga podejmować odpowiedzialne decyzje dotyczące wdrażania potężnych systemów.
Oceny podmiotów trzecich są również częścią budowania odpornego ekosystemu bezpieczeństwa. Nasze zespoły przeprowadzają szeroko zakrojone testy wewnętrzne obejmujące różne możliwości i obszary ryzyka, ale niezależne organizacje wnoszą dodatkowe perspektywy i własne podejścia metodologiczne. Pracujemy nad wspieraniem zróżnicowanej grupy wykwalifikowanych organizacji oceniających, które mogą regularnie analizować modele „frontier” razem z nami.
Dążymy także do transparentności w zakresie wpływu tych ocen na nasz proces bezpieczeństwa. Regularnie publikujemy wyniki ocen podmiotów trzecich – na przykład udostępniając podsumowania testów przed wdrożeniem w kartach systemowych oraz wspierając organizacje oceniające w publikacji bardziej szczegółowych raportów po przeglądzie pod kątem poufności i dokładności. Ta przejrzystość buduje zaufanie, pokazując, jak zewnętrzne informacje zwrotne kształtują nasze oceny możliwości i zabezpieczeń.
Stałe relacje oparte na zaufanym dostępie, przejrzystości i wymianie wiedzy pomagają całemu ekosystemowi wyprzedzać pojawiające się zagrożenia oraz umożliwiają rozwój elastycznych, praktycznych ocen potrzebnych do tworzenia silniejszych standardów i bardziej świadomego zarządzania zaawansowanymi systemami AI.
Począwszy od premiery GPT‑4(otwiera nowe okno), wspieraliśmy niezależne ewaluacje na wczesnych checkpointach modelu przed jego wdrożeniem. Od tamtej pory rozszerzyliśmy współpracę z szeregiem zewnętrznych organizacji o dużym doświadczeniu w ocenach kluczowych możliwości modeli „frontier” i obszarów ryzyka. Niezależne prace laboratoryjne mają charakter otwarty, a zespoły zewnętrzne stosują własne metody, aby opracować wnioski lub oceny dotyczące konkretnych zaawansowanych możliwości.
Na przykład w przypadku GPT‑5 OpenAI koordynowała szeroki zestaw zewnętrznych ocen możliwości w takich obszarach jak długoterminowa autonomia, skłonność do strategii i oszustwa, omijanie nadzoru, możliwość planowania eksperymentów laboratoryjnych oraz ofensywne zdolności w zakresie cyberbezpieczeństwa.
Te niezależne oceny uzupełniają testy realizowane zgodnie z Preparedness Framework OpenAI i obejmują benchmarki, takie jak ewaluacja horyzontu czasowego(otwiera nowe okno) METR czy ocena VCT (Virology Capabilities Troubleshooting)(otwiera nowe okno) SecureBio.
Aby umożliwić te ewaluacje, zapewnialiśmy bezpieczny dostęp do wczesnych checkpointów modeli, wybrane wyniki ocen ukazujące wzrost możliwości, dostęp bez retencji danych oraz modele z ograniczonymi zabezpieczeniami. Na przykład organizacje testujące w obszarach cybersecurity i biosafety pracowały na modelach zarówno z, jak i bez zabezpieczeń, aby badać podstawowe możliwości. Kilka innych organizacji otrzymało dostęp do pełnych „chain-of-thought”, co pozwoliło analizować proces rozumowania modelu. Ten poziom przejrzystości umożliwił wykrycie przypadków ukrywania możliwości („sandbagging”2) lub zachowań strategicznych widocznych dopiero przy analizie chain-of-thought. Dostęp zapewniano przy rygorystycznych kontrolach bezpieczeństwa, które są stale aktualizowane wraz z rozwojem możliwości modeli i potrzeb testowych.
W wybranych przypadkach zewnętrzni oceniający mogą najlepiej wesprzeć nas poprzez przegląd metodologii – dostarczając dodatkowych perspektyw dotyczących ram i dowodów, na których opierają się analizy ryzyka. Na przykład, podczas uruchamiania gpt-oss, zastosowaliśmy kontradyktoryjne dostrajanie, aby oszacować najgorsze możliwości dla modeli o otwartych wagach, opisane w sekcji Szacowanie najgorszego ryzyka granicznego dla LLM o otwartych wagach. Kluczowe pytanie dotyczyło tego, czy złośliwy użytkownik mógłby dostroić model tak, aby osiągnął wysoki poziom możliwości w obszarach takich jak bio lub cyber, zgodnie z Preparedness Framework. Ze względu na kosztochłonny charakter testów zaprosiliśmy podmioty trzecie do przeglądu metod i wyników, zamiast stosować analogiczne duże eksperymenty zewnętrzne.
Wiązało się to z wielotygodniowym procesem dzielenia się wdrożeniami oceny, szczegółami dotyczącymi podejścia do przeciwstawnego dostrajania i zbierania ustrukturyzowanych zaleceń dotyczących ulepszenia metodologii i ocen dla najgorszego ryzyka granicznego. Opinie od osób oceniających doprowadziły do zmian w ostatecznym kontradyktoryjnym procesie dostrajania i wykazały wartość potwierdzenia metodologicznego. Zanotowaliśmy w dokumencie i karcie systemowej gpt-oss, które z przyjętych przez nas rozwiązań zostały uwzględnione, a także uzasadniliśmy te, których nie przyjęliśmy.
W tym przypadku przegląd metodologii był właściwszym rozwiązaniem niż niezależne oceny: ewaluacje wymagały przeprowadzenia zakrojonych na dużą skalę testów najgorszych scenariuszy, co wymaga infrastruktury i specjalistycznej wiedzy technicznej, które zazwyczaj nie są dostępne poza dużymi laboratoriami AI. Oznaczało to, że niezależne oceny prawdopodobnie nie pozwoliłyby bezpośrednio uzyskać wglądu w najgorsze możliwe scenariusze, a bardziej produktywne było skoncentrowanie pracy zewnętrznych oceniających na potwierdzaniu przedstawionych założeń. Zewnętrzni oceniający przeanalizowali metody i dowody(otwiera nowe okno), wskazując luki istotne dla podejmowania decyzji, które zostały uwzględnione w ramach procesu udzielania rekomendacji. To podejście chcemy rozszerzać również na inne obszary, w których ograniczenia dotyczące dostępu lub infrastruktury czynią bezpośrednie przeprowadzanie ocen przez podmioty trzecie niepraktycznym lub tam, gdzie zewnętrzne ewaluacje jeszcze nie istnieją.
Kolejnym sposobem angażowania zewnętrznych ekspertów są testy ekspertów merytorycznych (SME), w ramach których specjaliści oceniają model bezpośrednio i dostarczają ustrukturyzowanych informacji poprzez ankiety, wspierając naszą ocenę jego możliwości. Różni się to od red teamingu, którego celem jest granularne testowanie konkretnych zabezpieczeń. Takie podejście pozwala uzupełnić ewaluacje Preparedness Framework o spostrzeżenia właściwe dla danej dziedziny, odzwierciedlające wiedzę ekspercką i kontekst rzeczywisty, którego statyczne oceny mogą nie uchwycić. Na przykład zaprosiliśmy panel ekspertów merytorycznych do skorzystania z modelu „helpful-only”3, aby przetestować własne kompleksowe scenariusze biologiczne dla ChatGPT Agent oraz GPT‑5. Eksperci oceniali, w jakim stopniu model mógłby wesprzeć specjalistę takiego jak oni sami w porównaniu z mniej doświadczonym nowicjuszem – na podstawie przydatności wskazówek udzielanych w danych scenariuszach. Celem było zebranie dodatkowych informacji o tym, jak skutecznie system może przybliżyć zmotywowanego nowicjusza do kompetentnego wykonania zadania: eksperci SME testowali nasze deklaracje dotyczące „wsparcia nowicjusza” w realistycznych przepływach pracy, które sami opracowali, i przekazywali szczegółowe opinie o tym, w jakich miejscach model oferował realną, krok-po-kroku pomoc, a gdzie dostarczał jedynie mniej użyteczne podsumowania. Ten proces testów ekspertów został włączony do całościowej oceny dotyczącej wdrożenia tych modeli i przedstawiony w kartach systemowych przy obu premierach.
W duchu przejrzystości przedstawiamy więcej informacji o tym, na co zgadzają się oceniający zewnętrzni podczas współpracy z nami oraz jakie zasady regulują te współprace:
- Przejrzystość przy zachowaniu ostrożnych granic poufności: Zewnętrzni oceniający podpisują umowy o zachowaniu poufności (NDA), które umożliwiają udostępnianie poufnych, niepublicznych informacji potrzebnych do przeprowadzenia ich ocen. W Aneksie do tego wpisu zamieszczamy odpowiednie fragmenty umów z podmiotami trzecimi, które określają prawa dotyczące publikacji oraz oczekiwania związane z procesem przeglądu. Kierujemy się zasadą przejrzystości i dążymy do umożliwienia publikacji, które poszerzają wiedzę na temat bezpieczeństwa i związanych z nim ocen, bez naruszania poufnych informacji lub własności intelektualnej. W ramach tego procesu przeglądamy i zatwierdzamy publikacje wyników ocen przeprowadzonych przez podmioty trzecie, aby zapewnić zarówno poufność, jak i zgodność z faktami. W ostatnich latach kilka zespołów zewnętrznych opublikowało swoje analizy równolegle z naszymi podsumowaniami ocen w kartach systemowych. Przykładami prac opublikowanych po naszym przeglądzie pod kątem poufności i dokładności są: [Raport METR dotyczący GPT‑5(otwiera nowe okno), Raport Apollo Research dotyczący OpenAI o1(otwiera nowe okno), Ocena GPT‑5 organizacji Irregular(otwiera nowe okno)]
- Przemyślane ujawnianie informacji oraz bezpieczny, wrażliwy dostęp: Domyślnie udostępniamy informacje i dostęp do modeli przeznaczonych do publikacji lub gotowych do produkcyjnego użycia. Gdy wymaga tego proces oceny, zapewniamy głębszy dostęp, na przykład do modeli typu „helpful-only” lub informacji niepublicznych. Firma OpenAI udostępniała takie formy dostępu tam, gdzie były one niezbędne do rozwiązania kluczowych zagadnień związanych z bezpieczeństwem analizowanych przez zespoły zewnętrzne. Co istotne, tego rodzaju wrażliwy dostęp wymaga ścisłych środków bezpieczeństwa, które stale aktualizujemy wraz z rozwojem możliwości modeli i potrzebami testowymi.
- Wyważone bodźce finansowe: Uważamy, że ważne jest zapewnienie, aby ekosystem ocen podmiotów trzecich był odpowiednio finansowany i trwały. Z tego powodu oferujemy wynagrodzenie wszystkim zewnętrznym oceniającym, choć niektóre organizacje decydują się je odrzucić, zgodnie ze swoją filozofią działania. Formy wynagrodzenia obejmują bezpośrednie płatności za pracę i/lub pokrycie kosztów korzystania z modeli poprzez kredyty API lub inne rozwiązania. Żadne wynagrodzenie nigdy nie jest uzależnione od wyników oceny przeprowadzonej przez podmiot trzeci.
W połączeniu czynniki te pomagają ocenom podmiotów trzecich jednocześnie chronić wrażliwe informacje, wspierać przejrzystość w obszarze bezpieczeństwa AI oraz tworzyć możliwości godziwego wynagradzania ekspertów za ich czas.
Patrząc w przyszłość, dostrzegamy potrzebę dalszego wzmacniania ekosystemu organizacji zdolnych do przeprowadzania wiarygodnych, istotnych dla podejmowania decyzji ocen systemów AI klasy „frontier”. Efektywna ocena przez podmioty trzecie wymaga specjalistycznej wiedzy, stabilnego finansowania i rygoru metodologicznego. Stałe inwestowanie w wykwalifikowane organizacje oceniające, rozwój nauki o pomiarach oraz bezpieczeństwo dostępu do wrażliwych informacji będzie kluczowe, aby oceny mogły nadążać za rozwojem możliwości modeli.
Oceny przeprowadzane przez podmioty trzecie są jednym ze sposobów wprowadzania zewnętrznych perspektyw do naszych prac nad bezpieczeństwem – działają równolegle z innymi mechanizmami. Współpracujemy również z ekspertami zewnętrznymi w ramach ustrukturyzowanych działań red teamingowych, projektów kolektywnej zgodności (collective alignment), współprac z U.S. CAISI i UK AISI, a także poprzez grupy doradcze, takie jak nasze Global Physician Network oraz Expert Council on Well-Being and AI, które wspierają nasze prace dotyczące zdrowia psychicznego i dobrostanu użytkowników. Działania te dostarczają różnorodnych form ekspertyzy i wzmacniają szersze, bardziej niezawodne fundamenty do oceny i nadzoru nad zaawansowanymi systemami AI.
Poniżej przedstawiamy przykładowe fragmenty naszych umów z podmiotami trzecimi współpracującymi z nami przy ocenach przedwdrożeniowych.
Autor
Przypisy
- 1
Różni się to od red teamingu, którego celem jest szczegółowe testowanie zabezpieczeń i dostarczanie danych do rozwoju ewaluacji.
- 2
Sytuacja, gdy model celowo zaniża swoje możliwości lub ukrywa swoje rzeczywiste kompetencje, gdy wykrywa, że jest oceniany lub testowany.
- 3
Modele „helpful-only” odpowiadają na każde polecenie, nawet jeśli jest szkodliwe. Są one tworzone za pomocą metod potreningowych, które osiągają to zachowanie.


