Przejdź do treści głównej
OpenAI

19 listopada 2025

Bezpieczeństwo

Wzmacnianie naszego ekosystemu bezpieczeństwa poprzez testy zewnętrzne

Nasze podejście do ocen podmiotów trzecich w kontekście zaawansowanej sztucznej inteligencji.

Ładowanie…

W OpenAI uważamy, że niezależne, zaufane oceny przeprowadzane przez podmioty trzecie odgrywają kluczową rolę w wzmacnianiu ekosystemu bezpieczeństwa zaawansowanej sztucznej inteligencji. Oceny podmiotów trzecich to testy przeprowadzane na modelach „frontier”, aby potwierdzić lub dostarczyć dodatkowych dowodów dotyczących kluczowych możliwości bezpieczeństwa oraz zastosowanych środków łagodzących ryzyko. Takie ewaluacje pomagają weryfikować deklaracje dotyczące bezpieczeństwa, chronią przed „ślepymi punktami” oraz zwiększają przejrzystość w zakresie możliwości modeli i związanych z nimi zagrożeń. Zapraszając zewnętrznych ekspertów do testowania naszych zaawansowanych modeli, chcemy również budować zaufanie do jakości naszych ocen możliwości i zabezpieczeń oraz wzmacniać szerszy ekosystem bezpieczeństwa.

Od czasu wprowadzenia GPT‑4 OpenAI współpracuje z wieloma zewnętrznymi partnerami przy testowaniu i ocenie naszych modeli. Ogólnie rzecz biorąc, nasze współprace z podmiotami trzecimi przyjmują trzy formy:

  • Niezależne oceny kluczowych obszarów możliwości i ryzyka, takich jak biosecurity, cybersecurity, samodoskonalanie modeli czy skłonność do działania w sposób strategiczny
  • Przeglądy metodologiczne, które oceniają sposób, w jaki analizujemy i interpretujemy ryzyko
  • Testy ekspertów merytorycznych (SME), w których eksperci oceniają model bezpośrednio na rzeczywistych zadaniach i dostarczają ustrukturyzowanych informacji na temat jego możliwości i adekwatności zabezpieczeń1

W niniejszym wpisie przedstawiamy, w jaki sposób korzystamy z tych form zewnętrznych ocen, dlaczego są istotne, jak wpływają na decyzje dotyczące wdrażania modeli oraz jakie zasady kierują naszymi współpracami. W duchu przejrzystości dzielimy się również informacjami na temat zasad poufności i publikacji, które obowiązują w ramach współpracy z podmiotami trzecimi wykonującymi testy. 

Dlaczego to jest ważne? 

Podmioty zewnętrzne zapewniają dodatkową, niezależną warstwę oceny uzupełniającą nasze prace wewnętrzne, wzmacniając rygor i chroniąc przed błędami wynikającymi z potwierdzania własnych założeń. Ich informacje zwrotne dostarczają dodatkowych dowodów potwierdzających nasze własne oceny, co pomaga podejmować odpowiedzialne decyzje dotyczące wdrażania potężnych systemów.

Oceny podmiotów trzecich są również częścią budowania odpornego ekosystemu bezpieczeństwa. Nasze zespoły przeprowadzają szeroko zakrojone testy wewnętrzne obejmujące różne możliwości i obszary ryzyka, ale niezależne organizacje wnoszą dodatkowe perspektywy i własne podejścia metodologiczne. Pracujemy nad wspieraniem zróżnicowanej grupy wykwalifikowanych organizacji oceniających, które mogą regularnie analizować modele „frontier” razem z nami.

Dążymy także do transparentności w zakresie wpływu tych ocen na nasz proces bezpieczeństwa. Regularnie publikujemy wyniki ocen podmiotów trzecich – na przykład udostępniając podsumowania testów przed wdrożeniem w kartach systemowych oraz wspierając organizacje oceniające w publikacji bardziej szczegółowych raportów po przeglądzie pod kątem poufności i dokładności. Ta przejrzystość buduje zaufanie, pokazując, jak zewnętrzne informacje zwrotne kształtują nasze oceny możliwości i zabezpieczeń.

Stałe relacje oparte na zaufanym dostępie, przejrzystości i wymianie wiedzy pomagają całemu ekosystemowi wyprzedzać pojawiające się zagrożenia oraz umożliwiają rozwój elastycznych, praktycznych ocen potrzebnych do tworzenia silniejszych standardów i bardziej świadomego zarządzania zaawansowanymi systemami AI.

Niezależne oceny przeprowadzane przez zewnętrzne laboratoria

Począwszy od premiery GPT‑4(otwiera nowe okno), wspieraliśmy niezależne ewaluacje na wczesnych checkpointach modelu przed jego wdrożeniem. Od tamtej pory rozszerzyliśmy współpracę z szeregiem zewnętrznych organizacji o dużym doświadczeniu w ocenach kluczowych możliwości modeli „frontier” i obszarów ryzyka. Niezależne prace laboratoryjne mają charakter otwarty, a zespoły zewnętrzne stosują własne metody, aby opracować wnioski lub oceny dotyczące konkretnych zaawansowanych możliwości. 

Na przykład w przypadku GPT‑5 OpenAI koordynowała szeroki zestaw zewnętrznych ocen możliwości w takich obszarach jak długoterminowa autonomia, skłonność do strategii i oszustwa, omijanie nadzoru, możliwość planowania eksperymentów laboratoryjnych oraz ofensywne zdolności w zakresie cyberbezpieczeństwa.  

Te niezależne oceny uzupełniają testy realizowane zgodnie z Preparedness Framework OpenAI i obejmują benchmarki, takie jak ewaluacja horyzontu czasowego(otwiera nowe okno) METR czy ocena VCT (Virology Capabilities Troubleshooting)(otwiera nowe okno) SecureBio. 

Aby umożliwić te ewaluacje, zapewnialiśmy bezpieczny dostęp do wczesnych checkpointów modeli, wybrane wyniki ocen ukazujące wzrost możliwości, dostęp bez retencji danych oraz modele z ograniczonymi zabezpieczeniami. Na przykład organizacje testujące w obszarach cybersecurity i biosafety pracowały na modelach zarówno z, jak i bez zabezpieczeń, aby badać podstawowe możliwości. Kilka innych organizacji otrzymało dostęp do pełnych „chain-of-thought”, co pozwoliło analizować proces rozumowania modelu. Ten poziom przejrzystości umożliwił wykrycie przypadków ukrywania możliwości („sandbagging”2) lub zachowań strategicznych widocznych dopiero przy analizie chain-of-thought. Dostęp zapewniano przy rygorystycznych kontrolach bezpieczeństwa, które są stale aktualizowane wraz z rozwojem możliwości modeli i potrzeb testowych.

Przegląd metodologii

W wybranych przypadkach zewnętrzni oceniający mogą najlepiej wesprzeć nas poprzez przegląd metodologii – dostarczając dodatkowych perspektyw dotyczących ram i dowodów, na których opierają się analizy ryzyka. Na przykład, podczas uruchamiania gpt-oss, zastosowaliśmy kontradyktoryjne dostrajanie, aby oszacować najgorsze możliwości dla modeli o otwartych wagach, opisane w sekcji Szacowanie najgorszego ryzyka granicznego dla LLM o otwartych wagach. Kluczowe pytanie dotyczyło tego, czy złośliwy użytkownik mógłby dostroić model tak, aby osiągnął wysoki poziom możliwości w obszarach takich jak bio lub cyber, zgodnie z Preparedness Framework. Ze względu na kosztochłonny charakter testów zaprosiliśmy podmioty trzecie do przeglądu metod i wyników, zamiast stosować analogiczne duże eksperymenty zewnętrzne.

Wiązało się to z wielotygodniowym procesem dzielenia się wdrożeniami oceny, szczegółami dotyczącymi podejścia do przeciwstawnego dostrajania i zbierania ustrukturyzowanych zaleceń dotyczących ulepszenia metodologii i ocen dla najgorszego ryzyka granicznego. Opinie od osób oceniających doprowadziły do zmian w ostatecznym kontradyktoryjnym procesie dostrajania i wykazały wartość potwierdzenia metodologicznego. Zanotowaliśmy w dokumencie i karcie systemowej gpt-oss, które z przyjętych przez nas rozwiązań zostały uwzględnione, a także uzasadniliśmy te, których nie przyjęliśmy.

W tym przypadku przegląd metodologii był właściwszym rozwiązaniem niż niezależne oceny: ewaluacje wymagały przeprowadzenia zakrojonych na dużą skalę testów najgorszych scenariuszy, co wymaga infrastruktury i specjalistycznej wiedzy technicznej, które zazwyczaj nie są dostępne poza dużymi laboratoriami AI. Oznaczało to, że niezależne oceny prawdopodobnie nie pozwoliłyby bezpośrednio uzyskać wglądu w najgorsze możliwe scenariusze, a bardziej produktywne było skoncentrowanie pracy zewnętrznych oceniających na potwierdzaniu przedstawionych założeń. Zewnętrzni oceniający przeanalizowali metody i dowody(otwiera nowe okno), wskazując luki istotne dla podejmowania decyzji, które zostały uwzględnione w ramach procesu udzielania rekomendacji. To podejście chcemy rozszerzać również na inne obszary, w których ograniczenia dotyczące dostępu lub infrastruktury czynią bezpośrednie przeprowadzanie ocen przez podmioty trzecie niepraktycznym lub tam, gdzie zewnętrzne ewaluacje jeszcze nie istnieją. 

Testy ekspertów merytorycznych (SME)

Kolejnym sposobem angażowania zewnętrznych ekspertów są testy ekspertów merytorycznych (SME), w ramach których specjaliści oceniają model bezpośrednio i dostarczają ustrukturyzowanych informacji poprzez ankiety, wspierając naszą ocenę jego możliwości. Różni się to od red teamingu, którego celem jest granularne testowanie konkretnych zabezpieczeń. Takie podejście pozwala uzupełnić ewaluacje Preparedness Framework o spostrzeżenia właściwe dla danej dziedziny, odzwierciedlające wiedzę ekspercką i kontekst rzeczywisty, którego statyczne oceny mogą nie uchwycić. Na przykład zaprosiliśmy panel ekspertów merytorycznych do skorzystania z modelu „helpful-only”3, aby przetestować własne kompleksowe scenariusze biologiczne dla ChatGPT Agent oraz GPT‑5. Eksperci oceniali, w jakim stopniu model mógłby wesprzeć specjalistę takiego jak oni sami w porównaniu z mniej doświadczonym nowicjuszem – na podstawie przydatności wskazówek udzielanych w danych scenariuszach.  Celem było zebranie dodatkowych informacji o tym, jak skutecznie system może przybliżyć zmotywowanego nowicjusza do kompetentnego wykonania zadania: eksperci SME testowali nasze deklaracje dotyczące „wsparcia nowicjusza” w realistycznych przepływach pracy, które sami opracowali, i przekazywali szczegółowe opinie o tym, w jakich miejscach model oferował realną, krok-po-kroku pomoc, a gdzie dostarczał jedynie mniej użyteczne podsumowania. Ten proces testów ekspertów został włączony do całościowej oceny dotyczącej wdrożenia tych modeli i przedstawiony w kartach systemowych przy obu premierach. 

Co sprawia, że współpraca z podmiotami trzecimi jest skuteczna?

W duchu przejrzystości przedstawiamy więcej informacji o tym, na co zgadzają się oceniający zewnętrzni podczas współpracy z nami oraz jakie zasady regulują te współprace:

  • Przejrzystość przy zachowaniu ostrożnych granic poufności: Zewnętrzni oceniający podpisują umowy o zachowaniu poufności (NDA), które umożliwiają udostępnianie poufnych, niepublicznych informacji potrzebnych do przeprowadzenia ich ocen. W Aneksie do tego wpisu zamieszczamy odpowiednie fragmenty umów z podmiotami trzecimi, które określają prawa dotyczące publikacji oraz oczekiwania związane z procesem przeglądu. Kierujemy się zasadą przejrzystości i dążymy do umożliwienia publikacji, które poszerzają wiedzę na temat bezpieczeństwa i związanych z nim ocen, bez naruszania poufnych informacji lub własności intelektualnej. W ramach tego procesu przeglądamy i zatwierdzamy publikacje wyników ocen przeprowadzonych przez podmioty trzecie, aby zapewnić zarówno poufność, jak i zgodność z faktami. W ostatnich latach kilka zespołów zewnętrznych opublikowało swoje analizy równolegle z naszymi podsumowaniami ocen w kartach systemowych. Przykładami prac opublikowanych po naszym przeglądzie pod kątem poufności i dokładności są: [Raport METR dotyczący GPT‑5(otwiera nowe okno), Raport Apollo Research dotyczący OpenAI o1(otwiera nowe okno), Ocena GPT‑5 organizacji Irregular(otwiera nowe okno)
  • Przemyślane ujawnianie informacji oraz bezpieczny, wrażliwy dostęp: Domyślnie udostępniamy informacje i dostęp do modeli przeznaczonych do publikacji lub gotowych do produkcyjnego użycia. Gdy wymaga tego proces oceny, zapewniamy głębszy dostęp, na przykład do modeli typu „helpful-only” lub informacji niepublicznych. Firma OpenAI udostępniała takie formy dostępu tam, gdzie były one niezbędne do rozwiązania kluczowych zagadnień związanych z bezpieczeństwem analizowanych przez zespoły zewnętrzne. Co istotne, tego rodzaju wrażliwy dostęp wymaga ścisłych środków bezpieczeństwa, które stale aktualizujemy wraz z rozwojem możliwości modeli i potrzebami testowymi.
  • Wyważone bodźce finansowe: Uważamy, że ważne jest zapewnienie, aby ekosystem ocen podmiotów trzecich był odpowiednio finansowany i trwały. Z tego powodu oferujemy wynagrodzenie wszystkim zewnętrznym oceniającym, choć niektóre organizacje decydują się je odrzucić, zgodnie ze swoją filozofią działania. Formy wynagrodzenia obejmują bezpośrednie płatności za pracę i/lub pokrycie kosztów korzystania z modeli poprzez kredyty API lub inne rozwiązania. Żadne wynagrodzenie nigdy nie jest uzależnione od wyników oceny przeprowadzonej przez podmiot trzeci.

W połączeniu czynniki te pomagają ocenom podmiotów trzecich jednocześnie chronić wrażliwe informacje, wspierać przejrzystość w obszarze bezpieczeństwa AI oraz tworzyć możliwości godziwego wynagradzania ekspertów za ich czas. 

Przyszłość

Patrząc w przyszłość, dostrzegamy potrzebę dalszego wzmacniania ekosystemu organizacji zdolnych do przeprowadzania wiarygodnych, istotnych dla podejmowania decyzji ocen systemów AI klasy „frontier”. Efektywna ocena przez podmioty trzecie wymaga specjalistycznej wiedzy, stabilnego finansowania i rygoru metodologicznego. Stałe inwestowanie w wykwalifikowane organizacje oceniające, rozwój nauki o pomiarach oraz bezpieczeństwo dostępu do wrażliwych informacji będzie kluczowe, aby oceny mogły nadążać za rozwojem możliwości modeli. 

Oceny przeprowadzane przez podmioty trzecie są jednym ze sposobów wprowadzania zewnętrznych perspektyw do naszych prac nad bezpieczeństwem – działają równolegle z innymi mechanizmami. Współpracujemy również z ekspertami zewnętrznymi w ramach ustrukturyzowanych działań red teamingowych, projektów kolektywnej zgodności (collective alignment), współprac z U.S. CAISI i UK AISI, a także poprzez grupy doradcze, takie jak nasze Global Physician Network oraz Expert Council on Well-Being and AI, które wspierają nasze prace dotyczące zdrowia psychicznego i dobrostanu użytkowników. Działania te dostarczają różnorodnych form ekspertyzy i wzmacniają szersze, bardziej niezawodne fundamenty do oceny i nadzoru nad zaawansowanymi systemami AI.

Aneks

Poniżej przedstawiamy przykładowe fragmenty naszych umów z podmiotami trzecimi współpracującymi z nami przy ocenach przedwdrożeniowych. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Autor

OpenAI

Przypisy

  1. 1

    Różni się to od red teamingu, którego celem jest szczegółowe testowanie zabezpieczeń i dostarczanie danych do rozwoju ewaluacji.

  2. 2

    Sytuacja, gdy model celowo zaniża swoje możliwości lub ukrywa swoje rzeczywiste kompetencje, gdy wykrywa, że jest oceniany lub testowany.

  3. 3

    Modele „helpful-only” odpowiadają na każde polecenie, nawet jeśli jest szkodliwe. Są one tworzone za pomocą metod potreningowych, które osiągają to zachowanie.