Gå direkt till huvudinnehåll
OpenAI

13 februari 2026

SäkerhetProdukt

Vi introducerar nedstängningsläge och konsekventa etiketter för förhöjd risk i ChatGPT

Laddar …

När AI-system tar sig an mer komplexa uppgifter (särskilt de som involverar webben och anslutna appar) förändras säkerhetsriskerna.

En framväxande risk har blivit särskilt viktig: promptinjektion. I dessa attacker försöker en tredje part vilseleda ett konversationsbaserat AI-system till att följa skadliga instruktioner eller avslöja känslig information.

Idag introducerar vi två nya skyddsåtgärder som är utformade för att hjälpa användare och organisationer att minska riskerna med promptinjektionsattacker, med större insyn i risker och starkare kontroller:

  • Nedstängningsläge i ChatGPT, en avancerad och valfri säkerhetsinställning för användare med högre risk
  • Etiketter för "förhöjd risk" för vissa funktioner som kan innebära ökad risk i ChatGPT, ChatGPT Atlas och Codex

Dessa tillägg bygger vidare på våra befintliga skyddsåtgärder på modell-, produkt- och systemnivå. Detta inkluderar sandlådor, skydd mot URL-baserad dataexfiltrering, övervakning och efterlevnad, samt företagskontroller såsom rollbaserad åtkomst och granskningsloggar.

Hjälpa organisationer att skydda medarbetare som är mest utsatta för cyberattacker

Nedstängningsläge är en valfri, avancerad säkerhetsinställning som är utformad för en liten grupp mycket säkerhetsmedvetna användare (t.ex. chefer och säkerhetsteam på framstående organisationer) som behöver ökat skydd mot avancerade hot. Det är inte nödvändigt för de flesta användare. Nedstängningsläge begränsar hur ChatGPT kan interagera med externa system för att minska risken för dataexfiltrering via promptinjektion.

Nedstängningsläget inaktiverar deterministiskt vissa verktyg och funktioner i ChatGPT som en angripare kan försöka använda för att exfiltrera känslig uppgifter från användares konversationer eller anslutna appar via attacker såsom promptinjektioner.

Webbsurfning är till exempel begränsat till cachelagrat innehåll i nedstängningsläge vilket innebär att inga nätverksförfrågningar lämnar OpenAI:s kontrollerade nätverk. Denna begränsning är utformad för att förhindra att känslig information exfiltreras till en angripare genom webbsurfning. Vissa funktioner är helt avstängda när vi inte kan ge starka deterministiska garantier för datasäkerhet.

Diagram med titeln "Låst läge" som visar ChatGPT inuti en säker gräns med anslutningar till en privat webbcache, nedladdning av filer, åtkomst till webben via Canvas och surfning på den offentliga webben. En extern "angripare" och den offentliga webben avbildas utanför gränsen med blockerade ingångspunkter som indikerar begränsad åtkomst i nedstängningsläge.

Nedstängningsläge är en ny deterministisk inställning som skyddar data från att oavsiktligt delas med tredje parter genom att strikt begränsa hur ChatGPT kan interagera med vissa externa system.

ChatGPT:s företagsplaner erbjuder redan datasäkerhet på företagsnivå. Nedstängningsläge bygger vidare på dessa skydd och är tillgängligt för ChatGPT Enterprise, ChatGPT Edu, ChatGPT for Healthcare, and ChatGPT for Teachers. Administratörer kan aktivera det under Inställningar för arbetsyta(öppnas i ett nytt fönster) genom att skapa en ny roll(öppnas i ett nytt fönster). När aktiverat lägger nedstängningsläge till ytterligare begränsningar ovanpå befintliga administratörsinställningar.

Läs mer om nedstängningsläge i vårt hjälpcenter(öppnas i ett nytt fönster).

Eftersom vissa kritiska arbetsflöden är beroende av appar behåller administratörerna för arbetsytan mer detaljerad kontroll. De kan välja exakt vilka appar och vilka åtgärder inom dessa appar som är tillgängliga för användare i nedstängningsläge. Utöver nedstängningsläge ger även Compliance API Logs Platform(öppnas i ett nytt fönster) detaljerad insyn i appanvändning, delade data och anslutna källor vilket hjälper administratörer att behålla överblicken.

Vi planerar att göra nedstängningsläget tillgängligt för konsumenter under de kommande månaderna.

Att hjälpa användare att ta välgrundade beslut om risker

AI-produkter kan vara mer användbara när de är anslutna till dina appar och webben, och vi har investerat mycket i att skydda anslutna data. Vissa nätverksrelaterade funktioner introducerar dock nya risker som ännu inte fullt ut kan hanteras av branschens säkerhets- och skyddsåtgärder. Vissa användare kan känna sig bekväma med att ta dessa risker och vi anser att det är viktigt att användarna har möjlighet att bestämma om och hur de ska använda dem, särskilt när de hanterar sina privata data.

Vår strategi har varit att erbjuda vägledning i produkten för funktioner som kan innebära ökad risk. För att göra detta tydligare och mer konsekvent standardiserar vi hur vi benämner en kort lista över befintliga funktioner. Dessa funktioner kommer nu att använda etiketten "Ökad risk" i ChatGPT, ChatGPT Atlas och Codex så att användarna får samma vägledning oavsett vart de stöter på dem.

Utvecklare kan till exempel i Codex (vår kodningsassistent) ge Codex nätverksåtkomst så att den kan utföra åtgärder på webben såsom att söka efter dokumentation. Den relevanta inställningsskärmen innehåller etiketten "Ökad risk" samt en tydlig förklaring av vad som ändras, vilka risker som kan introduceras och när åtkomsten är lämplig.

Inställningspanelen för "Internetåtkomst för agent" med reglaget i "På" visar alternativ för en lista över tillåtna domäner, ytterligare tillåtna domäner (inklusive openai.com), tillåtna HTTP-metoder och en markerad varning som anger förhöjda säkerhetsrisker vid aktivering av internetåtkomst.

En skärmdump av Codex-inställningsskärmen där användare kan konfigurera nätverksåtkomsten hos Codex.

Vad händer härnäst?

Vi fortsätter att investera i att stärka våra säkerhets- och trygghetsåtgärder, särskilt för nya, framväxande och ökande risker. När vi stärker skyddsåtgärderna för dessa funktioner kommer vi att ta bort etiketten "Ökad risk" när vi bedömer att säkerhetsförbättringarna i tillräcklig grad har minskat dessa risker för allmän användning. Vi kommer även fortsättningsvis att uppdatera vilka funktioner som har denna etikett för effektiv kommunikation av risk till användarna.

Författare

OpenAI