Uppdaterad: 30 april 2025

Så här utvecklar vi ChatGPT och våra grundmodeller

Läs mer om hur vi utvecklar våra modeller och tillämpar dem i produkter som ChatGPT

OpenAI:s grundmodeller, inklusive de modeller som driver ChatGPT, utvecklas med hjälp av tre huvudsakliga informationskällor: (1) information som är allmänt tillgänglig på internet, (2) information som vi får tillgång till genom våra samarbeten med tredje part samt (3) information som våra användare eller mänskliga tränare och forskare tillhandahåller eller genererar.

Denna artikel ger en översikt över den allmänt tillgängliga informationen som vi använder som hjälpmedel för att utveckla dessa modeller samt hur vi samlar in och använder den informationen i enlighet med integritetslagstiftningen. För att förstå hur vi samlar in och använder information från användarna av våra tjänster, inklusive hur man väljer bort att delta i de ChatGPT‑konversationer som används för att hjälpa till att träna våra modeller, hänvisar vi till vår integritetspolicy⁠ och denna artikel.

Vad är ChatGPT och hur fungerar den?

ChatGPT är en tjänst baserad på artificiell intelligens som du får åtkomst till via internet. Du kan använda ChatGPT till en rad olika uppgifter, som att organisera eller sammanfatta information, hjälpa till med översättningar, analysera eller generera en bild, inspirera till kreativitet och hitta nya idéer samt hjälpa till med vardagsuppgifter. ChatGPT har utvecklats på ett sätt som gör att den kan förstå och svara på användares frågor och instruktioner. För att göra detta går den igenom en stor mängd befintlig information, såsom text, bilder, ljud eller video, och lär sig av sambanden i informationen. Modellen lär sig till exempel hur ord vanligtvis är placerade i ett sammanhang med andra ord. Den använder sedan vad den har lärt sig för att förutsäga det kommande mest sannolika ordet som kan dyka upp som svar på en fråga från en användare, och varje efterföljande ord efter det. Modellerna kan också lära sig att generera andra former av information, såsom bilder, genom att lära sig hur pixlarna som bilderna i träningsdatan består av förhåller sig till varandra och till bildtexterna som beskriver dem.

Till exempel kan vi under modellens inlärningsprocess (detta kallas "träning") ha en modell som försöker avsluta meningen: "istället för att svänga vänster, svängde hon ___." Före träningen svarar modellen med slumpmässigt valda ord, men i takt med att den läser och lär sig från stora mängder text blir den bättre på att förstå denna typ av mening och kan förutsäga nästa ord mer precist. Den upprepar sedan denna process på ett enormt antal meningar.

Eftersom det finns ett antal möjligheter för nästa ord i denna mening (till exempel istället för att svänga vänster, svängde hon "höger", "runt" eller "tillbaka") finns det en viss grad av slump i hur en modell kan svara, och i många fall kommer våra modeller att ge olika svar på samma fråga.

Maskininlärningsmodeller består av stora numeriska strängar som kallas "vikter" eller "parametrar" samt kod som tolkar och kör dessa numeriska strängar. En modell varken innehåller eller lagrar kopior av den information som den lär sig från. När en modell lär sig ändras istället några av de numeriska strängar som utgör modellen något för att återspegla vad den har lärt sig. I exemplet ovan granskade modellen information som hjälpte den att förbättras från att ha förutsagt slumpmässigt valda felaktiga ord till att förutsäga mer korrekta ord, men det enda som faktiskt hände i själva modellen var att de numeriska strängarna ändrades något. Modellen lagrade eller kopierade inte meningarna, bilderna eller ljudet som den gick igenom.

Vilken typ av information används för att träna ChatGPT?

Som nämnts ovan utvecklas ChatGPT och våra andra tjänster med hjälp av (1) information som är allmänt tillgänglig på internet, (2) information som vi får tillgång till genom våra samarbeten med tredje part samt (3) information som våra användare eller mänskliga tränare och forskare tillhandahåller eller genererar. Denna artikel fokuserar på den första typen: information som är allmänt tillgänglig på internet.

För denna typ av information använder vi endast allmänt tillgänglig information som är fritt och öppet tillgänglig på internet – till exempel söker vi inte efter information som vi vet finns bakom betalväggar eller från det så kallade mörka nätet. Vi tillämpar filter och tar bort information som vi inte vill att våra modeller ska lära sig från eller producera, såsom hatpropaganda, vuxeninnehåll, webbplatser som huvudsakligen aggregerar personuppgifter och skräppost. Vi använder sedan informationen för att träna våra modeller.

Används personuppgifter för att träna ChatGPT?

Stora mängder data på internet relaterar till personer, så vår träningsdata inkluderar ibland personuppgifter. Vi söker inte aktivt efter personuppgifter för att träna våra modeller.

Vi använder träningsdata enbart för att lära våra modeller intelligens, såsom förmågan att förutsäga, resonera och lösa problem. Vi använder inte och kommer inte att använda några personuppgifter i träningsdatan för att skapa profiler om enskilda personer, för att kontakta dem, för att annonsera till dem, för att försöka sälja dem något eller för att sälja själva informationen.

Våra modeller kan lära sig från personuppgifter för att förstå hur saker som namn och adresser passar i språk och meningar, eller för att lära sig om kända och offentliga personer. Detta gör våra modeller bättre på att ge relevanta svar.

Vi vidtar också åtgärder för att minska behandlingen av personuppgifter när vi tränar våra modeller. Till exempel tar vi bort webbplatser som aggregerar stora mängder personuppgifter och vi tränar våra modeller att avvisa frågor om privat eller känslig information om personer.

På vilket sätt efterlever utvecklingen av ChatGPT integritetslagstiftning?

Vi använder träningsdata på ett lagligt sätt. Våra grundmodeller har många tillämpningsområden som ger betydande fördelar och redan nu hjälper till att skapa innehåll, förbättra kundservice, utveckla programvara, anpassa utbildning, stödja vetenskaplig forskning och mycket mer. Dessa fördelar kan inte förverkligas utan en stor mängd information för att träna modellerna. Dessutom är vår användning av träningsdata inte avsedd att negativt påverka enskilda personer, och de primära källorna till denna träningsdata är redan allmänt tillgängliga. Av dessa skäl baserar vi vår insamling och användning av personuppgifter som ingår i träningsdatan på berättigade intressen enligt integritetslagstiftning såsom EU:s allmänna dataskyddsförordning (GDPR). Detta förklaras mer ingående i vår integritetspolicy⁠. Vi har också genomfört en konsekvensbedömning för dataskydd för att hjälpa till att säkerställa att vi samlar in och använder denna information på ett lagligt och ansvarsfullt sätt.

Vi svarar på invändningar mot behandling och liknande rättigheter. Som ett resultat av språkinlärning kan svaren från ChatGPT ibland innehålla personuppgifter om personer vars personuppgifter förekommer flera gånger på internet (till exempel offentliga personer). Personer i vissa jurisdiktioner kan invända mot våra modellers behandling av deras personuppgifter eller göra andra begäranden som ett led i utövandet av den registrerades rättigheter via vår integritetsportal⁠(öppnas i ett nytt fönster). Du kan även utöva dessa rättigheter genom att kontakta dsar@openai.com⁠.

Vänligen observera att vissa rättigheter eventuellt inte är absoluta enligt integritetslagstiftning. Vi kan avslå en begäran om vi har en laglig grund att göra det. Vi eftersträvar dock att prioritera skyddet av personuppgifter och att efterleva all tillämplig integritetslagstiftning. Om du anser att vi inte har hanterat ett problem på ett tillfredsställande sätt har du rätt att lämna in ett klagomål till tillsynsmyndigheten i landet där du bor.

För mer information om OpenAI:s hantering av personuppgifter som vi samlar in från eller om dig när du använder vår webbplats, applikationer och tjänster, se vår integritetspolicy⁠.