I takt med, at ChatGPT er blevet udbredt verden over, har vi set, at folk bruger det ikke kun til at søge information, kode og skrive – men også i forbindelse med dybt personlige valg, herunder livsråd(åbner i et nyt vindue), coaching(åbner i et nyt vindue) og støtte(åbner i et nyt vindue).
I den skala møder vi indimellem mennesker i alvorlig psykisk og følelsesmæssig krise. Vi skrev om det for nogle uger siden, og havde planlagt at dele mere efter vores næste store opdatering. Men de seneste, hjerteskærende sager, hvor mennesker har brugt ChatGPT midt i akutte kriser, vejer meget tungt for os, og vi har derfor besluttet at dele mere allerede nu.
Vores mål er, at vores værktøjer skal være så nyttige som muligt. Som led i det arbejder vi videre på at forbedre, hvordan vores modeller genkender og reagerer på tegn på psykisk og følelsesmæssig mistrivsel og hjælper mennesker videre til den rette hjælp, med input fra fagfolk som rettesnor.
Efterhånden som verden tilpasser sig den nye teknologi, føler vi et dybt ansvar for at hjælpe dem, der har mest brug for det. Vi vil gerne forklare, hvad ChatGPT er designet til at gøre, hvordan vores systemer kan forbedres, samt det fremtidige arbejde, vi har planer om.
Vores mål er ikke at fastholde folks opmærksomhed. Frem for at måle succes ud fra tidsforbrug eller klik, er vi optaget af rent faktisk at være hjælpsomme. Når en samtale indikerer, at en bruger er sårbar og muligvis i fare, har vi en række indbyggede sikkerhedsforanstaltninger i ChatGPT.
Genkendelse og empatiske svar.
Siden begyndelsen af 2023 er vores modeller blevet trænet til ikke at give instruktioner til selvskade og til at skifte til et støttende, empatisk sprog. Hvis en bruger f.eks. skriver, at de har til hensigt at skade sig selv, er ChatGPT trænet til at afvise og i stedet anerkende følelserne og henvise dem til at opsøge hjælp.
Derudover blokeres svar, som vores klassificeringssystem vurderer strider imod vores modellers sikkerhedstræning, automatisk i overensstemmelse med vores defense in depth, med forstærket beskyttelse af mindreårige og brugere, der er logget ud. Billeder med selvskadende indhold blokeres også for alle, med et ekstra værn for mindreårige.
Under meget lange sessioner giver ChatGPT desuden et venligt puf om at holde en pause.
Henvisning til hjælp i den virkelige verden.
Hvis en bruger udtrykker selvmordstanker, er ChatGPT trænet til at henvise personen til at opsøge professionel hjælp. I USA henviser ChatGPT til selvmords- og kriselinjen 988, i Storbritannien til Samaritans, og andre steder til findahelpline.com(åbner i et nyt vindue). Denne logik er indbygget i modellens adfærd.
Vi arbejder desuden tæt sammen med mere end 90 læger i over 30 lande, herunder psykiatere, børnelæger og praktiserende læger, og vi er i gang med at samle en rådgivningsgruppe af eksperter i mental sundhed, unges udvikling og menneske-computer-interaktioner, for at sikre, at vores tilgang afspejler den nyeste viden og bedste fremgangsmåde.
Eskalering af risiko for fysisk skade til menneskelig gennemgang.
Når vi bliver opmærksomme på brugere, der planlægger at skade andre, videresendes deres samtaler til et specialiseret forløb, hvor de gennemgås af et lille team, der er uddannet i vores retningslinjer og har beføjelse til at gribe ind, herunder at lukke for personens brug. Hvis teamet vurderer, at en sag indebærer overhængende fare for alvorlig fysisk skade mod andre, kan sagen blive videregivet til politiet. Af hensyn til brugernes privatliv henviser vi i øjeblikket ikke selvskade til politiet, da interaktioner med ChatGPT er af en særlig privat karakter.
Vi forbedrer løbende, hvordan modellerne svarer i følsomme interaktioner, og arbejder i øjeblikket målrettet på flere områder, herunder at modvirke usund følelsesmæssig afhængighed, håndtering af akutte mentale kriser, samt at reducere eftergivende smiger.
I august lancerede vi GPT‑5 som standardmodellen bag ChatGPT. Samlet set har GPT‑5 vist betydelige forbedringer inden for områder som reducering af usund følelsesmæssig afhængighed, reducering af smiger og en mindskning af ikke-ideelle modelsvar i akutte mentale kriser med mere end 25% sammenlignet med 4o. GPT‑5 er også bygget på en ny sikkerhedstræningsmetode kaldet sikre svar, som lærer modellen at være så hjælpsom som muligt inden for sikkerhedsgrænserne. Det kan f.eks. indebære at give et delvist eller overordnet svar i stedet for detaljer, der kan være skadelige eller usikre.
Selv med disse værn har der været situationer, hvor systemerne ikke reagerede, som de skulle, under følsomme samtaler med brugere. Her er nogle af de områder, vi arbejder på at forbedre.
Styrkelse af sikkerhedsforanstaltningerne i lange samtaler.
Vores beskyttelseslag fungerer bedst og mest stabilt i korte, almindelige udvekslinger. Vi har med tiden erfaret, at modellens sikkerhedstræning kan blive mindre pålidelig under længere interaktioner. I takt med at udvekslingen vokser, kan dele af modellens sikkerhedstræning blive forringet. For eksempel kan ChatGPT korrekt henvise til en selvmordslinje, når nogen først nævner selvmordstanker, men efter mange beskeder over en længere periode kan den ende med at give et svar, der strider imod vores sikkerhedsforanstaltninger. Det er netop de svigt, vi arbejder på at forhindre. Vi forstærker tiltagene, så de bliver ved med at være pålidelige under lange samtaler, og vi forsker i robust adfærd på tværs af flere samtaler. Så hvis en bruger giver udtryk for selvmordstanker i én chat og senere starter en ny, kan modellen fortsat svare passende.
Justering af vores indholdsblokering.
Vi har set nogle tilfælde, hvor indhold, der burde have været blokeret, ikke er blevet det. Disse overseelser opstår som regel, fordi klassificeringssystemet undervurderer alvoren af det, det ser. Vi justerer derfor tærskelværdierne, så beskyttelsesmekanismerne udløses, når de skal.
Vores højeste prioritet er at sikre, at ChatGPT ikke gør en svær situation værre.
Arbejdet stopper ikke ved at løse ovenstående. Vi planlægger også at:
Udvide beredskabet til mennesker i krise.
Mens vores indledende foranstaltninger prioriterede akut selvskade, oplever nogle mennesker også andre former for psykisk uligevægt. For eksempel kan en bruger entusiastisk fortælle modellen, at de mener, de kan køre bil døgnet rundt, fordi de har indset, at de er uovervindelige, efter ikke at have sovet i to nætter. Som det er i dag, vil ChatGPT muligvis ikke fange op på, at det er farligt, og måske endda spørge nysgerrigt ind, hvilket kan forstærke den skadelige adfærd.
Vi arbejder på en opdatering til GPT‑5, der vil gøre det muligt for ChatGPT at deeskalere en situation ved at forsøge at bringe personen tilbage til virkeligheden. I dette eksempel kunne det f.eks. være at forklare, at søvnmangel er farligt og anbefale hvile, før brugeren foretager flere handlinger.
Gøre det nemmere at opnå krisehjælp og få hjælp fra eksperter.
Når brugere giver udtryk for, at de vil skade sig selv, opfordrer vi dem i dag til at søge professionel hjælp og henviser til ressourcer i den virkelige verden. Vi er begyndt at lokalisere ressourcer i USA og Europa og planlægger at udvide til andre markeder. Vi vil også øge tilgængeligheden med adgang til alarm- og krisetjenester med et enkelt klik.
Vi undersøger, hvordan vi kan gribe ind tidligere og forbinde brugerne med certificerede terapeuter, før de står i en akut krise. Det betyder, at vi ser længere end blot kriselinjer og overvejer at opbygge et netværk af autoriserede fagpersoner, som man kan kontakte direkte via ChatGPT. Det kræver tid og omhu at gøre det på den rigtige måde.
Muliggøre forbindelse til betroede kontakter.
Ud over akutte krisetjenester undersøger vi, hvordan det kan gøres lettere at række ud til dem, der står én nærmest. Det kunne omfatte enkelt-klik-beskeder eller -opkald til gemte nødkontakter, venner eller familiemedlemmer, med forslag til formuleringer, så det bliver mere uoverskueligt at tage hul på samtalen.
Vi overvejer også funktioner, hvor man aktivt kan tilvælge, at ChatGPT i alvorlige tilfælde må tage kontakt til en udpeget person på ens vegne.
Styrke beskyttelsen for unge.
Historisk har vi defineret én ideel modeladfærd for alle brugere; efterhånden som ChatGPT er vokset, har vi tilføjet ekstra værn, når vi ved, at brugeren er under 18. Vi udvikler og udruller fortsat beskyttelseslag, der tager højde for unges særlige udviklingsbehov, med stærkere sikkerhedsværn, når det kommer til følsomt indhold og risikoadfærd.
Snart introducerer vi også forældrekontrol, der giver forældre mulighed for at få større indsigt i, og påvirke, hvordan deres unge bruger ChatGPT. Herudover undersøger vi, om det skal gøres muligt for unge (med forældretilsyn) at udpege en betroet nødkontakt. På den måde kan ChatGPT, i øjeblikke med akut mistrivsel, gøre mere end blot at henvise til ressourcer. Den kan hjælpe med at skabe direkte kontakt til nogen, der kan træde til.
Vi er fuldt bevidste om, at sikkerhedsværn fungerer bedst og stærkest, når alle elementer fungerer efter hensigten. Vi vil fortsat forbedre vores tjenester, med ekspertråd og et ansvar over for dem, der bruger vores værktøjer – og håber, at andre vil være med til at sikre, at teknologien beskytter brugerne, når de er allermest sårbare.


