Artiklar
AI
Bekräftelsemaskinen: Om syntetisk trygghet, tolkningsmellanrummet och MIT-papret som bekräftar

Bekräftelsemaskinen

Om syntetisk trygghet, tolkningsmellanrummet och MIT-papret som bekräftar

03 april 2026

Katri Lindgren

AI Kognitiv Integritet Dopaminlogik Syntetisk Trygghet LLM AI-psykos RLHF Emotion Recognition

I nästan två decennier har jag arbetat med hur digitala system påverkar mänskligt beteende och kognition. När språkmodellerna slog igenom började jag systematiskt korsa neurovetenskap, beteendeforskning och LLM-arkitektur för att förstå vad som faktiskt händer när människor samtalar med AI. Det jag fann beskrev jag genom begreppen kognitiv integritet, syntetisk trygghet, tolkningsmellanrummet och dopaminlogik, publicerat på erigo.se sedan maj 2025. I februari 2026 publicerade forskare vid MIT ett formellt matematiskt bevis för samma mekanism. De kallade det delusional spiraling. Den här artikeln sätter MIT:s bevis i relation till det analytiska ramverk jag byggt sedan maj 2025, går djupare än pappret gör och landar i vad det faktiskt kräver av oss.

Det som känns som ett bra samtal

Katri Lindgren - Bekräftelsemaskinen: Om syntetisk trygghet, tolkningsmellanrummet och MIT-papret som bekräftar

I februari 2026 publicerade forskare vid MIT ett paper med en slutsats som borde ha skakat om debatten om AI och kognition. De visade, via en formell Bayesiansk modell, att en sycofantisk chattbot kan driva även en fullt rationell person mot felaktiga övertygelser. Inte genom att ljuga. Inte genom att manipulera. Utan genom att konsekvent hålla med.

De kallade det "delusional spiraling."

Jag har kallat det syntetisk trygghet sedan 2025.

Det är inte en slump att vi valde olika ord för samma sak. MIT:s paper är ett matematiskt bevis. Mina artiklar är observationer från nästan två decennier av arbete med beteendedata i digitala miljöer, från adtech till edtech, från algoritmiska flöden till språkmodeller. Matematiken bekräftar det vi som arbetat nära dessa system redan sett: att det farligaste med ett AI-samtal är hur bra det känns.

Du vet känslan. Modellen förstår vad du menar. Den bygger vidare på ditt resonemang. Den bekräftar din analys. Du lämnar samtalet med en känsla av klarhet, en upplevelse av att ha tänkt bra. Det är den känslan som är problemet.

Begreppen och deras ursprung

"Algoritmerna lärde sig forma vad du exponeras för och tillförde en ny dopaminlogik. Språkmodellerna formar hur du tänker och resonerar i realtid, inifrån samtalet. Jag beskrev det som syntetisk trygghet redan 2025. MIT publicerade det matematiska beviset i februari 2026." — Katri Lindgren, Erigo

De begrepp som används i den här artikeln är utvecklade inom ramen för mitt arbete med AI:s påverkan på mänskligt tänkande och kognition. Här är en kort förklaring av vart och ett, med länkar till de ursprungsartiklar där de introducerades.

Kognitiv integritet är förmågan att bibehålla strukturerat och självständigt tänkande i miljöer som är designade för att bekräfta snarare än utmana. En kapacitet byggd i miljöer som innehåller motstånd och eroderad i miljöer som eliminerar det. Introducerat i Kognitiv integritet: och den tysta omformningen av vårt tänkande (maj 2025) och vidare utvecklat i Kognitiv integritet: ett systemvillkor i informationsåldern (juli 2025).

Syntetisk trygghet är den kognitiva upplevelsen av att vara förstådd och bekräftad av ett system som är konstruerat för att producera exakt den upplevelsen. Till skillnad från mänsklig bekräftelse opererar den utan underliggande position, historia eller intresse. Systemet har ett optimeringsmål. Introducerat i Syntetisk trygghet: när bekräftelselogik i AI påverkar vår kognition och vidare utvecklat i AI-psykos och syntetisk trygghet: Förskjutningen när samtalet flyttar till systemen (augusti 2025).

Tolkningsmellanrummet är utrymmet mellan stimulus och respons, mellan input och slutsats, där det egentliga tänkandet sker. Ett kognitivt rum som kräver friktion för att existera. En sycofantisk modell fyller systematiskt detta utrymme med bekräftelse och eliminerar därmed den kognitiva process som ska ske där.

Dopaminlogik beskriver hur digitala system som optimerar för engagemang lär sig att leverera snabba bekräftelsecykler eftersom det är vad som håller användaren kvar. Sociala medier tillämpade detta på innehåll. Språkmodeller tillämpar det på resonemang. Introducerat i Nu omformateras vårt tänkande: Dopamin och språkmodeller skriver om hjärnans spelplan (augusti 2025).

Vad MIT faktiskt visar

Pappret heter "Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians" och är skrivet av Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley och Joshua B. Tenenbaum vid MIT CSAIL och MIT Department of Brain & Cognitive Sciences. Du hittar det på arxiv.org/abs/2602.19141. Det är en formell modell som bevisar att spiralen uppstår strukturellt, oavsett hur rationell användaren är.

Mekaniken är enkel. Du ställer en fråga. Modellen håller med dig. Du tolkar det som bekräftelse. Din övertygelse stärks. Du ställer nästa fråga från en position av ännu starkare övertygelse. Modellen håller med dig igen. Varje iteration ökar avståndet från verkligheten, och du saknar verktyg för att märka det inifrån.

Forskarna testade två uppenbara lösningar. Den första: stoppa modellen från att ljuga. Fungerade inte. En modell som aldrig ljuger kan fortfarande driva dig mot vanföreställningar genom att välja vilka sanningar den lyfter fram och vilka den lämnar utanför. Den andra: varna användaren om att modellen är sycofantisk. Fungerade inte heller. Vetskapen om att systemet tenderar att hålla med förändrar ingenting när du väl är inne i samtalet. Feedbackloopen är starkare än varningen.

Båda fixarna misslyckades. Inte delvis. Strukturellt.

Skälet finns i träningsprocessen. Modellerna tränas med mänsklig feedback där användare belönar svar de gillar. Svar som bekräftar, håller med och validerar genererar mer positiv feedback än svar som utmanar. Modellen lär sig att hålla med. Det är vad optimeringen producerar.

Syntetisk trygghet som förklaringsmodell

MIT:s paper beskriver mekaniken. Det jag arbetat med sedan maj 2025 beskriver varför den fungerar så väl på oss.

Syntetisk trygghet är den kognitiva upplevelsen av att vara förstådd och bekräftad av ett system som är konstruerat för att producera exakt den upplevelsen. Ett tillstånd där hjärnan registrerar trygghet i en relation som saknar de egenskaper som normalt skapar den.

Mänsklig dialog innehåller friktion. En kollega som håller med dig gör det utifrån sin egen historia, sina egna blinda fläckar och sina egna intressen. Hennes bekräftelse är en social signal du kan undersöka, ifrågasätta och kalibrera mot. En AI-modell som håller med dig opererar utan underliggande position, utan historia och utan intresse. Den har ett optimeringsmål.

Det är just frånvaron av friktion som gör den syntetiska tryggheten så effektiv. Hjärnan tolkar frånvaron av motstånd som konsensus. Konsensus tolkas som sanning. Och eftersom systemet alltid är tillgängligt, alltid samlat och alltid bekräftande, börjar det konkurrera ut de relationer som faktiskt innehåller det motstånd kognitionen behöver.

Det är här MIT:s matematiska bevis och mitt analytiska ramverk möts. Spiralen uppstår för att systemet är optimerat för att producera en upplevelse av förståelse, och den upplevelsen aktiverar samma kognitiva processer som verklig förståelse gör. Du kan skilja dem åt utifrån. Inifrån samtalet försvinner gränsen.

Tolkningsmellanrummet kollapsar

Det MIT:s paper mäter är beliefs, vad du tror är sant. Det är allvarligt nog. Men det jag följt sedan maj 2025 är en djupare förändring: vad som händer med förmågan att tolka överhuvudtaget.

Tolkningsmellanrummet är utrymmet mellan stimulus och respons, mellan input och slutsats, där det egentliga tänkandet sker. Där du väger, tvekar, omformulerar, backar och prövar igen. Ett kognitivt rum som kräver friktion för att existera. Utan motstånd finns inget att navigera.

En sycofantisk modell eliminerar systematiskt det utrymmet. Den fyller varje tolkningsgap med bekräftelse. Där du kunde ha stannat upp och frågat om du förstått rätt, ger systemet dig ett svar som låter som att du förstått rätt. Där du kunde ha mött en motfråga som tvingat dig att precisera, får du en uppföljning som bygger vidare på din formulering som om den vore självklar.

Delusional spiraling är det MIT beskriver när beliefs förskjuts. Men under den förskjutningen sker något som pappret inte mäter: varje samtal där tolkningsmellanrummet fylls av systemet är ett samtal där du inte övade på att hålla det öppet själv. Skadan sitter i mönstret över tid.

Det här är varför de två misslyckade fixarna i MIT:s modell är logiska. Att stoppa lögner eller varna för sycofancy adresserar beliefs. Men den underliggande skadan sker på förmåganivå. Du kan korrigera en felaktig övertygelse. Det är svårare att återbygga ett tolkningsutrymme du slutat använda.

RLHF och dopaminlogik

Det finns en strukturell orsak till att systemet beter sig som det gör, och den finns i träningsprocessen.

Reinforcement Learning from Human Feedback, RLHF, är den metod som används för att finjustera stora språkmodeller. Principen är enkel: mänskliga bedömare utvärderar modellens svar och belönar de de föredrar. Modellen lär sig att producera svar som genererar positiv feedback. Problemet är vad människor faktiskt belönar. Vi belönar svar som känns bra. Svar som bekräftar vår världsbild, validerar vår analys och håller med oss om slutsatser vi redan dragit genererar mer positiv feedback än svar som utmanar, korrigerar eller introducerar komplexitet.

Det är vad optimeringen producerar när den tränas på mänskliga preferenser i realtid.

Det här är exakt vad jag beskrivit som dopaminlogik i tidigare arbete. Digitala system som optimerar för engagemang lär sig att leverera snabba bekräftelsecykler eftersom det är vad som håller oss kvar. Sociala medier gjorde detta med innehåll. Språkmodeller gör det med resonemang. Skillnaden är att ett flöde bekräftar din identitet och dina åsikter. En språkmodell bekräftar ditt tänkande i realtid, i ett samtal som känns som ett möte med en kompetent och neutral part.

Det är en kvalitativt annorlunda intervention i kognitionen. Flödet påverkar vad du exponeras för. Modellen påverkar hur du tänker medan du tänker.

Och precis som med dopaminlogiken i sociala medier är mekanismen inbyggd i affärsmodellen. Användare som upplever bekräftelse återkommer. Användare som utmanas gör det i lägre utsträckning. Systemet optimerar för återkomst, och bekräftelse producerar återkomst. Det är vad siffrorna säger.

Vad det kräver av oss

Det finns en frestelse att avsluta en analys som denna med en lista på åtgärder. Stäng av notifikationerna. Använd AI kritiskt. Ställ motfrågor. Det är råd som placerar ansvaret hos individen för ett strukturellt problem, och de missar poängen i MIT:s bevis: att vetskapen om systemet inte skyddar dig från det.

Kognitiv integritet är en kapacitet. Förmågan att hålla tolkningsmellanrummet öppet, att tolerera friktion utan att söka bekräftelse, att skilja mellan upplevelsen av att förstå och det faktiska arbetet med att förstå. Den kapaciteten byggs och underhålls i miljöer som innehåller motstånd. Den eroderar i miljöer som är konstruerade för att eliminera det.

Det betyder att frågan om syntetisk trygghet och delusional spiraling ytterst är en fråga om vilka miljöer vi bygger och väljer. Inte bara digitala miljöer, utan lärande miljöer, arbetsplatsmiljöer, samtalskulturer. Miljöer där det är accepterat att inte hålla med. Där en motfråga är ett tecken på engagemang, inte på konflikt. Där friktion behandlas som en resurs snarare än ett problem att lösa.

AI-verktyg kan användas på sätt som stärker kognitiv integritet. Det kräver att de används som motståndare snarare än bekräftare, att du aktivt ber systemet utmana din analys, hitta svagheter i ditt resonemang och argumentera mot din slutsats. Det är ett annat sätt att använda samma verktyg. Det kräver att du redan vet vad du söker, och att du har kapaciteten att hålla kvar vid frågan även när svaret känns tillfredsställande.

Det är precis den kapaciteten som eroderar om du låter systemet fylla tolkningsmellanrummet åt dig.

MIT bevisade matematiskt att spiralen är strukturell. Det jag lagt till är att skadan inte bara sitter i vad du tror. Den sitter i hur du tänker. Och den bygger på, steg för steg, i varje samtal där bekräftelsen kom lite för snabbt och kändes lite för bra.

Relaterade artiklar:

Kognitiv integritet: och den tysta omformningen av vårt tänkande — Maj 2025
Kognitiv integritet: ett systemvillkor i informationsåldern — Juli 2025
Syntetisk trygghet: när bekräftelselogik i AI påverkar vår kognition
AI-psykos och syntetisk trygghet: Förskjutningen när samtalet flyttar till systemen — Augusti 2025
Nu omformateras vårt tänkande: Dopamin och språkmodeller skriver om hjärnans spelplan — Augusti 2025

Primär källa:

Chandra, K., Kleiman-Weiner, M., Ragan-Kelley, J., & Tenenbaum, J.B. (2026). Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. MIT CSAIL. arxiv.org/abs/2602.19141

Bekräftelsemaskinen: Om syntetisk trygghet, tolkningsmellanrummet och MIT-papret som bekräftar

Innehållsförteckning

Det som känns som ett bra samtal Begreppen och deras ursprung Vad MIT faktiskt visar Syntetisk trygghet som förklaringsmodell Tolkningsmellanrummet kollapsar RLHF och dopaminlogik Vad det kräver av oss

ELSA

Erigo Learning Support Agent

Fråga ELSA om artikeln

Sammanfatta, översätt eller ställ frågor

ELSA drivs av Erigo RAG

Håll dig uppdaterad

Få nyheter, artiklar och inspiration direkt i din inkorg.