Vem kan man lita på?
Hur bra är AI? Kanske har vi ställt frågan fel hela tiden. Det menar nu många forskare.
Föreställ dig att du ska resa till Palma de Mallorca och piloten öppnar med att säga: ”Välkomna ombord på den här morgonflighten söderut. Det är fint väder och vi beräknar att risken för att störta är ungefär fem procent. Är alla okej med det?”
Det hade naturligtvis väckt en viss uppståndelse i stolsraderna – och exemplifierar i all sin halsbrytande galenskap ett växande problem.
Trots att vi borde veta att vi inte till 100 procent kan lita på AI, så väljer vi oftast att bortse från alla röda varningsflaggor.
Nyligen genomfördes en studie vid University of Pennsylvania, där deltagarna fick lösa logiska problem. Ibland hade de tillgång till AI, ibland inte. Men vad de inte visste var att AI:n var manipulerad och gled på sanningen.
Resultatet?
När deltagarna fick lösa problemen helt utan hjälp av AI klarade de sig bra, när de tog hjälp av AI ökade felsvaren med 15 procent.
En annan studie som väckt uppmärksamhet var ett exempel från sjukvården där man analyserade vad som händer när tre olika AI-system används tillsammans.
Det första systemet analyserade röntgenplåtar från mammografi och hade en träffsäkerhet på 90 procent. Det andra transkriberade läkarens muntliga kommentarer och var korrekt till 85 procent. Dessa två matades sedan in i ett diagnosticeringsverktyg som skulle vara tillförlitligt till 97 procent.

Men när de tre systemen samverkade sjönk pålitligheten till 74 procent. Med andra ord: en av fyra patienter blev feldiagnosticerad.
Men är det så farligt, kanske du tänker?
Jo, det är det. För när vi har tillgång till artificiell intelligens – som vi vet har en betydligt större kapacitet att tröska igenom stora faktamängder och utföra uträkningar än du själv har – så upphör vårt kritiska tänkande. Oftast har ju AI rätt.
Just det sättet att resonera – att se till hur ofta AI har rätt som ett sätt att bedöma hur bra den är – möter nu kritik. I en studie från Princeton University, ”Towards a science of AI agent reliability”, menar forskarna att vi har mätt AI på fel sätt.
För hittills har fokus legat på genomsnittlig framgång: AI har rätt i 95 procent av fallen. Det är ju rätt bra, tänker vi?
Men i många fall är ju allt annat än hundraprocentig framgång fullständigt katastrofalt. Om du sätter dig i en självkörande bil vill du inte att det ska finnas en femprocentig risk att bilen frontalkrockar med en långtradare. Om du är verksamhetsansvarig på ett kärnkraftverk är inte ett nittiofemprocentigt undvikande av härdsmälta ett godkänt utfall – det är en femprocentig risk för ett nytt Tjernobyl.
Kort sagt: Ibland duger inte genomsnittlig framgång som mått.

Forskarna i studien argumenterar i stället för att AI bör bedömas utifrån andra kriterier, som bättre passar verksamheter där ett misslyckande inte är godtagbart alls. Dessa kriterier bör vara konsekvens, robusthet, kalibrering och säkerhet.
Och vad betyder det?
Ungefär detta:
Konsekvens
Blir utfallet detsamma varje gång om instruktionerna är identiska?
Robusthet
Fungerar det även om omständigheterna inte är idealiska?
Kalibrering
Får användarna en korrekt bild av hur säker AI:n är?
Säkerhet
Exakt hur katastrofalt blir resultatet när AI:n misslyckas?
Kanske ska vi även börja tillämpa de här kriterierna på livet i stort: Bättre att vara lycklig på riktigt, än 74 procent glad i genomsnitt?
Bilder: K-AI
Publicerad 25.06.2026



