AI bliver mere kraftfuld, men dens hallucinationer bliver værre

Illustration: Chatbot undersøgelse hos lægen, Robert Wagner, Wikimedia Commons.

Test viser, at OpenAI’s mest kraftfulde system hallucinerer 33 procent af tiden. Det er mere end dobbelt så meget som hallucinationsraten i deres tidligere ræsonnement system.

Med en anden test, hvor der blev stillet mere generelle spørgsmål, var hallucinationsraterne oppe på 51 og 79 procent.

Synes du fortsat, at det er en god idé at bruge generativ AI og integrere den i alle offentlige og private systemer, er det nok rigtig vigtigt, at medarbejderne har en grundig og obligatorisk uddannelse i faktatjek.

AI-teknologivirksomheder ved faktisk ikke, hvordan systemerne fungerer.

Det fremgår af en artikel fra New York Times den 6. maj 2025.

Jo mere kraftfuld – dets flere fejl

Mere end to år efter introduktionen af ChatGPT bruger teknologivirksomheder, kontormedarbejdere og almindelige forbrugere AI-bots til en stadig bredere vifte af opgaver. Men der er stadig ingen måde til at sikre, at disse systemer producerer nøjagtige oplysninger.

De nyeste og mest kraftfulde teknologier – de såkaldte ræsonnement systemer fra virksomheder som OpenAI, Google og den kinesiske start-up DeepSeek – genererer flere fejl, ikke færre. Efterhånden som deres matematiske færdigheder er blevet markant forbedret, er deres greb om fakta blevet mere rystende. Det er ikke helt klart hvorfor.

AI-bots er baseret på komplekse matematiske systemer, der lærer deres færdigheder ved at analysere enorme mængder digitale data. De beslutter ikke og kan ikke afgøre, hvad der er sandt, og hvad der er falsk. Nogle gange finder de bare på ting, et fænomen, som nogle AI-forskere kalder hallucinationer. Ved en test var hallucinationsraten for nyere AI-systemer så høj som 79 procent.

Systemerne bruger matematiske sandsynligheder til at gætte det bedste svar, ikke et strengt sæt regler defineret af menneskelige ingeniører. Derfor laver de et vist antal fejl. “På trods af vores bedste indsats vil de altid hallucinere,” hedder det fra Amr Awadallah, der er adm. dir. for Vectara, en start-up, der bygger AI-værktøjer til virksomheder, og tidligere Google-chef. “Det vil aldrig forsvinde.”

I flere år har fænomenet givet anledning til bekymring for pålideligheden af systemerne. Selvom de er nyttige i nogle situationer – som f.eks. at skrive semesteropgaver, opsummere kontordokumenter og generere computerkoder – kan deres fejl forårsage problemer.

Eksempler på hallucinationer

Artiklen nævner at AI-bots, der er knyttet til søgemaskiner som Google og Bing, nogle gange genererer søgeresultater, der er fuldstændig forkerte. Du kan f.eks. spørge om et godt maraton på USA’s Vestkysten, hvor den kan foreslå et løb i Philadelphia. Spørger du om antallet af husstande i Illinois, kan den citere en kilde, der ikke inkluderer disse oplysninger.

Selv har jeg prøvet, at ChatGPT hårdnakket holdt fast i, at jeg ikke var gift med min kone, hun var derimod gift med en anden navngiven person.

Artiklen nævner en AI-bot, som fungerer som teknisk support til Cursor, et kommende værktøj til computerprogrammører. AI-bot’en fortalte kunderne, at virksomhedens politik var ændret og at kunden nu kun havde lov til at bruge Cursor på én computer. Det gav naturligvis en masse vrede kunder og man skulle ud og undskylde m.m. da det var noget AI-bot’en selv havde fundet på.

Hallucinationerne bliver endnu mere alvorlige når teknologien bruges på retsdokumenter, medicinske oplysninger eller følsomme forretningsdata.

Et eksempel, hvor en Chatbots vildleder og desinformerer ved at opfinde forskningsdokumenter og kan endda citere fra disse ikke eksisterende dokumenter, finder du HER. Et andet eksempel er hvordan Professor Paul Yip, en befolkningsekspert fra University of Hong Kong måtte træde tilbage som associeret fakultetsdekan efter at institutionen fastslog, at en artikel med Paul Yip som hovedansvarlig indeholdt referencer til ikke eksisterende publikationer genereret af AI.

Befolkningsekspert Paul Yip var korresponderende forfatter på en artikel, der blev fundet at indeholde AI-genererede referencer til publikationer, der ikke eksisterede

“Du skal bruge meget tid på at finde ud af, hvilke svar der er faktuelle, og hvilke der ikke er,” fortæller Pratik Verma, som er medstifter og adm. dir. for Okahu, en virksomhed, der hjælper virksomheder med at navigere i hallucinationsproblemet. “Hvis du ikke håndterer disse fejl ordentligt, eliminerer du dybest set værdien af AI-systemer, som skal automatisere opgaver for dig.”

Først gik det godt, så blev det værre

OpenAI og Google forbedrede støt deres AI-systemer og reducerede hyppigheden af fejl, men med brugen af nye ræsonnements systemer steg fejlene. De seneste OpenAI-systemer hallucinerer med en højere hastighed end virksomhedens tidligere system, ifølge virksomhedens egne tests.

Man fandt at o3 – dets mest kraftfulde system – hallucinerede 33 procent af tiden, når de kørte deres PersonQA-benchmark test, som involverer besvarelse af spørgsmål om offentlige personer. Det er mere end dobbelt så meget som hallucinationsraten i OpenAI’s tidligere ræsonnement system, benævnt o1. Den nye o4-mini hallucinerede med en endnu højere hastighed: 48 procent.

Ved at kører en test kaldt SimpleQA, der stiller mere generelle spørgsmål, var hallucinationsraterne for o3 og o4-mini hhv. 51 procent og 79 procent. Det tidligere system, o1, hallucinerede 44 procent af tiden.

I en artikel, der beskriver testene, fortæller OpenAI, at der er behov for mere forskning for at forstå årsagen til disse resultater. Mens AI-systemer lærer af flere data end folk kan forstå, kæmper teknologer med at finde ud af, hvorfor de opfører sig, som de gør.

Tests fra uafhængige virksomheder og forskere indikerer, at hallucinationsraten også stiger for ræsonnementsmodeller fra virksomheder som Google og DeepSeek.

“Vi ved stadig ikke, hvordan disse modeller præcist fungerer”

Hannaneh Hajishirzi er professor ved University of Washington og forsker ved Allen Institute for Artificial Intelligence, er en del af et team, der har udtænkt en måde at spore et systems adfærd tilbage til de enkelte data, det blev trænet på. Men da systemer lærer af så mange data og fordi de kan generere næsten alt, kan det nye værktøj ikke forklare alt. “Vi ved stadig ikke, hvordan disse modeller fungerer præcist,” fortæller hun.

Siden slutningen af 2023 har virksomheden Vectara, sporet, hvor ofte chatbots afviger fra sandheden. Virksomheden beder systemerne om at udføre en enkel opgave, der let kan verificeres som at opsummer specifikke nyhedsartikler. Selv her opfandt chatbots konstant information.

Deres oprindelige forskning anslog, at chatbots opfandt information i mindst 3 procent af tiden og nogle gange så meget som 27 procent. Selvom hallucinationsraten på denne test faldt noget, er den steget med ræsonnementssystemerne.

Fra fodring af data til reinforcement learning

Det simple koncept har været at jo flere internetdata man fodrede AI-systemet med, jo bedre ville systemet præstere. Men de brugte stort set al den engelske tekst på internettet, hvilket betød, at man havde brug for en ny måde at forbedre deres chatbots på.

Nu læner virksomhederne sig mere op ad en teknik, som forskerne kalder reinforcement learning (RL). Med den proces kan et system lære adfærd gennem forsøg og fejl. Det fungerer godt på visse områder, såsom matematik og computerprogrammering. Men det kommer til kort på andre områder.

“Med den måde, disse systemer trænes på, vil de begynde at fokusere på én opgave – og begynde at glemme andre,” fortæller Laura Perez-Beltrachini, en forsker ved University of Edinburgh, der er blandt et hold, der nøje undersøger hallucinationsproblemet.

Ræsonnementsmodeller er designet til at bruge tid på at “tænke” komplekse problemer, før de beslutter sig for et svar. Når de forsøger at tackle et problem trin for trin, risikerer de at hallucinere ved hvert trin og fejlene kan forværres.

De nyeste bots afslører hvert trin for brugerne, hvilket betyder, at brugerne kan se hver fejl, men forskere har fundet, at de trin, der vises af en bot, i mange tilfælde ikke er relateret til det svar, den i sidste ende leverer.

“Det, systemet siger, det tænker, er ikke nødvendigvis, hvad det tænker,” fortæller Aryo Pradipta Gema, en AI-forsker ved University of Edinburgh og stipendiat ved Anthropic.

Læs mere her:

Please follow and like us: