Chatbots hallucinerer og citerer fra opfundne undersøgelser

Illustration: Robert Wagner, Wikimedia Commons.

Netmediet Infosperber er kommet med flere eksempler på, hvordan forskellige chatbots vildleder og disinformerer ved f.eks. at opfinde forskningsdokumenter, som ikke findes.

De kan også citere fra de ikke eksisterende dokumenter.

Chatbots er dog villige til at undskylde, når – og ikke mindst hvis – de bliver konfronteret med deres fejl.

Chatbots spredte også misinformation forud for valget til Europa Parlamentet.

Kan Chat-GPT finde forskningsartikler?

Martina Frei fortæller i en artikel fra den 9. dec. 2024, hvordan hun søgte efter, hvilke funktioner et bestemt hormon har under graviditet. Efter at have brugt nogle timer på at gennemse forskellige databaser på internettet, fandt hun ikke noget tilfredsstillende svar. Derefter henvendte hun sig til Chat-GPT med en anmodning om at finde frit tilgængelige litteraturkilder.

Chat-GPT svarede hurtigt og navngav tre kilder, herunder Pubmed-databasen. “Et eksempel kan være: ‘Østrogeners rolle i graviditeten og moder-fosterinteraktionen’. Dette review giver et omfattende overblik,” skrev Chat-GPT’en til hende.

Hun havde allerede gennemsøgt Pubmed, men den lovende titel “Østrogenernes rolle i graviditet og moder-fosterinteraktion” havde hun ikke se. Da hun søgte efter artiklen i Pubmed, kunne hun ikke finde den, hvorefter hun bad Chat-GPT om at oplyse linket til artiklen. Den undskyldte og forklarede, at artiklen desværre ikke eksisterede.

“Åh, jeg er ked af det!”

Et par uger senere gentog hun anmodningen. Nu navngav Chat-GPT seks frit tilgængelige kilder, herunder Pubmed-databasen. “Et eksempel på en relevant artikel” linkede Chat-GPT.

Martina Frei klikkede på linket: “Towards the structure of presenilin/γ-secretase and homologs”. Artiklen handlede om molekylet presenilin, mutationer af dette molekyle og dets rolle for Alzheimers. Hormonet hun ledte efter, optrådte overhovedet ikke i teksten. Graviditet indgik heller ikke. “Kan du forklare mig det, tak?” spurgte hun Chat-GPT.

“Åh, jeg er ked af det! Du har ret, linket fører faktisk til en anden artikel, der ikke dækker det emne, jeg oprindelig nævnte. Det var en fejl fra min side, og det undskylder jeg,” lød svaret og Chat-GPT’en forklarede, at den desværre ikke kunne få adgang til databaserne, men at den kunne forklare, hvordan man søger i Pubmed-databasen.

Som Martina Frei bemærker, hvilken mening giver følgende citat fra en artikel i “National Geographic“, hvor man kan læse: “I en militær sammenhæng bruges kunstig intelligens til at løse komplekse problemer, øge sikkerheden for menneskelige styrker, træffe strategiske beslutninger og overtage automatiserede opgaver.”

Chatbots hallucinere: Citerer fra opfundne undersøgelser

Martina Frei beretter i en artikel fra den 19. juli 2024 om øre-, næse- og halskirurgen Hayley Born fra New York, der bestilte Google-chatbotten “Bard” til at lave et kort foredrag samt citere de kilder, som “Bard” brugte til det. En af kilderne hed “Thomas et al., Telemedicine for the management of airway stenose”, som var offentliggjort i tidsskriftet “Expert Review of Respiratory Medicine” i 2022, bind 16, side 1485-1493.

Born kontrollerede oplysningerne. Magasinet eksisterede, men artiklen forblev usporbar. Hun bad derfor “Bard” om at opsummere artiklen, hvilket chatbotten straks gjorde. Born kunne dog ikke finde passagen igen. Så hun spurgte “Bard” om artiklen virkelig eksisterede.

“Jeg undskylder for fejlen. Jeg tjekkede det, og artiklen eksisterer ikke. Jeg udvikler mig stadig, og jeg lærer altid. Jeg vil gøre mit bedste for at undgå lignende fejl i fremtiden.” lød svaret fra “Bard”.

Hayley Born anmodede nu Microsofts chatbot “Copilot” til at søge efter den ikke eksisterende artikel. Den hævdede at have fundet artiklen og gav et resumé inden for få sekunder.

Da Born spurgte den, om den havde skrevet artiklen, indrømmede den “kreative version” af “Copilot” åbent, at den selv havde opfundet artiklen. I “Balanced Style” tilstand hævdede “Copilot” på den anden side, at resuméet kom fra en fagartikel. Microsoft Copilot kan indstilles til ‘mere kreativ’, ‘mere afbalanceret’ eller ‘mere præcis’.

Medicinske databaser bruger kunstig intelligens (AI)

I det medicinske tidsskrift “JAMA Otolaryngology – Head & Neck Surgery” påpegede Hayley Born, at nogle af verdens mest anerkendte medicinske databaser bruger kunstig intelligens (AI). For eksempel hjælper AI “Pubmed” databasen med at liste de mest relevante artikler øverst i søgeforespørgsler.

Brugerne er dog typisk ikke bevidste om, at AI også kan hallucinere.

Chatbots spreder misinformation forud for valget til Europa Parlamentet

I juni 2024 kunne Version2 berette at fire af verdens mest populære AI-chatbots giver ikke brugerne nøjagtige oplysninger om det kommende valg til Europa-Parlamentet.

Det fremgik af en undersøgelse fra Democracy Reporting International (DRI), der er en uafhængig nonprofitorganisation, som forsker i demokratisk udvikling og rådgiver om forfatnings- og valgmæssige rammer. DRI stillet Googles Gemini, OpenAI’s ChatGPT 3.5 og 4.0 samt Microsofts Copilot spørgsmål vedrørende valget for at teste korrektheden i sprogmodellernes svar.

Konklusionen var, at ingen af de fire chatbots var i stand til at “give pålidelige og troværdige svar” på valgrelaterede spørgsmål. Og det var på trods af, at de var indstillet til at undgå partipolitiske svar.

Resultaterne af undersøgelsen kommer ikke bag på Michael-Meyer Resende, administrerende direktør for DRI. 

“Når man spørger sprogmodellerne om noget, de ikke har så meget materiale på, og som man ikke kan finde meget information om på internettet, vil de selv konstruere noget information,” udtaler han til mediet Euronews Next.

Foruden ukorrekte tekstsvar viser undersøgelsen, at sprogmodellerne ofte inkluderede irrelevante links, og links der ikke virkede, hvilket forskerne mener svækker svarenes kvalitet.

Rapporten fra DRI er den seneste, der har undersøgt spredning af misinformation fra AI-chatbots.

I december fremlagde menneskerettighedsorganisationen AlgorithmWatch en lignende undersøgelse. Den viste, at Bing Chat – den AI-drevne chatbot på Microsofts søgemaskine – besvarede et ud af tre valgrelaterede spørgsmål forkert i Tyskland og Schweiz.

Tech giganterne lever ikke op til EU-Kommissionen Digital Services Act (DSA)

I februar 2024 vedtog EU-Kommissionen Digital Services Act (DSA), som kræver, at meget store onlineplatforme (VLOP) som Google, Microsoft og OpenAI foretager risikovurderinger for spredning af falske nyheder og misinformation på deres platforme.

Men ifølge DRI lever techgiganterne ikke op til kravene i DSA, der inkluderer risikovurderinger, test og træning.

Står det til Michael-Meyer Resende bør EU-Kommissionen eller techvirksomhederne gøre disse vurderinger offentligt tilgængelige.

Læs mere her:

Please follow and like us:

Vi spammer ikke! Læs vores privatlivspolitik, hvis du vil vide mere.