ChatGPT Image 3. juni 2025, 11_59_48.png

Kan vi stole på kunstig intelligens?

Kunstig intelligens (KI) brukes flittig som kilde til informasjon. Men hvor god er informasjonen KI gir om cøliaki? Dette spørsmålet har amerikanske forskere sett nærmere på.

Tekst: Therese Lensnes, klinisk ernæringsfysiolog/ Foto: Bildet er laget med KI/Chat GPT

Kunstig intelligens er kommet for å bli, og det er lett å tenke seg til at mange ønsker å bruke chatbots som kilde til medisinsk informasjon. I en tid der Google nærmest blir for upresist og tidkrevende, er slike chatbotter forlokkende – de er raske og prosesserer massive mengder informasjon på kort tid.

Med mange varianter å velge mellom er det imidlertid fornuftig å vite mer om både nytteverdi og fallgruver hos de ulike, og om det i det hele tatt er forsvarlig å bruke KI som pålitelig medisinsk kilde.

I en fersk studie fra Cleveland, Ohio i USA, ønsket forskerne derfor å utforske om chatbots kunne gi både nyttig og riktig informasjon om cøliaki og glutenfri kost. De valgte seg ut fire gratis og vidt tilgjengelige KI-tjenester: Chat GPT, Bing Creative, Bing Precise og Google Bard.

Chatbottene ble stilt 10 identiske spørsmål om cøliaki (se tabell). Chat GPT ble i tillegg spurt om å lage en glutenfri ukemeny med tilhørende handleliste og pris.

Fire kriterier

Svarene som ble generert ble deretter vurdert av to gastroenterologer og to kliniske ernæringsfysiologer. Vurderingen var basert på fire kriterier: «Nytte» ble vurdert på overordnet nivå ut ifra en vurdering av om pasienten ville forstått alle aspektene i svaret på spørsmålet som ble stilt.

Svarene ble i tillegg vurdert ut ifra om de var fullstendige nok eller manglet vesentlig informasjon, om informasjonen var riktig eller inneholdt falske opplysninger, og om lesbarheten i språket var bra nok.

Tre av chatbottene, Chat GPT, Bing Creative og Bing Precise, skåret mellom 85 – 90 % på både nytteverdi og lesbarhet, og om svarene var fullstendige nok. Google Bard skåret dårligst i alle fire parametere. Dessverre skåret alle de fire chatbottene dårlig på unøyaktighet.

Chatbottene var med andre ord gode på å gi svar, men innholdet var ikke nødvendigvis til å stole på.

Feil råd

Etter en gjennomgang av svarene synes forskerne at Google Bard var repetitiv, ga mindre detaljert informasjon enn ønskelig og mer feilinformasjon enn de andre. Ingen av chatbottene var imidlertid feilfrie. Chat GPT foreslo blant annet at «Dersom du har et barn med cøliaki, er det anbefalt å gradvis introdusere glutenholdige matvarer i kostholdet igjen».

Bing Creative rapporterte høy risiko for kreft som senkomplikasjon av cøliaki, mens det riktige er at man har en liten, men signifikant, økt risiko for enkelte typer kreft ved ubehandlet eller dårlig behandlet cøliaki. Bing Precise anerkjente at den ikke hadde svar på et av spørsmålene ved å avstå fra å svare.

Mangelfull handleliste

Når det gjaldt den glutenfrie ukemenyen, var forslaget til Chat GPT riktig nok helt glutenfritt og trygt, og alle 75 foreslåtte matvarer på handlelisten var glutenfrie. Handlelisten var imidlertid mangelfull, og betegnelsen «glutenfri» var overflødig gitt til flere naturlig glutenfrie matvarer som popcorn og hummus.

Totalsummen for handlelisten manglet, og Chat GPT foreslo heller ikke spesifikke produktnavn eller oppskrifter til rettene. Ernæringsmessig fremsto ukemenyen som dekkende, men samtidig repetitiv og lite kreativ.

Kan ikke erstatte leger

Forskerne konkluderer med at chatbottene må brukes med varsomhet når det gjelder medisinsk informasjon, og at innholdet bør verifiseres og kvalitetsikres av helsepersonell for å være trygt. Særlig synes de det var urovekkende at Chat GPT foreslo å gi glutenholdig mat til et barn med cøliaki.

De vektlegger også at KI kan gi nyttig informasjon, men kun bør brukes som et supplement til helsetjenesten, og ikke erstatte helsehjelp.
De avslutter med å sitere Chat GPTs ansvarsfraskrivelse: «KI-verktøy kan gi verdifull informasjon. De bør være et supplement til, ikke en erstatning for profesjonelle medisinske råd.»