ChatGPT als diagnostisch hulpmiddel: beperkingen en mogelijkheden
ChatGPT kan niet als diagnostisch hulpmiddel worden ingezet in de geneeskunde omdat het in meer dan de helft van de gevallen fouten maakt. Dit blijkt uit een studie van Canadese wetenschappers aan de University of Western Ontario. De onderzoekers testten het model op patiëntencasussen en concludeerden dat ChatGPT weliswaar leesbare antwoorden genereert, maar geen betrouwbare diagnoses biedt.
Onbetrouwbare diagnostische prestaties
Ondanks de enorme hoeveelheid informatie waarop het is getraind, slaagde ChatGPT er slechts in om 49% van de gevallen correcte antwoorden te geven. Deze bevindingen werden gepubliceerd in een artikel in PLOS One door onderzoekers van de Schulich School of Medicine & Dentistry aan de University of Western Ontario. In het onderzoek werd ChatGPT getest op 150 medische casussen uit de openbare Medscape-database, die doorgaans wordt gebruikt om de diagnostische vaardigheden van artsen te beoordelen. De tests vonden plaats tussen september 2021 en januari 2023. Slechts in 74 gevallen leverde het AI-model een accurate diagnose.
“ChatGPT heeft moeite met het interpreteren van laboratorium- en beeldvormingsresultaten en mist vaak cruciale informatie die essentieel is voor een correcte diagnose,” schreven de auteurs in hun artikel Evaluatie van ChatGPT als diagnostisch hulpmiddel voor medische studenten en artsen.
De noodzaak van menselijk toezicht
Dr. Amrit Kirpalani, co-auteur van de studie en professor aan de Schulich School of Medicine & Dentistry, benadrukte het belang van toezicht bij het gebruik van AI-modellen in de medische praktijk. “Om de patiëntveiligheid te waarborgen, is intensief toezicht nodig op hoe deze technologie wordt gebruikt en gedeeld,” verklaarde hij. Kirpalani wees ook op de noodzaak om de nauwkeurigheid van de gegevens die ChatGPT gebruikt te controleren en de interactie met AI-modellen verder te ontwikkelen.
Een belangrijke oorzaak van de fouten in de antwoorden van ChatGPT is gerelateerd aan de manier waarop grote taalmodellen zijn ontworpen. De onderzoekers wezen op het fenomeen van “AI-hallucinaties,” waarbij het model coherent klinkende maar feitelijk onjuiste antwoorden genereert. Deze fouten kunnen voortkomen uit hiaten, overoptimalisatie van trainingsgegevens, of het onvermogen van het model om dubbelzinnige of onvolledige gegevens correct te interpreteren.
Daarnaast kunnen biases in de medische informatie die gebruikt wordt voor training – afkomstig van artsen zelf – bijdragen aan de onnauwkeurigheden van AI-diagnoses. “Menselijk toezicht blijft onmisbaar,” benadrukten de onderzoekers. Ze riepen ook op om de verantwoordelijkheid voor fouten die voortkomen uit het gebruik van AI-modellen zorgvuldig te definiëren.
ChatGPT als ondersteunend hulpmiddel
Ondanks de tekortkomingen van ChatGPT als zelfstandig diagnostisch hulpmiddel, erkenden de onderzoekers dat het model potentie heeft als ondersteunend instrument. In veel gevallen bood ChatGPT correcte suggesties voor vervolgstappen in het diagnostisch proces en wist het onjuiste antwoordopties relatief goed af te wijzen, met een nauwkeurigheid van 74,33%.
Hoewel ChatGPT geen vervanging kan zijn voor menselijke expertise in de geneeskunde, kan het in de toekomst wellicht een waardevolle aanvulling bieden in het diagnostisch proces, mits het gebruik ervan gepaard gaat met strikte controle en supervisie.