Kan ChatGPT een dokter zijn? Het blijkt dat de kunstmatige intelligentie het medische examen heeft “geslaagd” en een zeldzame ziekte heeft vastgesteld. Je kunt de tekortkomingen ervan echter niet vergeten.
Dr. Isaac Kohane, zowel computerwetenschapper aan Harvard als arts, werkte samen met twee collega’s om GPT-4 te testen. Het team had één hoofddoel: onderzoeken hoe het nieuwste AI-model van OpenAI presteert in medische situaties.
“Ik ben verrast, maar ik kan zeggen dat het beter is dan veel artsen die ik heb gezien,” zei Kohane in het boek “The AI Revolution in Medicine,” mede geschreven door onafhankelijk journalist Carey Goldberg en Microsoft-onderzoeksdirecteur Peter Lee. (De auteurs beweren dat noch Microsoft, noch OpenAI redactioneel toezicht had op het boek, hoewel Microsoft miljarden dollars heeft geïnvesteerd in de ontwikkeling van OpenAI-technologie.)
In het boek beweert Kohane dat GPT-4, dat in maart 2023 tegen betaling beschikbaar werd, in meer dan 90 procent van de gevallen juiste antwoorden geeft op vragen uit Amerikaanse medische onderzoeken. Het presteert beter dan eerdere AI-modellen, GPT-3 en GPT-3.5, en zelfs beter dan sommige gekwalificeerde artsen.
GPT-4 doet meer dan alleen examens maken en informatie ophalen. Het is ook een uitstekende vertaler. Volgens het boek kan het ontslaginformatie vertalen voor een patiënt die Portugees spreekt en ingewikkeld technisch jargon omzetten in iets dat een zesdeklasser gemakkelijk kan begrijpen.
Zoals de auteurs met live voorbeelden uitleggen, kan GPT-4 artsen ook voorzien van nuttige suggesties voor omgangsvormen aan het bed, met begeleiding bij het praten met patiënten over hun gezondheid in begrijpelijke, empathische taal. Het kan ook lange rapporten of onderzoeken lezen en deze in een handomdraai samenvatten. Het kan zelfs zijn redenering bij het oplossen van problemen uitleggen op een manier die menselijke intelligentie lijkt te vereisen.
Als je GPT-4 echter vraagt hoe het dit allemaal doet, zal het waarschijnlijk antwoorden dat al zijn intelligentie “beperkt is tot patronen in de gegevens en geen echt begrip of doelbewustheid impliceert.” Dit is wat GPT-4 reageerde op de auteurs van het boek toen ze vroegen of het daadwerkelijk tot causaal redeneren kon komen. Zelfs met deze beperkingen, zoals Kohane in het boek ontdekte, kan GPT-4 de manier waarop artsen ziekten diagnosticeren nabootsen, met een verrassend, zij het onvolmaakt, effect.
Hoe kan GPT-4 een diagnose stellen als een arts?
In zijn boek voert Kohane een klinisch gedachte-experiment uit met GPT-4, gebaseerd op een reëel geval van enkele jaren eerder waarbij een pasgeboren baby betrokken was. Door de bot enkele cruciale gegevens te geven over de baby die hij tijdens het lichamelijk onderzoek had verzameld, samen met informatie uit de echografie en de hormoonspiegels, kon de machine correct een aandoening diagnosticeren die slechts voorkomt bij één op de 100.000 baby’s, genaamd congenitale bijnierhyperplasie. “Net zoals ik zou hebben gedaan met al mijn jaren van opleiding en ervaring,” schreef Kohane.
De dokter was zowel opgetogen als doodsbang.
“Aan de ene kant voerde ik een complex medisch gesprek met een computationeel proces,” schreef hij. “Aan de andere kant was het net zo beangstigend om te weten dat miljoenen gezinnen binnenkort toegang zouden hebben tot deze indrukwekkende medische kennis, en ik kon niet bepalen hoe we konden garanderen of certificeren dat GPT-4-advies veilig of effectief zou zijn,” voegde hij eraan toe.
GPT-4 heeft niet altijd gelijk en kent geen ethische indicatoren
GPT-4 is niet altijd waterdicht, en het boek staat vol voorbeelden van mislukkingen. Deze variëren van eenvoudige fouten in papierwerk, zoals het onjuist invoeren van de BMI die eerder correct door de bot was berekend, tot wiskundige fouten, zoals het onnauwkeurig oplossen van een Sudoku-puzzel of het overslaan van een vierkant in een vergelijking. Fouten zijn vaak subtiel en het systeem beweert vaak gelijk te hebben, zelfs als er op wordt gewezen dat het verkeerd is. Het is makkelijk voor te stellen hoe een verkeerd ingevoerd getal of een verkeerde berekening ernstige fouten kan veroorzaken bij het voorschrijven van medicijnen of het stellen van diagnoses.
Net als eerdere versies van GPT kan GPT-4 ook “hallucineren”. Dit is een technische term voor een situatie waarin de AI incorrecte antwoorden geeft of niet naar commando’s luistert.
Toen de auteurs van het boek naar dit probleem vroegen, zei GPT-4: “Ik ben niet van plan iemand te misleiden, maar ik maak soms fouten of doe aannames op basis van onvolledige of onnauwkeurige gegevens. Ook heb ik niet hetzelfde klinische oordeel of dezelfde ethische verantwoordelijkheid als menselijke artsen of verpleegkundigen.”
Een methode om dit te verifiëren, die de auteurs in het boek voorstellen, is om een nieuwe sessie met GPT-4 te starten en de bot dan zijn eigen werk te laten “herlezen” en “verifiëren” met een frisse blik. Deze tactiek kan soms fouten aan het licht brengen, hoewel GPT-4 terughoudend kan zijn om fouten toe te geven. Een andere suggestie om fouten te identificeren, is door de bot te vragen de resultaten te laten zien zodat u ze als mens kunt verifiëren.
Het is duidelijk dat GPT-4 waardevolle tijd en middelen in ziekenhuizen kan besparen door medisch personeel in staat te stellen meer tijd door te brengen met patiënten in plaats van achter een computerscherm, zoals de auteurs schrijven. Maar, waarschuwen ze, “we moeten ons dwingen na te denken over een wereld met steeds intelligentere machines die uiteindelijk misschien wel de menselijke intelligentie in bijna elke dimensie zullen overtreffen. En dan moeten we heel goed nadenken over hoe we willen dat deze wereld functioneert.”