Wordle is een populair online woordraadspel dat vorig jaar wereldwijd veel aandacht kreeg en snel werd overgenomen door The New York Times. De Universiteit van Galway in Ierland besloot te onderzoeken of ChatGPT wachtwoorden uit deze puzzel kon raden, en ontdekte dat het hier grote moeite mee had. Terwijl kunstmatige intelligentie bijvoorbeeld medische examens kan halen, lijkt het moeite te hebben met relatief eenvoudige woorden. Daarnaast hebben onderzoekers ook een verklaring gevonden voor de “hallucinaties” van ChatGPT en de grammaticale fouten die het soms maakt.
ChatGPT, ontwikkeld door OpenAI, is snel uitgegroeid tot een hulpmiddel dat door miljoenen mensen wordt gebruikt. Elon Musk en Apple-medeoprichter Steve Wozniak, samen met tientallen andere experts, schreven een open brief waarin ze opriepen om de ontwikkeling van AI-systemen tijdelijk te pauzeren, vanwege de mogelijke schade die ze op de markt kunnen aanrichten. De resultaten van het GPT-4-model in het spel Wordle suggereren echter dat er nog niet zoveel reden tot bezorgdheid is.
Voor welke examens slaagt ChatGPT?
De GPT-3.5-versie, die de gratis versie van ChatGPT aanstuurt, behaalde volgens OpenAI het 10e percentiel op het Uniform Bar-examen in de VS. GPT-4 deed het echter veel beter en behaalde het 90e percentiel, met een score van 298 uit 400 punten. Ter vergelijking, in de staat New York is een score van 266 nodig om voor het examen te slagen.
Ook voor de SAT-test (Scholastic Assessment Test) behaalt ChatGPT indrukwekkende scores. In de sectie Lezen en Schrijven behaalde het 710 van de 800 punten, wat hem in het 93e percentiel plaatst. De GPT-3.5-versie haalde 670 van de 800 punten, goed voor het 87e percentiel. In het wiskundegedeelte scoorde ChatGPT 700 van de 800 punten, wat resulteerde in een totaal van 1.410 van de mogelijke 1.600 punten. In 2021 was de gemiddelde SAT-score 1.060, wat betekent dat ChatGPT zonder problemen het equivalent van een eindexamen haalt.
Bovendien slaagde ChatGPT voor de Biologie Olympiade, een prestigieuze nationale competitie in de VS, en kwalificeerde het zich zelfs als sommelier door te slagen voor de Introductory, Certified en Advanced Sommelier-examens met scores van respectievelijk 92%, 86% en 77%.
Problemen met Wordle
Ondanks deze indrukwekkende resultaten presteerde GPT-4 niet goed in het spel Wordle. Wordle is een online spel ontwikkeld door Josh Wardle in oktober 2021, waarin spelers het juiste woord van vijf letters moeten raden. Gebruikers hebben zes pogingen, waarbij het spel na elke poging aangeeft welke letters correct zijn (groen), in het woord zitten maar op een andere plek staan (geel), of niet in het woord voorkomen (grijs).
Professor Michael G. Madden van de Universiteit van Galway testte GPT-4 op Wordle. In de eerste ronde had de AI al twee letters goed: “#, E, #, L, #”, maar gaf het vijf van de zes keer een verkeerd antwoord dat niet aan het patroon voldeed. In een andere ronde gaf GPT-4 zelfs het verouderde Engelse woord “traff” als oplossing, wat duidelijk incorrect was.
De slechte prestaties van GPT-4 in Wordle, een relatief eenvoudig spel, toonden aan dat AI soms tekortschiet in alledaagse taken. Dit is opvallend, gezien het GPT-4-model maar liefst 170 biljoen parameters bevat, vergeleken met 175 miljard in GPT-3 en slechts 1,5 miljard in GPT-2.
Waarom faalde GPT-4 in Wordle?
Volgens professor Madden komt dit door de structuur van het GPT-model. ChatGPT is een diep neuraal netwerk waarbij alle tekstinvoer wordt omgezet in cijfers, en het netwerk heeft moeite met het verwerken van de structuur van woorden zoals mensen dat doen. Omdat deze netwerken gebaseerd zijn op nullen en enen, vormt het vertalen van getallen naar betekenisvolle woorden een uitdaging voor de AI.
En hiermee komen we bij het oplossen van het mysterie waarom GPT-4, ondanks zijn geavanceerdheid, nog steeds af en toe grammaticale fouten maakt en vatbaar blijft voor zogenoemde hallucinaties.
Laten we duidelijk zijn: bij AI verwijzen hallucinaties naar het genereren van informatie die misschien geloofwaardig klinkt, maar feitelijk onjuist is of geen verband houdt met de gegeven context. Stel dat we een vraag stellen over een historisch feit dat niet bestaat, en het AI-model genereert een antwoord alsof dat feit wel waar zou zijn – dit kun je beschouwen als een AI-hallucinatie.
De oorzaak van dit fenomeen ligt vaak in het feit dat taalmodellen worden getraind op enorme datasets en hierdoor taalpatronen leren. Echter, ze kunnen niet altijd onderscheid maken tussen waarheid en fictie of fouten. Dit toont aan dat kunstmatige intelligentie zijn beperkingen heeft. Het slaagt voor diverse examens, maar wanneer informatie ontbreekt of wanneer creativiteit vereist is, zal het, in plaats van te zeggen “Ik weet het niet” of “Ik kan dit niet”, vaak simpelweg een foutief antwoord geven.