ChatGPT slaagt voor rechtenexamens, maar kan Wordle niet oplossen

Wordle is een populair online woordraadspel. Vorig jaar veroverde het de wereld stormenderhand en werd snel overgenomen door The New York Times. De Universiteit van Galway in Ierland wilde kijken of ChatGPT wachtwoorden uit deze puzzel kon raden. Het bleek dat hij er grote problemen mee had. Kunstmatige intelligentie slaagt bijvoorbeeld voor de examens van de medische school, maar kan blijkbaar niet overweg met relatief gemakkelijke woorden. Onderzoekers ontdekten ook de reden waarom ChatGPT “hallucinaties” heeft en grammaticale fouten maakt.

ChatGPT van OpenAI is snel een hulpmiddel geworden dat door miljoenen mensen wordt gebruikt. Elon Musk en mede-oprichter van Apple Steve Wozniak hebben samen met tientallen andere specialisten een open brief uitgegeven om de training van AI-systemen uit te stellen, omdat deze grote schade aanrichten op de markt. Het lijkt er echter op dat er niets is om je zorgen over te maken – althans op basis van de resultaten van het GPT-4-model in Wordle.

Voor welke examens slaagt ChatGPT?

GPT-3.5, de basis van de gratis versie van ChatGPT, scoorde volgens OpenAI in het 10e percentiel van het Amerikaanse Uniform Bar Examination, terwijl GPT-4 al in het 90e percentiel scoorde met een score van 298 uit 400. De slaagdrempel verschilt per staat, maar in New York hebben testpersonen een score van 266 nodig om voor het examen te slagen.

ChatGPT verzorgt ook het SAT-examen (Scholastic Assessment Test). In de sectie Lezen en Schrijven scoort hij 710 van de 800, wat hem in het 93e percentiel van de kandidaten plaatst. Aan de andere kant staat GPT-3.5 in het 87e percentiel met een score van 670 uit 800.

In het wiskundegedeelte van de SAT scoorde de kunstmatige intelligentie 700 van de 800, en een totaal van 1.410 van de mogelijke 1.600. Volgens het College Board-rapport was de gemiddelde SAT-testscore in 2021 1060. Daarom slaagt AI zonder problemen voor het equivalent van het Poolse middelbare schoolexamen.

Maar dat is niet alles. ChatGPT slaagde bijvoorbeeld in de Biologieolympiade, een nationale en prestigieuze competitie in de VS, en behaalde zelfs kwalificaties als wijnsteward, waarbij hij slaagde voor de examens Introductory Sommelier, Certified Sommelier en Advanced Sommelier met resultaten van 92, 86 en 77 procent, respectievelijk. Maar met het Wordle-spel is er een probleem.

Wordle is niet compatibel met GPT-4

Wordle is een online game gemaakt door Josh Wardle in oktober 2021, tijdens de COVID-19-pandemie. Het gaat om het raden van het antwoordwoord van vijf letters. De gebruiker krijgt zes kansen, en voor elke mislukte poging informeert het spel hem of de letters die bij een bepaalde aanpak worden gebruikt in het antwoordwoord op de juiste plaats staan (groen) of in het antwoordwoord maar op een andere plaats staan (geel). of zijn volledig afwezig in het antwoordwoord (grijs).

Elke dag biedt het spel een nieuwe uitdaging, zodat spelers terug kunnen komen en hun geluk kunnen beproeven. Wordle heeft miljoenen gebruikers en werd begin 2022 overgenomen door The New York Times.

Professor computerwetenschappen Michael G. Madden van de Universiteit van Galway in Ierland besloot te kijken of ChatGPT-4 overweg kon met Wordle. Hij testte de AI op één ronde van een woordpuzzel waarin hij al twee letters kende:

#, E, #, L, #

Het antwoord was het woord ‘melig’, maar de professor zei dat vijf van de zes voorgestelde antwoorden van ChatGPT niet in het patroon pasten.

In de tweede ronde was de puzzel die aan de chatbot werd gegeven:

#, #, AS, #

Deze keer gaf professor Madden toe dat ChatGPT vijf correcte opties had gevonden. Maar in de derde ronde kwam ChatGPT met het inmiddels ter ziele gegane Engelse woord “traff” als oplossing voor de puzzel: #, R, #, F, #.

De resultaten van ChatGPT in Wordle – een ogenschijnlijk eenvoudig genoeg online spel – zijn slecht. We zagen een mooi voorbeeld van AI die zijn werk niet deed, ook al werd het GPT-4-model in het onderzoek al beschreven als een ‘vonk van algemene intelligentie’. Bovendien heeft de GPT-4-versie maar liefst 170 biljoen parameters. Ter vergelijking: GPT-3 heeft 175 miljard, en GPT-2 slechts 1,5 miljard.

Dus waarom kon GPT-4 Wordle niet aan?

ChatGPT-hallucinaties

Prof. Madden legt uit dat ChatGPT een diep neuraal netwerk is waarin alle tekstinvoer moet worden gecodeerd als cijfers, en het proces dat dit doet, vat de structuur van de letters niet in woorden vast. Netwerken zoals GPT zijn gemaakt van nullen en enen, dus het vertalen van getallen naar woorden is voor hen een uitdaging.

En hier komen we bij het oplossen van het mysterie waarom GPT-4, ondanks dat het zo geavanceerd is, nog steeds af en toe grammaticale fouten maakt en vatbaar blijft voor zogenaamde hallucinaties.

Laten we duidelijk zijn: in het geval van AI zijn hallucinaties het genereren van gegevens die misschien geloofwaardig klinken, maar feitelijk onjuist zijn of geen verband houden met een bepaalde context. We stellen bijvoorbeeld een vraag over een historisch feit dat niet bestaat, en het AI-model genereert het antwoord alsof dat feit waar zou zijn – dit zou je kunnen omschrijven als een AI-hallucinatie.

De redenen voor dit fenomeen liggen vaak in het feit dat taalmodellen worden getraind op enorme datasets en taalpatronen leren, maar niet altijd waarheid van fictie of fouten kunnen onderscheiden. Kunstmatige intelligentie heeft dus zijn beperkingen. Het slaagt voor verschillende examens, maar als er informatie ontbreekt of als je creatief moet zijn, zal het ons in plaats van te zeggen “Ik weet het niet” of “Ik kan het niet”, vaak gewoon het verkeerde antwoord geven.

ChatGPT slaagt voor rechtenexamens, maar kan Wordle niet oplossen

Voor welke examens slaagt ChatGPT?

Wordle is niet compatibel met GPT-4

Dus waarom kon GPT-4 Wordle niet aan?

admin

Leave a Reply Cancel reply