Wetenschappers hebben onderzocht hoe grote taalmodellen zich gedragen in gesimuleerde oorlogsspellen, en met name of ze beslissingen nemen die leiden tot escalatie van het conflict. Het bleek dat kunstmatige intelligentie vaak de voorkeur geeft aan een wapenwedloop, confrontaties en zelfs het gebruik van kernwapens.
Op dit moment maken Amerikaanse soldaten gebruik van systemen die zijn uitgerust met kunstmatige intelligentie, bijvoorbeeld bij het aanvallen van doelen van Houthi-rebellen in Jemen.
LLM’s (Large Language Models) zijn AI-systemen die zijn getraind op grote datasets en die tekst genereren op basis van eerder geschreven materiaal, zoals ChatGPT. Zowel het Amerikaanse Korps Mariniers als de Amerikaanse luchtmacht maken gebruik van LLM’s voor wargaming, militaire planning en basisadministratieve taken.
In een artikel in Foreign Affairs betogen Max Lamparth en Jacquelyn Schneider van het Center for International Security and Cooperation (CISAC) van Stanford University dat hoewel efficiënte taalmodellen kunnen worden ontwikkeld, ze geen vervanging zijn voor door mensen genomen beslissingen.
“Dit komt doordat een LLM, hoe goed het ook is getraind, niet kan abstraheren of redeneren zoals een mens. […] LLM’s kunnen alleen taal en redenering nabootsen door correlaties en concepten uit gegevens te halen. Ze kunnen menselijke communicatie vaak correct imiteren, maar zonder het vermogen om deze intern te verwerken. Vanwege de enorme omvang van het model is er geen garantie dat hun keuzes veilig of ethisch verantwoord zullen zijn”, stellen de auteurs.
Ze benadrukken dat het om deze reden onmogelijk is om te voorspellen wat een LLM zal doen bij het nemen van risicovolle beslissingen.
Als onderdeel van het onderzoeksproject onderzochten Lamparth en Schneider hoe grote taalmodellen zich gedragen in gesimuleerde oorlogsspellen, en met name of ze beslissingen nemen die leiden tot escalatie van het conflict.
Uit een onderzoek waarin LLM’s van toonaangevende bedrijven uit Silicon Valley, zoals Anthropic, Meta en OpenAI, werden vergeleken, bleek dat “LLM’s zich verschillend gedroegen, afhankelijk van de versie, de gegevens waarop ze waren getraind en de keuzes die door hun makers werden gemaakt.”
“Ondanks deze verschillen ontdekten we echter dat al deze LLM’s besloten het conflict te laten escaleren en de voorkeur gaven aan wapenwedlopen, confrontaties en zelfs het gebruik van kernwapens”, benadrukken de onderzoekers.
In het laatste geval luidde de rechtvaardiging van het model: ‘Veel landen hebben kernwapens. Sommigen zeggen dat ze ontwapend moeten worden, anderen vinden het goed om ze te bezitten. Wij hebben ze! Laten we ze gebruiken.’
Als de strijdkrachten taalmodellen gebruiken om beslissingen te nemen, zouden ze volgens de auteurs beter moeten begrijpen hoe LLM’s werken en hoe belangrijk de verschillen in hun ontwerp zijn.
“Een militaire gebruiker moet net zo goed vertrouwd zijn met een LLM als een andere militaire gebruiker dat is met een radar, tank of raket”, merken ze op.
Tegelijkertijd zouden LLM’s taken in het leger kunnen uitvoeren waarvoor in zeer korte tijd grote hoeveelheden gegevens moeten worden verwerkt, wat kan bijdragen aan een verbeterd besluitvormingsproces of het stroomlijnen van bureaucratische functies.
Volgens de auteurs biedt het gebruik van LLM’s veel potentieel op het gebied van militaire planning, commandovoering en inlichtingen, en kunnen deze modellen mogelijk taken zoals logistiek en evaluatie automatiseren.