Dit is geen samenzweringstheorie of toekomstvoorspelling. Het idee van een internet gedomineerd door door AI gegenereerde inhoud is al aan de gang en het ziet er niet goed uit.
Sinds ChatGPT op de markt is gekomen, sijpelt door AI gegenereerde inhoud gestaag het internet binnen. Kunstmatige intelligentie bestaat al tientallen jaren. Maar de consumentgerichte ChatGPT heeft AI naar de mainstream geduwd, waardoor er ongekende toegankelijkheid is ontstaan tot geavanceerde AI-modellen en vraag waar bedrijven maar al te graag op willen inspelen.
Als gevolg hiervan maken bedrijven en gebruikers in toenemende mate gebruik van generatieve AI om grote hoeveelheden inhoud te produceren. Hoewel de initiële zorg bestaat over de overvloed aan inhoud die onnauwkeurigheden, onzin en desinformatie bevat, is het langetermijneffect de volledige degradatie van webinhoud tot nutteloze rotzooi.
Rotzooi erin, rotzooi eruit
Als je denkt dat het internet al vol staat met nutteloze rotzooi, dan klopt dat, maar dit is anders. “Er is veel rommel daarbuiten… maar het heeft een waanzinnige hoeveelheid variëteit en diversiteit,” zei Nader Henein, een VP-analist voor managementadviesbureau Gartner. Terwijl LLM’s (Large Language Models) voeden met elkaars inhoud, wordt de kwaliteit slechter en vager, als een kopie van een kopie van een afbeelding.
Stel je het zo voor: de eerste versie van ChatGPT was het laatste model dat werd getraind op volledig door mensen gegenereerde inhoud. Elke model daarna bevat trainingsdata met door AI gegenereerde inhoud die moeilijk te verifiëren is, of zelfs bij te houden. Dit wordt onbetrouwbare, of botweg gezegd, waardeloze data. Wanneer dit gebeurt, “verliezen we kwaliteit en precisie van de inhoud, en verliezen we diversiteit,” zei Henein, die onderzoek doet naar gegevensbescherming en kunstmatige intelligentie. “Alles begint op hetzelfde te lijken.”
“Incestueus leren” noemt Henein het. “LLM’s zijn gewoon één grote familie, ze consumeren elkaars inhoud en kruisbestuiven elkaar, en met elke generatie heb je… steeds meer rotzooi totdat de rotzooi het goede materiaal overneemt en de dingen vanaf daar beginnen te verslechteren.”
Naarmate er meer door AI gegenereerde inhoud op het web wordt gepusht, en die inhoud wordt gegenereerd door LLM’s die zijn getraind op door AI gegenereerde inhoud, kijken we naar een toekomstig web dat volledig homogeen en totaal onbetrouwbaar is. Ook gewoon echt saai.
In sommige van de meer spraakmakende voorbeelden wordt kunst gedupliceerd door robots. Boeken worden in hun geheel opgeslokt en gerepliceerd door LLM’s zonder toestemming van de auteurs. Afbeeldingen en video’s die de stemmen en gelijkenissen van beroemdheden gebruiken, worden gemaakt zonder hun toestemming en compensatie.
Maar bestaande auteursrechten- en IP-wetten zijn al van kracht om dergelijke schendingen te beschermen. Bovendien omarmen sommigen AI-samenwerking zoals Grimes die inkomsten delen aanbiedt met AI-muziekmakers en platenmaatschappijen die licentiedeals onderzoeken met AI-techbedrijven. Op het beleidsgebied hebben wetgevers een No Fakes Act geïntroduceerd om publieke figuren te beschermen tegen AI-replica’s. De regelgeving om al deze problemen op te lossen is nog niet ingevoerd, maar het is tenminste voorstelbaar.
De daling van de algehele kwaliteit van alles online is echter een meer verraderlijk fenomeen, en onderzoekers hebben gedemonstreerd waarom het binnenkort erger zal worden.
In een studie van de Johannes Gutenberg Universiteit in Duitsland ontdekten onderzoekers dat “deze zelfverbruikende trainingslus aanvankelijk zowel de kwaliteit als de diversiteit verbetert,” wat overeenkomt met wat waarschijnlijk zal gebeuren. “Echter, na een paar generaties degradeert de output onvermijdelijk in diversiteit. We vinden dat het tempo van degradatie afhangt van de verhouding tussen echte en gegenereerde data.”
Twee andere academische papers die in 2023 zijn gepubliceerd, kwamen tot dezelfde conclusie over de degradatie van AI-modellen wanneer ze zijn getraind op synthetische, oftewel door AI gegenereerde data. Volgens een onderzoek van onderzoekers van Oxford, Cambridge, Imperial College London, Universiteit van Toronto en Universiteit van Edinburgh, “veroorzaakt het gebruik van door model gegenereerde inhoud bij training onherstelbare defecten in de resulterende modellen, waarbij staarten van de oorspronkelijke inhoudsverdeling verdwijnen,” waarbij dit wordt aangeduid als “model collapse.”
Op dezelfde manier zeiden onderzoekers van Stanford en Rice University, “zonder genoeg verse echte data in elke generatie van een zelfverbruikende lus, zijn toekomstige generatieve modellen gedoemd om hun kwaliteit (precisie) of diversiteit (recall) progressief te verminderen.”
Gebrek aan diversiteit, legt Henein uit, is het fundamentele probleem, omdat als AI-modellen menselijke creativiteit proberen te vervangen, ze steeds verder van dat doel af komen te staan.
Het door AI gegenereerde internet in een oogopslag
Terwijl model collapse dreigt, is het door AI gegenereerde internet al gearriveerd.
Amazon heeft een nieuwe functie die AI-generatie samenvattingen van productrecensies biedt. Tools van Google en Microsoft gebruiken AI om te helpen bij het opstellen van e-mails en documenten, en Indeed lanceerde in september een tool waarmee recruiters AI-gemaakte functieomschrijvingen kunnen maken. Platforms zoals DALL-E 3 en Midjourney laten gebruikers AI-gemaakte afbeeldingen maken en delen op het web.
Of ze nu rechtstreeks door AI gegenereerde inhoud uitvoeren zoals Amazon of een service bieden waarmee gebruikers zelf AI-gemaakte inhoud kunnen produceren zoals Google, Microsoft, Indeed, OpenAI en Midjourney, het is er al.
En dat zijn slechts de tools en functies van Big Tech-bedrijven die beweren enige vorm van toezicht te hebben. De echte daders zijn clickbait-sites die lage kwaliteit, hoog volume, geregenereerde inhoud produceren voor een hoge SEO-ranking en omzet.
Een recent rapport van 404 Media ontdekte talrijke sites “die andere retailers rippen door AI te gebruiken om snel inhoud te produceren.” Voor een voorbeeld van dit soort inhoud, die plagiaat vermijdt ten koste van samenhang, kijk naar de twijfelachtige nieuwssite Worldtimetodays.com, waar de eerste regel van een verhaal uit 2023 over het ontslag van Gina Carano uit Star Wars luidt: “Het is een tijdje geleden dat Gina Carano een tirade begon tegen Lucasfilm nadat hij werd ontslagen van oorlog van de sterren dus beter of slechter waren we het aan elkaar verschuldigd.”
Op Google Scholar ontdekten gebruikers een cache van academische papers met de zin “als een AI-taalmodel”, wat betekent dat delen van papers – of hele papers voor zover iemand weet – werden geschreven door chatbots zoals ChatGPT. Door AI gegenereerde onderzoeksartikelen – die verondersteld worden enige vorm van academische geloofwaardigheid te hebben – kunnen hun weg vinden naar nieuwssites en blogs als gezaghebbende referenties.
Zelfs Google-zoekopdrachten tonen nu soms door AI gegenereerde afbeeldingen van beroemdheden in plaats van dingen zoals persfoto’s of filmstills. Wanneer je bijvoorbeeld Israël Kamakawiwo’ole googelt, de overleden muzikant die bekend staat om zijn ukelele-cover van “Somewhere Over the Rainbow”, is het eerste resultaat een door AI gegenereerde voorspelling van hoe Kamakawiwo’ole eruit zou hebben gezien als hij vandaag nog leefde.
Google-afbeeldingen zoekopdrachten naar Keira Knightley resulteren in vervormde weergaven geüpload door gebruikers op OpenArt, Playground AI en Dopamine Girl naast echte foto’s van de actrice.
Dat nog los van de recente pornografische deepfakes van Taylor Swift, een Instagram-advertentie waarin de gelijkenis van Tom Hanks wordt gebruikt om een tandheelkundig plan te verkopen, een fotobewerkingsapp die het gezicht en de stem van Scarlett Johansson gebruikt zonder haar toestemming, en dat vurige nummer van Drake en The Weeknd dat eigenlijk een ongeautoriseerde audiodeepfake was die precies als hen klonk.
Als onze zoekmachine-resultaten al niet te vertrouwen zijn, en de modellen vrijwel zeker van deze rommel smullen, hebben we de drempel overschreden naar het tijdperk van het AI-afval van het web. Voorlopig is het web zoals we het ooit kenden nog enigszins herkenbaar, maar de waarschuwingen zijn niet langer abstract.
Het internet is niet volledig gedoemd
Aannemend dat producten zoals ChatGPT geen miraculeuze prestatie leveren en betrouwbaar levendige, spannende inhoud genereren die mensen daadwerkelijk prettig of nuttig vinden om te consumeren, wat gebeurt er dan?
Verwacht dat gemeenschappen en organisaties terugvechten door hun inhoud te beschermen tegen de AI-modellen die het proberen op te slokken. Het open, door advertenties ondersteunde, op zoek gebaseerde web verdwijnt misschien, maar het internet zal evolueren. Verwacht dat meer gerenommeerde mediasites hun inhoud achter betaalmuren plaatsen, en vertrouwde informatie afkomstig is van abonneenieuwsbrieven.
Verwacht meer auteursrechten- en licentiestrijd, zoals de rechtszaak van The New York Times tegen Microsoft en OpenAI. Verwacht meer tools zoals Nightshade, een onzichtbaar hulpmiddel dat auteursrechtelijk beschermde afbeeldingen probeert te beschermen door modellen die hierop zijn getraind, te proberen te beschadigen.
Aan de andere kant kun je ook verwachten dat andere nieuwspublicaties zoals Associated Press – en mogelijk CNN, Fox en Time – generatieve AI omarmen en licentieovereenkomsten sluiten met bedrijven zoals OpenAI.
Naarmate tools zoals ChatGPT en Google’s SGE substituten worden voor traditioneel zoeken, verwacht dat verdienmodellen gebaseerd op SEO zullen veranderen.
Het zilveren randje van model collapse is echter het verlies van vraag. De proliferatie van generatieve AI wordt momenteel bepaald door hype, en als modellen getraind op lage kwaliteit content niet langer nuttig zijn, droogt de vraag op. Wat (hopelijk) overblijft zijn wij zwakzinnige mensen met de onstilbare drang om online te ranten, te veel te delen, te informeren, en anderszins onszelf uit te drukken.