Apple wil gegevens van grote en populaire websites automatisch verwerken om zijn kunstmatige intelligentie (AI) te trainen. Het probleem is echter dat website-eigenaren nu in staat zijn om de toegang tot hun gegevens te blokkeren en hier zelfs kosten voor kunnen vragen om de blokkering op te heffen. Hierdoor ontstaat er een situatie waarin AI steeds vaker wordt getraind op gegevens die eerder door vergelijkbare AI’s zijn gegenereerd en die vaak op twijfelachtige nicheblogs worden gepubliceerd.
Deze zomer heeft Apple website-eigenaren geïnformeerd over zijn bot die gegevens van het internet verzamelt en verwerkt. Dit gaf hen meer controle over de vraag of Apple zijn AI-modellen mocht trainen op basis van hun gegevens. Grote uitgevers en bedrijven zoals Facebook en The New York Times blokkeerden al snel de toegang tot hun content.
Enkele maanden geleden introduceerde Apple een tool waarmee website-eigenaren in stilte konden afzien van AI-training. Vele bekende nieuwswebsites en sociale mediaplatforms maakten gebruik van deze mogelijkheid, waardoor ze de toegang tot hun gegevens voor Apple’s AI blokkeerden.
Uitgevers zoals Condé Nast, Vox Media, The Atlantic, The Financial Times, The New York Times en USA Today, evenals platforms zoals Facebook, Instagram, Craigslist en Tumblr, hebben al de toegang tot hun gegevens geblokkeerd. Dit is echter geen onverwachte reactie. Bedrijven hebben namelijk ingezien dat de waarde van data aanzienlijk is gestegen in het tijdperk van AI. Internetrobots, die al decennia lang worden gebruikt om bijvoorbeeld inhoud voor zoekmachines te indexeren, werden vaak gezien als iets positiefs omdat ze de vindbaarheid van content verbeterden.
Tegenwoordig worden soortgelijke webrobots ingezet voor AI-modellen. Ze verzamelen gegevens om hun algoritmen te trainen en genereren vervolgens bijvoorbeeld teksten op basis van auteursrechtelijk beschermde journalistieke artikelen, of ze beantwoorden vragen rechtstreeks zonder de gebruiker naar een specifieke website te leiden. In de praktijk blijkt dat de samenwerking met AI vaak eenzijdig is en vooral ten goede komt aan de AI.
Er woedt al maanden een conflict over intellectueel eigendom en de toekomst van het internet. Er is nog geen duidelijke oplossing, maar website-eigenaren nemen steeds vaker zelf het heft in handen.
De toegang kan worden geblokkeerd, maar er zijn geen wettelijke voorschriften
Applebot-Extended is een uitgebreide internetzoekbot van Apple. Het is een tool waarmee website-eigenaren een verzoek kunnen indienen bij de technologiegigant om hun gegevens niet te gebruiken voor AI-training. Apple noemt dit ‘gecontroleerd datagebruik’, maar er wordt weinig aandacht aan besteed om ervoor te zorgen dat het bij een breed publiek bekend is.
De oorspronkelijke Applebot werd in 2015 gelanceerd en werd aanvankelijk gebruikt om zoekdiensten van Apple en de Safari-browser te ondersteunen. Nu verzamelt de bot echter ook gegevens die gebruikt kunnen worden om AI-algoritmen te trainen.
Apple legt uit dat de uitgebreide versie van de bot nog steeds websites doorzoekt en indexeert, zodat deze bijvoorbeeld kunnen verschijnen in zoekresultaten op Apple-platforms. Uitgevers kunnen nu eenvoudig beslissen of hun gegevens ook mogen worden gebruikt voor AI-training.
Als een website-eigenaar de Applebot wil blokkeren, kan dit eenvoudig worden gedaan door een tekstbestand op de website bij te werken, bekend als robots.txt, of het Bot Exclusion Protocol. Zoals eerder op Business Insider is beschreven, hebben veel uitgevers hun robots.txt-bestanden al bijgewerkt om de toegang tot gegevens door bots van bedrijven zoals OpenAI, Anthropic, Perplexity, en anderen die generatieve AI ontwikkelen, te blokkeren. Nu kan de bot van Apple ook gemakkelijk aan deze lijst worden toegevoegd.
Het is belangrijk op te merken dat er geen officiële regelgeving bestaat die bedrijven verplicht om zich aan robots.txt te houden. Het is een marktnorm die wordt gerespecteerd, maar die grotendeels gebaseerd is op vertrouwen en vrijwillige naleving. Er zijn ook gevallen geweest waarin AI-eigenaren zich niet aan de regels van robots.txt hielden. Zo trainde Perplexity zijn algoritmen op gegevens van sites die expliciet de toegang via robots.txt verboden.
Je betaalt, of je maakt er geen gebruik van
Voorlopig is het aantal sites dat de Apple-bot blokkeert nog niet groot, maar het groeit gestaag. Gegevens van Originality AI, die 1.000 druk bezochte websites analyseerden, tonen aan dat ongeveer 7 procent van deze sites de toegang tot Apple’s technologie blokkeert. Het gaat hierbij vooral om nieuwssites. De meeste website-eigenaren zijn zich er echter nog niet van bewust dat ze überhaupt de mogelijkheid hebben om dit soort blokkeringen in te stellen.
Interessant genoeg blokkeert ongeveer 50 procent van de nieuwssites al de bot van OpenAI (ChatGPT), en ongeveer 40 procent doet hetzelfde met de Gemini-trainingsbot van Google voor kunstmatige intelligentie.
AI-bedrijven beginnen steeds meer in te zien dat ze hun algoritmen niet zomaar gratis kunnen trainen op auteursrechtelijk beschermde inhoud. Het feit dat bepaalde content gratis op internet beschikbaar is, betekent niet dat deze zomaar gedownload en voor eigen doeleinden gebruikt mag worden.
Om deze reden sluiten OpenAI en andere AI-ontwikkelaars partnerschappen met uitgevers, waarbij ze vaak enkele tot tientallen miljoenen dollars per jaar betalen voor toegang tot content en de mogelijkheid om deze voor trainingsdoeleinden te gebruiken. Veel uitgevers hanteren een eenvoudige aanpak: blokkeer de toegang tot bots en geef pas toegang wanneer de AI-aanbieder een samenwerking aangaat en bereid is om voor de content te betalen.
Het zijn echter niet alleen Apple of OpenAI die websites doorzoeken met hun bots om gegevens te verzamelen voor AI-training. Er komen steeds meer van dit soort bedrijven bij, en website-eigenaren hebben vaak moeite om alles bij te houden. Daarom zijn websites zoals Dark Visitors in het leven geroepen, die de lijst bijwerken van AI-bots die geblokkeerd kunnen worden. Ze bieden zelfs een service aan om robots.txt-bestanden automatisch bij te werken. Dark Visitors beschikt over een zeer uitgebreide lijst van AI-bots, en het lijkt erop dat er al enkele honderden zijn. De meeste daarvan worden niet geblokkeerd omdat website-eigenaren vaak niet eens van hun bestaan afweten.
Momenteel wordt AI steeds vaker getraind op inhoud die door AI is gegenereerd. In zekere zin voedt het zichzelf. Naarmate meer websites ontdekken dat ze AI-bots kunnen blokkeren, zullen AI-aanbieders ofwel nieuwe partnerschappen moeten aangaan, waardoor hun kosten aanzienlijk zullen stijgen, ofwel zal de kwaliteit van hun AI-algoritmen afnemen.