Sinds begin 2024 is de vraag naar de inhoud die door de Wikimedia-vrijwilligersgemeenschap is gemaakt, vooral naar de 144 miljoen afbeeldingen, video's en andere bestanden op Wikimedia Commons, aanzienlijk gegroeid. Volgens Wikimedia gaat het vooral om bots die die trainingsgegevens verzamelen voor grote taalmodellen (LLM's).
De organisatie laat weten: “De Wikimedia-projecten zijn de grootste verzameling open kennis ter wereld. Onze sites zijn van onschatbare waarde voor mensen die op zoek zijn naar informatie, en voor allerlei soorten bedrijven die automatisch toegang hebben tot onze inhoud als kerninput voor hun producten. Het meest opvallende is dat de inhoud een cruciaal onderdeel is geweest van de resultaten van zoekmachines, wat op zijn beurt gebruikers terug naar onze sites heeft gebracht. Maar met de opkomst van AI is de dynamiek aan het veranderen: we zien een aanzienlijke toename van het aanvraagvolume, waarbij het grootste deel van dit verkeer wordt aangedreven door schrapende bots die trainingsgegevens verzamelen voor grote taalmodellen (LLM's) en andere gebruiksscenario's. Geautomatiseerde verzoeken om onze inhoud zijn exponentieel gegroeid, samen met de bredere technologie-economie, via mechanismen zoals scraping, API's en bulkdownloads. Deze uitbreiding gebeurde grotendeels zonder voldoende attributie, wat essentieel is om nieuwe gebruikers ertoe aan te zetten deel te nemen aan de beweging, en veroorzaakt een aanzienlijke belasting van de onderliggende infrastructuur die onze sites voor iedereen beschikbaar houdt.”
“Sinds januari 2024 hebben we de bandbreedte die wordt gebruikt voor het downloaden van multimedia-inhoud met 50% zien groeien. Deze toename komt niet van menselijke lezers, maar grotendeels van geautomatiseerde programma's die de Wikimedia Commons-afbeeldingencatalogus van afbeeldingen met een open licentie schrapen om afbeeldingen aan AI-modellen te leveren. Onze infrastructuur is gebouwd om plotselinge verkeerspieken van mensen op te vangen tijdens evenementen met een hoge interesse, maar de hoeveelheid verkeer die door scraperbots wordt gegenereerd, is ongekend en brengt toenemende risico's en kosten met zich mee.”
“De Wikimedia Foundation biedt inhoud aan haar gebruikers via een wereldwijd netwerk van datacenters. Dit stelt ons in staat om lezers over de hele wereld een snellere, meer naadloze ervaring te bieden. Wanneer een artikel meerdere keren wordt opgevraagd, onthouden we de inhoud ervan in het datacenter dat zich het dichtst bij de gebruiker bevindt. Als een artikel al een tijdje niet is opgevraagd, moet de inhoud ervan worden geleverd vanuit het kerndatacenter. Het verzoek "reist" vervolgens helemaal van de locatie van de gebruiker naar het kerndatacenter, zoekt de aangevraagde pagina op en stuurt deze terug naar de gebruiker, terwijl deze ook in het regionale datacenter wordt gecached voor een volgende gebruiker. Terwijl menselijke lezers de neiging hebben om zich te concentreren op specifieke – vaak vergelijkbare – onderwerpen, hebben crawlerbots de neiging om grotere aantallen pagina's te "bulklezen" en ook de minder populaire pagina's te bezoeken. Dit betekent dat dit soort verzoeken eerder worden doorgestuurd naar het kerndatacenter, wat het veel duurder maakt in termen van verbruik van onze resources.” Wikimedia laat weten dat de inhoud van hun projecten gratis is, maar de infrastructuur niet.