Wordt jouw boek illegaal gebruikt om AI te trainen?

Dat e-boeken op grote schaal illegaal te downloaden zijn van sites waar ze illegaal gratis beschikbaar worden gesteld, zonder enig overleg met rechthebbenden zoals auteurs, vertalers en uitgeverijen, is al geruime tijd bekend. Soms worden de sites uit de digitale lucht gehaald, maar even vaak duiken ze in net iets andere gedaante elders weer op.

Iets minder bekend is wellicht dat deze illegale verzamelingen ook op grote schaal door tech-bedrijven zijn gebruikt om hun AI’s te ontwikkelen. Het gezaghebbende The Atlantic beschrijft in een artikel hoe dat in zijn werk is gegaan en vermoedelijk nog steeds gebeurt. En men heeft het mogelijk gemaakt om de database van LibGen, de grootste, meest gebruikte illegale collectie, te doorzoeken. Zo kunnen schrijvers, vertalers en uitgevers checken of hun boeken ook zijn gebruikt om de AI’s van Big Tech te trainen.

Het artikel waarin de zoekmachine is opgenomen, vind je hier: The Unbelievable Scale of AI’s Pirated-Books Problem

Je kunt ook direct naar een aparte pagina voor de zoekmachine: Search LibGen, the Pirated-Books Database That Meta Used to Train AI – The Atlantic

Vertalersnamen zijn niet altijd terug te vinden in de database, auteursnamen wel. Engelse titels worden het eerst getoond, maar je kunt de titels per taal doorlopen.
Dat een titel voorkomt, betekent niet per se dat die daadwerkelijk gebruikt is om AI te trainen, al is de kans groot. Met name gevonden boeken die pas een jaar oud zijn of nog jonger zijn, zijn de dans misschien ontsprongen, al vertellen de techbedrijven niet of ze met hun illegale praktijken zijn gestopt. En de titels zijn dan sowieso wel illegaal gratis beschikbaar gesteld. Lees voor meer toelichting het artikel uit The Atlantic.

De kans is groot dat een boek in de database voorkomt. Van de boeken die ik de afgelopen vier jaar heb vertaald, verschijnt ongeveer de helft bij de zoekresultaten. Bij minstens één vermeldt het colofon expliciet dat zogenaamde tekst- en datamining niet is toegestaan…
Van collega’s komen soortgelijke verontrustende geluiden.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *