De Opt-Out keuze voor een uitgever

AI juridisch

Generatieve AI programma’s zoals ChatGPT, Dall-E en Midjourney zijn gevoed en getraind met data. Hoeveel en waar ze precies vandaan komen weten we niet maar bijv. de trainingsdata die ChatGPT 3 gebruikt bestaat uit verschillende datasets waaronder de Common Crawl dataset (2)(3), die bestaat uit 45 TB aan "platte" tekst die verzameld is van het web tussen 2016 en 2019. Deze dataset is ongeveer gelijk aan bijna 8 miljard Engelse woorden. Naast de Common Crawl dataset, gebruikte ChatGPT-3 ook informatie van andere datasets, zoals Books1 & Books2, twee internet-gebaseerde boekencollecties, en Wikipedia, de pagina’s in de Engelse taal. De vierde editie van het programma is getraind op ruim een petabyte aan data, een één met 15 nullen ofwel ongeveer een miljard boeken.

Om die data te verzamelen is gebruik gemaakt van Tekst & Data Mining (TDM) waarbij grote bestanden ‘gemijnd’ kunnen worden, een techniek die bijvoorbeeld bij biomedisch onderzoek populair is.

TDM is op Europees niveau geregeld in de Richtlijn inzake auteursrechten en naburige rechten in de digitale eengemaakte markt (Digital Single Market) in de artikelen 3 en 4, en omgezet in de Nederlandse auteurswet (art 15n en 15o). Daarin staat dat TDM uitdrukkelijk is toegestaan voor wetenschappelijk onderzoek door onderzoeksorganisaties en culturele erfgoedinstellingen. Het mag ook door anderen worden uitgevoerd ’mits degene die de tekst- en dataming verricht rechtmatig toegang heeft tot het werk en het auteursrecht niet (…) uitdrukkelijk op passende wijze is voorbehouden , zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.’

Met andere woorden om te tekst- en dataminen mag het bestand niet uit illegale bron komen én bij onder andere commercieel gebruik de uitgever er geen zogenaamde opt-out in heeft geplaatst.

Of generatieve AI-programma’s onrechtmatig via tekst-en datamining getraind zijn is een onderwerp van (internationale) discussie. Maar in de nieuwe AI-Act die vanaf april 2024 (gradueel) in Europa van kracht wordt staat uitdrukkelijk in overweging 105 dat indien gebruik is gemaakt van een opt-out door de uitgever (wel zogenaamd machinaal leesbaar), de betreffende werken niet zonder toestemming door dergelijke generatieve AI programma’s mogen worden gebruikt om daarmee hun programma’s te voeden en te trainen.

Generatieve programma’s moeten bovendien wanneer de AI-act van kracht wordt ‘een voldoende gedetailleerde samenvatting van de voor de training gebruikte content’ geven.  

 

De opt-out in de praktijk

 

Helaas is er (nog?) geen (internationale) standaard waarmee uitgevers kunnen opt-outen. Wellicht dat richtlijnen vanuit Europa in de toekomst hier meer zekerheid over kunnen geven. Een van de mogelijkheden is het zogenaamde W3C TDM Reservation Protocol waarmee bijv. e-pubs maar ook websites voorzien kunnen worden van een mededeling dat deze niet gebruikt mogen worden voor TDM, anders dan onder de wettelijke uitzondering die geldt voor onderzoeksorganisaties en culturele instellingen (waarbij bijvoorbeeld geldt dat deze geen winstgevend oogmerk mogen hebben).

Een andere mogelijkheid, met name voor websites en dergelijke, is het gebruik van robot.txt. Daarmee kan je aangeven welke crawlers geen gebruik mogen maken van de content. Het nadeel hiervan is dat een nieuwe toetreder niet op de lijst zal staan. Een alternatief is alle robots, crawlers etc., buiten te sluiten maar dan is het werk ook voor reguliere zoekmachines als Google en Bing niet meer vindbaar.

De vraag of een reguliere zin in een uitgave zoals ‘Alle rechten voorbehouden’ voldoende is blijft. We weten zelfs niet of ‘’machine leesbaar’ inhoudt dat het voorbehoud in het Engels  moet worden opgesteld. Maar in het colofon kan in ieder geval, in het Nederlands en/of het Engels, dat behalve het reguliere rechtenvoorbehoud ook een bijzondere bepaling voor TDM worden opgenomen.

Overigens blijft Tekst & Data Mining dus ook mét een dergelijk voorbehoud mogelijk binnen de wettelijke kaders zoals beschreven in de Richtlijn inzake auteursrechten en naburige rechten in de digitale eengemaakte markt (Digital Single Market)

 

Mogelijkheden

 

Het is mogelijk werken zoals e-pubs en websites te voorzien van een opt-out indien je bijvoorbeeld wilt proberen te voorkomen dat het werk gebruikt wordt door generatieve AI modellen, maar bijvoorbeeld ook door een programma dat automatisch samenvattingen schrijft van een boek. Of dat je voorwaarden wilt opnemen over het gebruik van deze data, bijvoorbeeld door middel van gebruik tegen een vergoeding.

Het is, zeker zolang er geen (internationaal) erkende standaard is, geen zekerheid dat het werk niet gebruikt wordt. Bovendien geldt dit alleen voor toekomstig gebruik, de data die nu al in generatieve AI modellen als ChatGPT, Midjourney etc. zitten worden er niet door geraakt. De eisen die in de nieuwe AI-act staan ten aanzien van transparantie/inzicht in de gebruikte data zijn zeer algemeen dus de vraag is of er daadwerkelijk inzicht komt op titelniveau van gebruikte boeken of andere meer specifieke bronnen. Maar de mogelijkheid gebruik te verbieden of te onderhandelen over een mogelijke compensatie neemt er wel mee toe.

Voor meer informatie zie ook Dirk Visser en Arnoud Engelfriet ‘Werkt de mijnwerk opt-out