EU verplicht AI-bedrijven tot openheid over trainingsdata
Op 24 juli 2025 heeft de Europese Commissie een sjabloon gepubliceerd dat AI-aanbieders verplicht stelt om openbaar te maken welke gegevens zijn gebruikt voor het trainen van hun zogeheten general-purpose AI-modellen. Deze verplichting vloeit voort uit artikel 53, lid 1, onder d van de AI Act (Verordening (EU) 2024/1689), die vanaf 2 augustus 2025 van toepassing wordt. Anders dan de eerdere vrijwillige gedragscode, is deze transparantie nu juridisch afdwingbaar. De maatregel kan verstrekkende gevolgen hebben, ook buiten de EU, bijvoorbeeld voor rechthebbenden die willen nagaan of hun auteursrechtelijk beschermde content is gebruikt bij AI-training.
Wat houdt de verplichting in?
De verplichting geldt voor alle aanbieders van general-purpose AI-modellen die op de Europese markt worden aangeboden, dus ook voor open-source modellen. Zij moeten een “voldoende gedetailleerde publieke samenvatting” publiceren van de trainingsdata die zij hebben gebruikt. De Europese AI Office heeft hiervoor een gestandaardiseerd sjabloon ontwikkeld, dat uniform gebruik beoogt en vanaf augustus 2025 verplicht is.
Deze samenvatting moet onder meer bevatten:
Algemene informatie over het model en de aanbieder;
Een lijst met gebruikte databronnen, waaronder publieke datasets, commercieel gelicenseerde content en via scraping verzamelde gegevens;
Informatie over de gebruikte crawlers, de herkomst van de gegevens en de belangrijkste domeinnamen waarvan content is gehaald;
Maatregelen die zijn genomen om illegale of auteursrechtelijk beschermde content te vermijden of te verwijderen.
Rechten van rechthebbenden en andere belanghebbenden
Een van de belangrijkste doelstellingen van deze maatregel is om rechthebbenden beter in staat te stellen hun rechten te beschermen. Transparantie over trainingsdata maakt het voor hen mogelijk om:
Te controleren of hun werken onrechtmatig zijn gebruikt;
Zo nodig een beroep te doen op EU-recht inzake handhaving van intellectuele eigendom (zoals de Handhavingsrichtlijn 2004/48/EG);
Auteursrechten te handhaven wanneer zij via de samenvatting ontdekken dat hun content zonder toestemming is gebruikt.
Daarnaast ondersteunt de samenvatting ook andere rechten:
Rechten van betrokkenen onder de AVG, zoals inzage en bezwaar;
Consumentenrechten;
Het recht op non-discriminatie en taaldiversiteit;
Het recht op wetenschappelijke vrijheid en toegang tot informatie.
Inhoud en structuur van de template
Het verplichte sjabloon bestaat uit drie hoofdonderdelen:
Algemene informatie: identificatie van het model, de aanbieder, de omvang van de data en gebruikte modaliteiten (tekst, beeld, video, audio).
Databronnen: per type bron (publiek, gelicenseerd, privé, scraped, synthetisch) moet een beschrijving volgen van de aard, omvang en eventuele domeinnamen of betrokken websites.
Verwerking en bescherming: maatregelen ter naleving van de uitzonderingen op tekst- en datamining, bescherming van auteursrecht, en het verwijderen van illegale inhoud.
Hoewel de samenvatting geen uitputtende lijst hoeft te bevatten van alle specifieke werken, moeten aanbieders wel een algemeen volledig beeld geven. Domeinnamen uit de top 10% van de gescrapete content moeten worden vermeld. Kleine aanbieders mogen volstaan met de top 5% of maximaal 1.000 domeinen.
Evenwicht met bedrijfsgevoelige informatie
De Commissie erkent dat transparantie in balans moet zijn met het beschermen van bedrijfsgeheimen. Daarom:
Is technische detaillering niet vereist;
Is beperkte rapportage toegestaan voor commercieel gelicenseerde of vertrouwelijke datasets;
Mag gebruik van gebruikersdata of synthetische data in algemene termen worden beschreven.
Toch geldt: áls gegevens relevant zijn voor de uitoefening van rechten onder EU-recht, dan moeten ze worden gedeeld.
Handhaving, updates en sancties
De AI Office houdt toezicht op naleving. Belangrijke handhavingspunten:
De Europese AI Office kan in geval van overtreding:
Boetes opleggen tot 15 miljoen euro, of
3% van de wereldwijde jaaromzet van de overtreder in het voorgaande boekjaar,
afhankelijk van welk bedrag het hoogste is.
Aanbieders moeten hun samenvatting herzien bij aanvullende training of modelwijzigingen, uiterlijk elke zes maanden.
De samenvatting moet duidelijk zichtbaar worden gepubliceerd op de website van de aanbieder én op distributiekanalen zoals GitHub of HuggingFace.
Voor modellen die vóór 2 augustus 2025 op de markt zijn gebracht, geldt een overgangstermijn tot 2 augustus 2027.
Juridische betekenis en impact buiten de EU
De openbaarmaking van trainingsdata in een juridisch bindende samenvatting zou ook internationaal juridische gevolgen kunnen hebben. Rechthebbenden buiten de EU kunnen zich beroepen op de openbaar gemaakte informatie om:
Inbreuk op auteursrechten te claimen in hun eigen rechtsgebied;
Aanvullend bewijs te verkrijgen voor civiele of strafrechtelijke procedures;
Internationale overeenkomsten over auteursrecht en databescherming aan te spreken.
Hiermee heeft de EU opnieuw een normstellende rol in de wereldwijde AI-regulering, vergelijkbaar met haar eerdere rol bij de AVG (GDPR).