Welke eisen stelt de AI Act aan trainingsdata?

Artikel 10 vereist dat trainings-, validatie- en testdata relevant, representatief, foutvrij en volledig zijn. Datasets moeten rekening houden met specifieke kenmerken van de beoogde gebruikscontext.

Wat houdt het risicomanagementsysteem voor AI in?

Artikel 9 vereist een doorlopend, iteratief risicomanagementsysteem dat risico's identificeert, analyseert, evalueert en mitigeert gedurende de hele levenscyclus van het AI-systeem.

Hoe verloopt de aanmeldingsprocedure onder artikel 30 AI Act?

Artikel 30 bepaalt dat aanmeldende autoriteiten alleen instanties mogen aanmelden die voldoen aan artikel 31. De aanmelding wordt via een elektronisch systeem gemeld aan de Commissie en andere lidstaten.

Artikel 10 AI Act: data-governance voor hoog-risico AI

Q: Wat vereist artikel 15 AI Act over nauwkeurigheid?

Artikel 15 vereist dat hoog-risico AI-systemen een passend niveau van nauwkeurigheid, robuustheid en cyberbeveiliging bieden, en consistent presteren gedurende hun hele levenscyclus.

Een AI-systeem is zo goed als de data waarop het leert. Dat klinkt als een open deur, maar de praktijk laat zien dat die deur regelmatig in het gezicht van patiënten, sollicitanten en burgers wordt dichtgeslagen. In 2019 onthulden onderzoekers van de University of Chicago en Brigham and Women's Hospital dat een veelgebruikt algoritme in de Amerikaanse gezondheidszorg systematisch zwarte patiënten benadeelde. Niet omdat het ontwerp expliciet racistisch was, maar omdat het trainingsdata gebruikte waarin zorgkosten als proxy dienden voor zorgbehoefte. Zwarte patiënten hadden historisch minder toegang tot zorg en dus lagere kosten, waardoor het algoritme hen als "minder ziek" bestempelde. Dit is precies het type probleem dat Artikel 10 van de EU AI Act wil voorkomen.

Waarom data de kern van AI-regulering is

De Europese wetgever heeft goed begrepen dat je AI niet kunt reguleren zonder de data eronder aan te pakken. Het maakt niet uit hoe geavanceerd je model is: als de trainingsdata scheef, onvolledig of vervuild zijn, produceert het systeem scheef, onvolledig of vervuild resultaat. Overweging 67 van de AI Act formuleert het scherp: kwalitatief hoogwaardige data speelt een vitale rol bij de prestaties van AI-systemen, en gebrekkige datasets kunnen een bron worden van discriminatie die door het Unierecht verboden is.

Artikel 10 vertaalt dat principe naar concrete verplichtingen. Het richt zich specifiek op hoog-risico AI-systemen, de categorie waar de strengste eisen gelden: denk aan AI in de gezondheidszorg, bij werving en selectie, in het onderwijs, bij kredietbeoordeling of in de rechtshandhaving.

De zes leden van Artikel 10: een complete doorlichting

Lid 1: De hoofdregel

Het eerste lid legt het fundament. Hoog-risico AI-systemen die gebruikmaken van technieken die het trainen van modellen met data omvatten, moeten worden ontwikkeld op basis van trainings-, validatie- en testdatasets die voldoen aan de kwaliteitscriteria van de leden 2 tot en met 5.

De formulering is bewust breed: het gaat niet alleen om deep learning of neurale netwerken, maar om elke techniek die data gebruikt om een model te trainen. Tegelijkertijd erkent de wet dat niet elk AI-systeem op dezelfde manier werkt. Lid 6 bepaalt daarom dat voor systemen die geen trainingstechnieken gebruiken, de eisen alleen gelden voor de testdata.

Lid 2: Datagovernance en -beheer

Lid 2 vormt het hart van het artikel. Het eist dat trainings-, validatie- en testdatasets onderworpen zijn aan datagovernance- en beheerpraktijken die passend zijn bij het beoogde doel van het AI-systeem. Vervolgens somt het acht specifieke aandachtspunten op:

(a) Relevante ontwerpkeuzes. De wet eist dat je documenteert welke keuzes je bij het ontwerp van je dataset hebt gemaakt en waarom.

(b) Dataverzamelingsprocessen en herkomst. Je moet kunnen aantonen waar je data vandaan komt. Bij persoonsgegevens moet je ook het oorspronkelijke doel van de verzameling documenteren, een directe link met de AVG.

(c) Databewerkingen. Annotatie, labeling, opschoning, actualisering, verrijking en aggregatie: al deze bewerkingen moeten worden verantwoord.

(d) Aannames. Welke aannames liggen ten grondslag aan je data? Wat veronderstel je dat de data meet en representeert?

(e) Beschikbaarheid en geschiktheid. Er moet een beoordeling plaatsvinden van de beschikbaarheid, hoeveelheid en geschiktheid van de benodigde datasets.

(f) Onderzoek naar bias. Dit is een van de meest impactvolle vereisten: een onderzoek naar mogelijke bias die de gezondheid en veiligheid van personen kan aantasten, een negatieve invloed kan hebben op grondrechten, of kan leiden tot discriminatie die door het Unierecht verboden is. De wet wijst expliciet op het risico van feedbackloops, waarbij outputs van het systeem terugvloeien als inputs voor toekomstige operaties.

(g) Maatregelen tegen bias. Het is niet genoeg om bias te constateren. Je moet passende maatregelen nemen om de geïdentificeerde bias te detecteren, voorkomen en mitigeren.

(h) Identificatie van lacunes. Tot slot moet je relevante datalacunes of -tekortkomingen identificeren die naleving van de verordening belemmeren, en documenteren hoe je die gaat aanpakken.

Lid 3: Kwaliteitseisen aan datasets

Lid 3 formuleert de kernkwaliteitseisen. Datasets moeten relevant, voldoende representatief, en naar best vermogen vrij van fouten en volledig zijn, gelet op het beoogde doel. Ze moeten de juiste statistische eigenschappen hebben, ook met betrekking tot de personen of groepen waarvoor het systeem bedoeld is.

Een belangrijk detail: deze kenmerken mogen worden bereikt op het niveau van individuele datasets of op het niveau van een combinatie daarvan. Dit biedt organisaties flexibiliteit. Je hoeft niet één perfecte dataset te hebben; je mag datasets combineren zolang het geheel aan de eisen voldoet.

Lid 4: Context en geografie

Lid 4 voegt een dimensie toe die in de praktijk vaak over het hoofd wordt gezien. Datasets moeten rekening houden met de kenmerken die specifiek zijn voor de geografische, contextuele, gedragsmatige of functionele omgeving waarin het AI-systeem zal worden ingezet.

Concreet: een AI-systeem dat is getraind op data uit Noord-Amerika kan niet zonder meer in Europa worden ingezet. Culturele, juridische en demografische verschillen spelen een rol. Een gezichtsherkenningssysteem dat uitstekend werkt op een dataset met overwegend witte gezichten, faalt structureel bij andere etniciteiten. Een kredietscoringsmodel dat is getraind op Amerikaanse financiële data, weerspiegelt niet de Europese markt.

Lid 5: De bijzondere categorie-uitzondering

Lid 5 is juridisch het meest complexe deel en raakt direct aan de wisselwerking met de AVG (GDPR). Het staat aanbieders van hoog-risico AI-systemen uitzonderlijk toe om bijzondere categorieën persoonsgegevens te verwerken, maar uitsluitend voor het detecteren en corrigeren van bias.

Dit is een opvallende bepaling. De AVG verbiedt in beginsel de verwerking van gegevens over ras, etniciteit, politieke overtuiging, gezondheid en andere gevoelige categorieën (artikel 9 AVG). Maar de AI Act erkent een paradox: om te kunnen controleren of je systeem discrimineert op basis van ras of geslacht, moet je soms juist weten wat het ras of geslacht van betrokkenen is.

De wet stelt zes strikte voorwaarden aan deze uitzondering:

De biasdetectie kan niet effectief worden uitgevoerd met andere data, waaronder synthetische of geanonimiseerde data.
Er gelden technische beperkingen op hergebruik, plus state-of-the-art beveiligings- en privacymaatregelen, inclusief pseudonimisering.
Strenge toegangscontrole en documentatie: alleen geautoriseerde personen mogen toegang hebben.
De data mogen niet worden overgedragen aan derden.
De bijzondere persoonsgegevens moeten worden verwijderd zodra de bias is gecorrigeerd of de bewaartermijn is verstreken.
Het register van verwerkingsactiviteiten moet documenteren waarom de verwerking strikt noodzakelijk was.

Het Europees Parlement heeft in een studie uit 2025 benadrukt dat deze wisselwerking tussen de AI Act en de AVG zorgvuldig moet worden genavigeerd, omdat beide regelgevingen soms tegenstrijdige prikkels geven.

Lid 6: Systemen zonder training

Lid 6 verduidelijkt dat voor AI-systemen die geen trainingstechnieken gebruiken, de leden 2 tot en met 5 alleen van toepassing zijn op de testdatasets. Denk aan rule-based systemen of expertssystemen: die hoeven hun "kennisbank" niet aan dezelfde eisen te onderwerpen, maar hun testdata wel.

2 minuten, geen account nodig

Leer de EU AI Act door te doen

Geen slides. Geen saaie e-learning. Probeer een interactieve module.

Interactive ChallengePowered by

LearnWize

Probeer het zelf

3 interactieve oefeningen. Verdien XP. Ontdek waarom dit beter werkt dan lezen.

Flashcards→Matching→Audit

De overwegingen: context en achtergrond

De overwegingen (recitals) bij de AI Act bieden essentiële context. Overweging 67 benadrukt dat bias inherent kan zijn aan onderliggende datasets, vooral bij historische data, en dat feedbackloops discriminatie geleidelijk kunnen versterken en bestendigen, met name voor kwetsbare groepen. Overweging 68 wijst op het belang van Europese dataruimten, zoals de European Health Data Space, als instrumenten voor betrouwbare en niet-discriminerende toegang tot hoogwaardige data. Overweging 69 onderstreept dat het recht op privacy gedurende de gehele levenscyclus van het AI-systeem moet worden gegarandeerd, en noemt technieken als anonimisering, encryptie en federated learning als mogelijke waarborgen.

De praktijk: waarom dit ertoe doet

Amazon en het wervingsalgoritme

In 2018 onthulde Reuters dat Amazon een AI-wervingstool had gebouwd die systematisch vrouwen benadeelde. Het systeem was getraind op tien jaar aan cv's die waren ingediend bij het bedrijf, een dataset die overwegend mannelijke kandidaten bevatte. Het model leerde dat "mannelijk" de norm was en strafte cv's af die verwijzingen naar vrouwen bevatten, tot aan het noemen van een vrouwensportteam toe. Had Artikel 10, lid 2(f) en (g) al gegolden, dan had Amazon verplicht moeten zijn om de dataset op genderbias te onderzoeken en corrigerende maatregelen te nemen voordat het systeem in gebruik werd genomen.

Gezondheidszorg en de proxy-valkuil

Het eerder genoemde algoritme in de Amerikaanse gezondheidszorg illustreert wat er gebeurt wanneer de aannames achter data (lid 2(d)) niet worden geëxpliciteerd. De ontwikkelaars kozen zorgkosten als proxy voor zorgbehoefte zonder te onderzoeken of die aanname voor alle demografische groepen opging. Onder Artikel 10 zou dit een overtreding zijn: de aannames moeten worden geformuleerd en getoetst.

Feedbackloops in de rechtshandhaving

De waarschuwing in lid 2(f) over feedbackloops is niet theoretisch. Predictive policing-systemen sturen politiepatrouilles naar wijken waar historisch meer arrestaties plaatsvonden. Meer politieaanwezigheid leidt tot meer arrestaties, wat het model bevestigt en versterkt. Het resultaat: een zichzelf versterkende cyclus van overpolicing in bepaalde gemeenschappen, vaak met een disproportionele impact op etnische minderheden.

De wisselwerking met de AVG

Artikel 10 opereert niet in een vacuüm. Voor elke organisatie die persoonsgegevens verwerkt voor AI-training, gelden de AVG-verplichtingen onverkort. De AI Act voegt daar een laag bovenop. Overweging 69 benadrukt dat dataminimalisatie en privacy by design van toepassing blijven.

De spanning is reëel: de AVG beperkt dataverzameling en -verwerking, terwijl Artikel 10 representatieve en volledige datasets eist. Organisaties moeten beide belangen navigeren. De bijzondere categorie-uitzondering in lid 5 is een poging om die spanning te doorbreken, maar de voorwaarden zijn bewust streng om misbruik te voorkomen.

Academisch onderzoek heeft gesignaleerd dat de GDPR en de AI Act soms tegenstrijdige prikkels geven bij het tegengaan van algoritmische discriminatie, en dat de uitzonderingsbepaling van Artikel 10 lid 5 een noodzakelijke maar onvoldoende brug vormt.

Verbinding met andere artikelen

Artikel 10 staat niet op zichzelf. Het vormt een drieluik met Artikel 9 (risicobeheersysteem) en Artikel 15 (nauwkeurigheid, robuustheid en cyberbeveiliging). Het risicobeheersysteem van Artikel 9 moet de risico's identificeren die voortvloeien uit dataproblemen; Artikel 10 schrijft voor hoe je die problemen aanpakt; en Artikel 15 eist dat het uiteindelijke systeem nauwkeurig en robuust presteert op basis van die data.

Centuro Global wijst erop dat organisaties deze datagovernance-eisen het best kunnen opbouwen bovenop hun bestaande AVG-compliancestructuur, waarbij de rol van Chief Data Officer (CDO) centraal staat.

Wat moet je nu doen?

De datagovernance-eisen van Artikel 10 treden op 2 augustus 2026 in werking voor hoog-risico AI-systemen. Dat klinkt als ruim de tijd, maar de vereiste veranderingen zijn fundamenteel. Enkele concrete stappen:

Inventariseer je datasets. Breng in kaart welke data je gebruikt voor training, validatie en testing. Documenteer herkomst, bewerkingen en aannames.
Voer een bias-audit uit. Onderzoek je datasets op mogelijke bias, met bijzondere aandacht voor beschermde kenmerken en feedbackloops.
Sluit de AVG-kloof. Zorg dat je dataverwerkingsregisters (artikel 30 AVG) aansluiten op de documentatie-eisen van Artikel 10.
Betrek domeinexperts. Datakwaliteit is geen puur technisch vraagstuk. Betrek juristen, ethici en domeinkenners bij het formuleren en toetsen van aannames.
Gebruik Europese dataruimten. Overweging 68 wijst op Europese data spaces als bron van betrouwbare, niet-discriminerende data.
Documenteer alles. De rode draad door Artikel 10 is documentatie. Elke keuze, elke aanname, elke maatregel moet traceerbaar zijn.

Conclusie

Artikel 10 is niet het meest gelezen artikel van de AI Act, maar het is wel een van de meest bepalende. Data is de brandstof van AI, en wie de kwaliteit van die brandstof niet beheerst, kan niet garanderen dat het eindproduct veilig, eerlijk en betrouwbaar is. De Europese wetgever heeft met dit artikel een duidelijke boodschap afgegeven: datagovernance is geen bijzaak, maar een kernverplichting.

De voorbeelden van Amazon, de Amerikaanse gezondheidszorg en predictive policing laten zien dat dit geen abstracte regelgeving is. Het gaat over echte mensen die worden geraakt door gebrekkige data. Artikel 10 biedt het juridische kader om dat te voorkomen. Aan organisaties nu de taak om dat kader met inhoud te vullen.