Controle over AI: menselijke agency & toezicht

Stand van zaken maart 2026: Met de hoog-risico verplichtingen die in augustus 2026 van kracht worden, is het inbouwen van menselijk toezicht conform artikel 14 nu een concrete implementatieverplichting. Organisaties moeten toezichtprocessen ontwerpen, medewerkers trainen en systemen aanpassen voor de deadline.

Op 1 juni 2009 stortte Air France-vlucht 447 neer boven de Atlantische Oceaan, waarbij alle 228 inzittenden om het leven kwamen. De vliegtuigcomputer werkte correct. De bemanning was bekwaam. Het fatale probleem was dat de piloten, na het uitvallen van de snelheidssensors, de situatie niet meer begrepen die het systeem hen probeerde te communiceren. Ze waren "out of the loop" geraakt: de automatische piloot had zoveel van het vlieggedrag overgenomen dat de bemanningsleden niet meer in staat waren te reconstrueren wat er werkelijk gebeurde, en grepen in op een manier die de situatie verergerde in plaats van verbeterde.

Dit is het menselijk-agency-probleem in zijn meest acute vorm. En het stelt precies de vraag die de EU AI Act probeert te beantwoorden via artikel 14: wat betekent het, in technische en juridische termen, om menselijk toezicht te waarborgen bij AI-systemen die consequenties hebben voor mensen?

Autonomie als spectrum

Menselijke agency is geen binaire grootheid. Het is niet zo dat mensen of wel of niet de controle hebben over een AI-systeem. In de praktijk verloopt het als een spectrum waarbij meer autonomie voor het systeem automatisch minder directe controle voor de mens impliceert. Dat is soms wenselijk, want het is precies de reden waarom we AI inzetten. Een radioloog kan niet zelf honderdduizend borstscans per jaar doorlopen met de aandacht die elk geval verdient. Een AI-systeem dat de scans pre-screent en verdachte gevallen markeert, vergroot de menselijke capaciteit zonder de menselijke controle te elimineren, mits de radioloog daarna elk geval met de juiste kritische houding beoordeelt.

Maar dat "mits" is beslissend. Automation bias, de menselijke neiging om automatische aanbevelingen minder kritisch te beoordelen dan aanbevelingen van mensen, is een van de best gedocumenteerde cognitieve effecten van werken met AI-systemen. Studies in de radiologie, de anesthesiologie en de luchtvaart tonen consistent aan dat professionals die AI-ondersteuning gebruiken minder fouten detecteren in de AI-output dan professionals die zonder AI werken, zelfs wanneer die fouten klinisch significant zijn. Het systeem wekt vertrouwen, en dat vertrouwen ondermijnt de kritische waakzaamheid die toezicht vereist.

Artikel 14 en de vier vormen van toezicht

De EU AI Act erkent dit probleem in artikel 14, dat menselijk toezicht verplicht stelt voor hoog-risico AI-systemen. Artikel 14, lid 1, stelt dat hoog-risico AI-systemen zo moeten zijn ontworpen en ontwikkeld, inclusief met passende menselijk-machine-interfacetools, dat ze tijdens hun gebruiksperiode effectief kunnen worden gecontroleerd door natuurlijke personen. Lid 4 somt op wat dat concreet betekent: begrijpen van de capaciteiten en beperkingen van het systeem, bewaken van de werking met het oog op anomalieen, kunnen ingrijpen of het systeem kunnen stilleggen via noodstop-functies, en het systeem niet misbruiken of overmatig vertrouwen.

Vier modellen voor menselijk toezicht

Human-in-the-loop: De mens neemt altijd de uiteindelijke beslissing. Het AI-systeem dient uitsluitend als informatieleverancier. Geschikt bij hoge individuele consequenties en lage volumes.
Human-on-the-loop: Het AI-systeem werkt grotendeels autonoom, een mens heeft zicht op het proces en kan ingrijpen. Effectiviteit hangt af van daadwerkelijke monitoring.
Human-in-command: Het systeem voert alleen acties uit na expliciete menselijke autorisatie. Bewerkelijk maar juridisch het sterkst beschermd.
Human-out-of-the-loop: Volledig autonome werking. Voor hoog-risico systemen onder de AI Act in beginsel niet toegestaan.

In de praktijk zijn er vier modellen voor de verhouding tussen menselijk toezicht en AI-autonomie, elk met eigen governance-implicaties.

Bij human-in-the-loop neemt de mens altijd de uiteindelijke beslissing; het AI-systeem dient uitsluitend als informatieleverancier of analyse-instrument. Een arts die een AI-diagnostisch systeem gebruikt om scans te analyseren maar zelf de diagnose stelt en ondertekent, opereert in dit model. Het is het meest conservatieve model en past goed bij situaties met hoge individuele consequenties en lage verwerkingsvolumes.

Bij human-on-the-loop werkt het AI-systeem grotendeels autonoom maar heeft een mens zicht op het operationele proces en de bevoegdheid om in te grijpen. Een fraudedetectiesysteem dat zelfstandig transacties markeert als verdacht en deze in een wachtrij plaatst die medewerkers periodiek controleren, valt in dit model. De effectiviteit hangt sterk af van of de "on-the-loop" persoon daadwerkelijk in staat is om problemen te detecteren en te corrigeren, of dat de systeemoutput feitelijk als definitief wordt behandeld.

Bij human-in-command voert het systeem alleen acties uit na expliciete menselijke autorisatie, ook al is de aanbeveling volledig geautomatiseerd. Een drone die alleen opstijgt na handmatige bevestiging, een contractsysteem dat alleen uitvoert na digitale handtekening van een bevoegd persoon. Dit model is bewerkelijk maar biedt de sterkste juridische bescherming.

Bij human-out-of-the-loop functioneert het systeem volledig autonoom. Algoritmische handelssystemen die in milliseconden transacties uitvoeren zijn het meest bekende voorbeeld. Dit model is voor de categorieen die de AI Act als hoog-risico aanmerkt in beginsel niet toegestaan: artikel 14 vereist dat menselijk ingrijpen altijd technisch mogelijk is.

De manipulatierisico's van sociale AI

Artikel 5 van de EU AI Act verbiedt een specifieke categorie AI-systemen die bijzonder relevant is voor menselijke agency: systemen die gebruikmaken van subliminale technieken of benutting van kwetsbaarheden om het gedrag van mensen te beinvloeden op een manier die hun vrije wil ondermijnt. Dat verbod is breder dan het op het eerste gezicht lijkt.

De Cambridge Analytica-affaire toonde aan dat gepersonaliseerde psychografische targeting op grote schaal een effect kan hebben op politieke besluitvorming. Zes jaar later zijn de technieken verfijnder en de datasets groter. Social media-algoritmen die content selecteren om emotionele betrokkenheid te maximaliseren, zijn niet verboden onder artikel 5 tenzij ze specifieke kwetsbaarheden uitbuiten, maar ze hebben een gedocumenteerd effect op wat mensen geloven, hoe polariserend ze denken en hoeveel aandacht ze besteden aan complexe onderwerpen.

Voor organisaties die AI inzetten in klantcommunicatie, personeelsselectie of patientbegeleiding, is de vraag niet alleen "is dit verboden?" maar "biedt dit systeem mensen de informatie en ruimte om een autonome beslissing te nemen, of stuurt het hen naar een vooraf bepaalde uitkomst op een manier die zij zich niet bewust zijn?" Die tweede vraag is een toetssteen voor verantwoord AI-gebruik die verder gaat dan de minimumvereisten van de wet.

Praktische governance: van principe naar ontwerp

Menselijk toezicht is geen beleid dat je achteraf aan een AI-systeem kunt toevoegen. Het moet zijn ingebouwd in het ontwerp van het systeem, de trainingscontext van de mensen die ermee werken en de processen die bepalen hoe de output wordt gebruikt.

Op systeemniveau betekent dit dat hoog-risico AI-systemen moeten beschikken over noodstopfunctionaliteit, duidelijke signalering wanneer het systeem buiten zijn validatiedomein opereert, confidence scores of onzekerheidsindicatoren die de gebruiker informeren over de betrouwbaarheid van de output, en auditlogs die vastleggen welke input heeft geleid tot welke output. Artikel 12 van de AI Act verplicht logging voor hoog-risico systemen; de praktische implementatie vereist dat logs ook interpreteerbaar zijn voor de mensen die toezicht houden.

Op gebruikersniveau is training essentieel. De AI-geletterdheidsplicht van artikel 4 raakt hier direct aan. Een medewerker die een AI-ondersteund beslissingsproces uitvoert maar niet begrijpt wanneer het systeem fout kan gaan, in welke situaties de confidence score hoog maar de output toch onjuist kan zijn, en hoe hij een afwijkende eigen beoordeling documenteert, voldoet niet aan wat artikel 14 als "effectief toezicht" beschouwt. Effectief toezicht vereist dat de toezichthouder competent is om te beoordelen wat hij ziet.

Op procesniveau vereist effectief toezicht dat de organisatie definieert wanneer menselijke override de norm is, welke drempels gelden voor escalatie, en hoe afwijkingen van AI-aanbevelingen worden gedocumenteerd. Dat laatste is zowel vanuit kwaliteitsmanagement als vanuit juridisch perspectief relevant: als een medewerker de AI-aanbeveling heeft gevolgd en de beslissing blijkt achteraf fout te zijn, is het van belang dat er bewijs bestaat dat de medewerker niet blind heeft gevolgd maar een informele beoordeling heeft gemaakt.

De uitlegbaarheidsvereiste als voorwaarde voor toezicht

Effectief toezicht is onmogelijk zonder enige mate van uitlegbaarheid. Een toezichthouder die niet kan beoordelen waarom het systeem een bepaalde aanbeveling heeft gedaan, kan niet zinvol beoordelen of die aanbeveling correct is. Artikel 13 van de AI Act vereist transparantie: gebruikers moeten voldoende informatie krijgen om het systeem te begrijpen en de output correct te interpreteren.

Dat hoeft niet te betekenen dat de volledige technische werking van een neuraal netwerk inzichtelijk is, een eis die onhaalbaar is voor de meeste praktische toepassingen. Maar het betekent wel dat er een antwoord moet zijn op de vraag: "Welke factoren hebben het zwaarst meegewogen in deze uitkomst, en zijn dat de factoren die ik als toezichthouder relevant vind?"

Technieken zoals SHAP-waarden, LIME of counterfactual uitleg bieden handvatten om die vraag te beantwoorden zonder de volledige modelarchitectuur te moeten blootgeven. Voor een kredietbeslissing: "Uw aanvraag scoorde lager vanwege de verhouding tussen schuld en inkomen en het ontbreken van trackrecord bij vergelijkbare leningen." Dat is informatie waarmee een menselijk toezichthouder en de aanvrager zelf iets kunnen.

De verboden als harde grenzen

Artikel 5 van de AI Act trekt harde grenzen die geen afweging vereisen. Systemen die sociale scoring uitvoeren waarbij burgers worden gerangschikt op basis van gedrag in niet-gerelateerde domeinen, zijn verboden. Systemen die biometrische inferentie toepassen om ras, politieke overtuiging of seksuele geaardheid af te leiden, zijn verboden. Systemen die real-time gezichtsherkenning uitvoeren in de openbare ruimte door politie zijn in beginsel verboden, met drie nauwe uitzonderingen die elk voorafgaande rechterlijke toestemming vereisen.

Die verboden zijn niet alleen juridische normen maar ook ankerpunten voor organisaties die nadenken over welke AI-toepassingen zij willen inzetten. Een bedrijf dat klanttevredenheid wil monitoren via emotieherkenning-camera's in zijn winkels, bevindt zich in artikel 5-territorium. Een HR-tool die persoonlijkheidsprofielen opstelt op basis van taalgebruik in e-mails, bevindt zich in een grijze zone waar de grens met verboden psychografische profilering smal is.

Agency als organisatiedoelstelling

De vraag "hoe houden we controle over AI?" is ultiem een organisatievraag, geen technische vraag. Technologie kan toezicht faciliteren of bemoeilijken, maar de keuze om menselijke agency serieus te nemen is een bestuurlijke keuze die vooraf gaat aan elke technische implementatie.

Organisaties die AI verantwoord inzetten, beginnen die keuze te maken in de fase van use-case selectie en risicoanalyse, niet in de fase van technische implementatie. Ze vragen: wat zijn de consequenties van een fout? Wie draagt de verantwoordelijkheid als het mis gaat? Kunnen we een medewerker aanwijzen die begrijpt wat het systeem doet en bereid is zijn naam te verbinden aan de besluiten die het ondersteunt? Als het antwoord op die laatste vraag nee is, is dat een signaal dat het systeem nog niet klaar is voor inzet, ongeacht hoe hoog de technische performance is.

De EU AI Act heeft menselijk toezicht omgezet van een aanbeveling naar een juridische verplichting voor hoog-risico AI. Dat is een fundamentele verschuiving: organisaties kunnen niet langer verwijzen naar "het algoritme heeft dit besloten" als verantwoordingsvorm. De wet vereist dat een mens verantwoordelijkheid neemt voor beslissingen die door AI worden ondersteund. Die verantwoordelijkheid begint met begrip, en begrip vereist dat het systeem uitlegbaar is en de toezichthouder competent is. Alles wat de AI Act vereist over documentatie, training en transparantie, werkt toe naar dat doel: zorgen dat die verantwoordelijkheid niet leeg is.

De praktische implementatie: van principe naar werkproces

Het omzetten van de verplichting tot menselijk toezicht in werkende processen vergt meer dan policies. Het vergt systeemontwerp, training, en voortdurende monitoring. Een veel gemaakte fout is te veronderstellen dat het aanvinken van "menselijke in-de-loop" in een projectplan volstaat. In de praktijk is dat het moment waarop het echte werk begint.

Voor een HRM-systeem dat sollicitanten filtert, betekent menselijk toezicht concreet dat: elke kandidaat die wordt uitgesloten door het systeem, automatisch gereviewd wordt door een mens voordat een afwijzing naar buiten gaat; de mens die dat doet, getraind is in hoe het model werkt en wanneer het foutief kan zijn; de organisatie bijhoudt hoe vaak medewerkers het systeem overrulen en waarom; en die override-data wordt gebruikt om het model bij te stellen. Effectief toezicht is geen eenmalige check maar een doorlopend proces.

Voor een diagnostisch systeem in de zorg: het menselijk toezicht betekent dat radiologen weten wat het AI-systeem doet, dat zij trainingen hebben gehad op hoe het systeem kan falen (bijvoorbeeld false negatives bij bepaalde tumortypen), dat zij protocollen hebben voor situaties waarin hun klinische indruk afwijkt van het systeem, en dat afwijkingen worden gedocumenteerd zodat zij kunnen worden gebruikt voor model-verbetering. Dat vereist architectuur in het klinische werkstroom: hoe wordt de output van het systeem gepresenteerd? Hoe wordt menselijke review facilitated? Hoe voorkom je dat radiologen blind afgaan op het systeem?

Agency en verantwoordelijkheid in multi-stakeholder contexten

Veel AI-systemen worden niet gebruikt in isolatie maar als onderdeel van een keten van besluitvormers. Een gemeente gebruikt een fraudedetectie-algoritme dat verdachte aanvragen markeert, waarna ambtenaren die aanvragen extra controleren, wat in sommige gevallen leidt tot verdere onderzoeken door specialisten. In dit systeem hebben meerdere stakeholders elk hun rol in het menselijk toezicht.

De AI Act erkent dit via de waardeketen-benadering: providers van AI-systemen, deployers die ze gebruiken, en intermediairs die ze aanpassen hebben elk hun verplichtingen. Maar de verplichtingen kunnen niet volledig worden afgewenteld. Als een deployer ervoor kiest het systeem op een manier in te zetten die de waardeketen-verdeling van verantwoordelijkheden doorbreekt, wordt de deployer zelf provider en neemt hij alle provider-verplichtingen over.

Dit heeft praktische gevolgen. Een gemeente die een extern hoog-risico AI-systeem aanpast door het aan te sluiten op andere gemeentelijke databronnen, loopt het risico dat het aangepaste systeem als een nieuw systeem wordt beschouwd waarvoor conformiteitsbeoordeling vereist is. Dit risico kan alleen worden beheerd door scherp te definieren welke aanpassingen acceptabel zijn zonder de provider-rol over te nemen, en contractuele afspraken met de oorspronkelijke aanbieder vast te leggen.

Vijf maatregelen tegen automation bias

Confidence scores in de AI-output, zodat toezichthouders kunnen zien wanneer het systeem onzeker is
Werkinstructies die expliciet scenario's beschrijven waarin het systeem fout kan gaan
Trainingen met use cases van fout-positieven en fout-negatieven
Incentives die kritische beoordeling belonen eerder dan alleen snelheid van verwerking
Taakrotatie zodat dezelfde persoon niet jarenlang dezelfde AI-output controleert en blind raakt

Automation bias voorkomen: training en organisatiecultuur

De wetenschap is duidelijk: mensen die werken met AI-systemen, laten zich onbewust leiden door de output van die systemen. Dit automation bias is een cognitief effect dat niet door willskracht alleen kan worden overwonnen. Het vereist systeemontwerp, training en organisatiecultuur die kritiek stimuleert.

Organisaties die automation bias serieus aanpakken, implementeren concrete maatregelen: confidence scores of onzekerheidsindicatoren in de AI-output, zodat toezichthouders kunnen zien wanneer het systeem onzeker is. Werkinstructies die expliciet scenario's beschrijven waarin het systeem fout kan gaan. Trainingen die use cases van fout-positieven en fout-negatieven benoemen en oefenen. Incentives die kritische beoordeling belonen eerder dan efficiency (niet alleen snelheid van verwerking meten, ook kwaliteit van review). Rotatie van taken zodat dezelfde persoon niet jarenlang dezelfde AI-output controleert en blind raakt.

De meest effectieve maatregel is echter organisatiecultuur: een omgeving waarin medewerkers zich veilig voelen om te zeggen "ik ben het niet eens met het systeem" en waarin zo'n disagree geen negatieve gevolgen heeft. In organisaties met sterk controlerende management voelen medewerkers zich niet veilig om zo kritisch te zijn als nodig. Dat leidt tot een schijn van menselijk toezicht zonder de daadwerkelijke voordelen.