Waarom Amsterdam is gestopt met de AI-pilot voor bijstandsaanvragen
De gemeente Amsterdam heeft besloten om te stoppen met een veelbelovende, maar uiteindelijk problematische pilot waarin kunstmatige intelligentie werd ingezet bij het beoordelen van bijstandsaanvragen. Het project, genaamd Slimme Check, had als doel om aanvragen op een snellere en eerlijkere manier te beoordelen, zonder daarbij afbreuk te doen aan de rechten van burgers. De inzet van het algoritme moest ambtenaren ondersteunen bij het bepalen of een aanvraag nader onderzocht moest worden. Daarmee zou de werkdruk verminderen en zou de capaciteit efficiënter worden ingezet, met behoud van de menselijke eindverantwoordelijkheid.
In de praktijk bleek het echter bijzonder lastig om het systeem voldoende betrouwbaar én eerlijk te laten functioneren. Ondanks een zorgvuldige voorbereiding en uitgebreide ethische kaders, stuitte het project op fundamentele problemen, zowel op het gebied van bias als op het gebied van effectiviteit. Na afloop van de pilot werd geconcludeerd dat het algoritme onvoldoende voldeed aan de vooraf gestelde voorwaarden, met als gevolg dat de gemeente besloot om het project niet voort te zetten.
De opzet: eerlijk, transparant en ondersteunend
Bij de start van de pilot werd bewust gekozen voor een ethische benadering van kunstmatige intelligentie. Het algoritme werd niet ontwikkeld om zelfstandig besluiten te nemen over het al dan niet toekennen van een bijstandsuitkering. In plaats daarvan moest het systeem fungeren als een hulpmiddel voor ambtenaren. Op basis van een aantal vooraf geselecteerde kenmerken — zoals inkomen, woonsituatie en arbeidsverleden — beoordeelde het algoritme of een aanvraag ‘onderzoekswaardig’ was. Gevoelige kenmerken zoals etniciteit, geslacht of nationaliteit werden uitdrukkelijk uitgesloten van het model, om te voorkomen dat het systeem zou discrimineren.
Om het systeem verantwoord in te zetten, werden technische documentatie, ethische uitgangspunten en toetsingskaders vanaf het begin transparant gedeeld. Er werd gewerkt met een open algoritmeregister, en diverse raden en commissies binnen de gemeente werden betrokken bij de ontwikkeling en beoordeling van het project. Ook privacyaspecten kregen veel aandacht, onder andere door het uitvoeren van een gegevensbeschermingseffectbeoordeling. Al deze maatregelen moesten ervoor zorgen dat de toepassing van AI binnen het sociaal domein zorgvuldig en controleerbaar zou verlopen.
Bias ondanks voorzorgsmaatregelen
Toch ontstonden er tijdens de test- en pilotfase zorgen over onbedoelde discriminatie. In de eerste testrondes bleek het algoritme relatief vaak aanvragen van mensen met een niet-westerse migratieachtergrond als risicovol aan te merken. Om dit te corrigeren, werd de trainingsdataset aangepast. Daarbij werden technieken toegepast om het model neutraler te maken, zodat het geen systematisch nadelige effecten zou hebben voor bepaalde groepen.
Tijdens de daadwerkelijke praktijktoepassing kwam echter een nieuw probleem aan het licht. Dit keer bleek het algoritme onevenredig vaak aanvragen van vrouwen en mensen zonder migratieachtergrond als ‘onderzoekswaardig’ te classificeren. Daarmee voldeed het model niet aan het belangrijkste ethische criterium: het risicomodel mocht in actieve inzet geen bias vertonen tegen specifieke groepen. Deze vaststelling gaf aanleiding tot hernieuwde kritiek van experts en adviesorganen. Ondanks correcties in eerdere fases bleek het dus buitengewoon lastig om het systeem in de praktijk écht eerlijk te laten functioneren.
Beperkte voorspellende waarde
Naast de zorgen over bias bleek ook de voorspellende waarde van het algoritme minder hoog dan gehoopt. In ongeveer de helft van de gevallen waarin het systeem een aanvraag als verdacht aanwees, bleek er bij nader onderzoek daadwerkelijk iets aan de hand. Dat betekent dat de andere helft van de geselecteerde aanvragen onterecht werd aangemerkt als risicovol. Hoewel het systeem niet bedoeld was om aanvragen automatisch af te wijzen, kan een dergelijke classificatie wel leiden tot intensiever onderzoek, met bijbehorende gevolgen voor de aanvrager.
Wat hierbij opviel, was dat het algoritme soms op basis van patronen werkte die voor mensen niet logisch leken. Ambtenaren kregen signalen die moeilijk te herleiden waren tot begrijpelijke criteria, wat het vertrouwen in het systeem ondermijnde. Hoewel het systeem in theorie uitlegbaar was, bleek dat in de praktijk de ‘logica’ van het model niet altijd aansloot bij menselijke intuïtie of ervaring. Dit riep vragen op over de betrouwbaarheid van het systeem en de bruikbaarheid van de gegenereerde adviezen in de werkpraktijk.
Kritiek vanuit de samenleving
Vanuit verschillende hoeken werd al eerder gewaarschuwd voor de risico’s van het gebruik van kunstmatige intelligentie in de sociale zekerheid. Met name het idee dat burgers vooraf als ‘risicovol’ worden bestempeld op basis van een model, werd door sommigen als problematisch ervaren. De grens tussen ondersteuning en controle is in dit domein dun, en het vertrouwen van burgers in de overheid kan onder druk komen te staan wanneer zij het gevoel hebben dat zij met wantrouwen worden benaderd.
Daarnaast speelt het bredere vraagstuk van algoritmische besluitvorming een rol. Zelfs wanneer een systeem bedoeld is als ondersteunend instrument en expliciet buiten gevoelige kenmerken om werkt, kunnen de onderliggende datasets of patronen toch tot onbedoelde ongelijkheden leiden. Experts op het gebied van technologie en ethiek waarschuwen al langer dat modellen zelden volledig neutraal zijn. Zelfs in een transparant en goed gecontroleerd proces kunnen menselijke aannames, historische scheefgroei en statistische afhankelijkheden leiden tot systematische vertekeningen.
De conclusie: goed bedoeld, maar te complex
Uiteindelijk leidde de optelsom van deze factoren tot de conclusie dat de pilot niet geschikt was voor verdere toepassing. De ethische maatstaven waaraan het model moest voldoen, konden in de praktijk niet worden gegarandeerd. De effectiviteit bleef achter bij de verwachtingen. En het vertrouwen in de technologie kreeg een knauw door het feit dat het systeem onvoorspelbaar gedrag vertoonde, dat moeilijk te controleren viel.
Het besluit om te stoppen met de pilot getuigt van realiteitszin. Ondanks een uitgebreid voorbereidingsproces, transparantie, externe toetsing en strenge criteria bleek de praktijk weerbarstiger dan de theorie. AI kan een nuttig hulpmiddel zijn, maar in ethisch gevoelige domeinen zoals de bijstand is terughoudendheid geboden. Burgers mogen verwachten dat zij gelijkwaardig en zorgvuldig worden behandeld, zeker wanneer het gaat om hun bestaanszekerheid. Als technologie dat niet met zekerheid kan waarborgen, is het verstandig om het roer om te gooien.
Reflectie: wat betekent dit voor de inzet van AI door overheden?
De casus Amsterdam laat zien dat het ontwikkelen van ‘eerlijke’ AI een complex en iteratief proces is. Zelfs wanneer een algoritme zorgvuldig is opgebouwd en uitvoerig is getest, kunnen in de praktijk onvoorziene effecten optreden. Dit vraagt om een brede benadering, waarin techniek, ethiek, juridische waarborgen en menselijke beoordeling hand in hand gaan.
Het betekent ook dat overheden zich niet moeten laten verleiden tot het idee dat technologie neutraal of probleemoplossend is. Elk algoritme is gebaseerd op keuzes, aannames en data die zelden vrij zijn van historische ongelijkheid. Bovendien is ‘fairness’ geen absolute eigenschap, maar eerder een dynamisch spanningsveld waarin verschillende belangen en waarden moeten worden afgewogen.
Amsterdam heeft met Slimme Check laten zien dat het mogelijk is om AI op een open en verantwoorde manier te ontwikkelen en te testen. Dat het project uiteindelijk niet is doorgezet, moet niet worden gezien als een mislukking, maar als een leerervaring. Het toont aan dat transparantie en ethiek niet alleen window dressing zijn, maar daadwerkelijk invloed hebben op besluiten in de publieke sector. En dat is misschien wel de belangrijkste winst van dit project.