Blog Het betere is de vijand van het goede

Het betere is de vijand van het goede

Le mieux est le mortel ennemi du bien. Het betere is de doodsvijand van het goede. Iedereen die zich bezig houdt met data-analyse zou deze uitspraak van Montesquieu op zijn arm moeten tatoeëren. Waarom? Omdat iedere data-analyse altijd complexer kan. Omdat er altijd wel een uitzondering is, waarop je ‘de regel’ kunt aanpassen. Waardoor je analyse nog beter wordt. Maar ook onbegrijpelijker en foutgevoeliger. Over die balans gaat dit artikel. Aan de hand van een aantal voorbeelden willen we je aan het denken zetten over wat een goede balans is.

Sancties

We beginnen met een eerste voorbeeld. Met de oorlog in Oekraïne is er veel aandacht voor de sanctielijsten. Er is een periode geweest dat er bijna dagelijks nieuwe sancties tegen Rusland werden afgekondigd.

En toen kwam de praktische uitwerking...

De sanctielijsten bestaan uit een allegaartje van bedrijven, namen, persoonsgegevens, aliassen. Zoals dat gaat in de wereld van data zijn bepaalde kolommen niet gevuld, andere kolommen zijn verkeerd gevuld en met heel veel data kun je niks.

Bijvoorbeeld omdat er namen op de sanctielijsten staan, die gewoon heel erg veel voorkomen. Wat hebben de namen Ali, Santos en Jones met elkaar gemeen? Ze staan alledrie op de sanctielijst, maar staan ook op de lijst van 10.000 meest voorkomende achternamen in Nederland.

Dat betekent dat je in je controle andere gegevens moet meenemen, dan alleen de naam. Het probleem is dat veel van de aanvullende gegevens op de sanctielijsten (zoals paspoortnummer, geboortedatum, etc.) vaak niet worden geregistreerd in je crediteurenadministratie.

Het maken van een echt goede controle op de sanctielijsten is eigenlijk onmogelijk.

Dan moet je kiezen en gaan voor wat wel mogelijk is.

Bijvoorbeeld door te controleren op sanctielanden en organisaties op de sanctielijsten en niet op de personen. Of door alleen te controleren op personen met een weinig voorkomende naam (en de resultaten daarna handmatig te beoordelen).

Dubbele facturen

Een tweede voorbeeld. Voor onze klanten maken we (onder andere) geautomatiseerde analyses op potentieel dubbele facturen (hier kun daar meer over lezen

Een analyse op potentieel dubbele facturen maken, is de ideale combinatie zoeken tussen kenmerken die genoeg op elkaar lijken om de facturen dubbel te kunnen laten zijn. Daarbij kijk je bijvoorbeeld naar zaken als de factuurdatum, het factuurnummer, het crediteurnummer, de crediteurnaam, enzovoorts. Het is net als vissen. Hoe groter je net, hoe meer je vis je vangt. Maar hoe groter ook de kans is dat je dingen vangt die je niet wil vangen. Per definitie krijg je bij een analyse op potentieel dubbele facturen te maken met zogenaamde ‘false positives’ (facturen die dubbel lijken, maar dat niet zijn). De reflex bij sommige organisaties is om het aantal false positives zo laag mogelijk te krijgen. Bijvoorbeeld door twee factuurnummers voor 99% op elkaar te laten lijken, in plaats van voor 95%.

Het nadeel van dat soort aanpassingen is dat niet alleen je false positives dalen, maar ook de kans toeneemt dat je facturen die toch dubbel zijn gaat missen.

Wijcontrolerenjedata.nl

Dat het betere de vijand is van het goede, is helaas niet alleen waar bij data-analyses. Het geldt ook voor websites die data-analyses aanbieden. Zoals, uhm. Die van ons. Daar kwamen we op een pijnlijke manier achter.

Gelukkig zijn we nooit te beroerd om ons kwetsbaar op te stellen.

Wat er mis ging? In de vorige versie van wijcontrolerenjedata.nl gingen we meteen voor het maximale. We boden complexe analyses aan. Data moest je uploaden via een invoer-template in Excel. Daarna voerden we een automatische ‘pre-check’ uit, waarbij we kwaliteit van de ingevoerde data gingen controleren. Die resultaten lieten we vervolgens zien (met een dashboardje) en toen kwam de betaalmuur. We hadden er van tevoren goed over nagedacht en in dat ontwerp hielden we met alles rekening.

Behalve met de gebruiker (sorry nog daarvoor).

De gebruiker kreeg teveel voor zijn kiezen en snapte het niet meer. Daarom kozen we in de nieuwe opzet voor een veel simpeler ontwerp. #knipplakklaar werd ons nieuwe motto en gebruikers kwamen terug en werden enthousiast.

De moraal van dit verhaal

Het streven naar perfectie is een goede eigenschap. Behalve als dat streven je belemmert. Het streven naar een controle op sanctielijsten waar geen speld tussen te krijgen is, zorgt ervoor dat je nooit een werkende controle op sanctielijsten zult hebben. Een analyse op potentieel dubbele facturen zonder false positives zal heel veel dubbele facturen missen. En een analyse die heel goed is, maar die niemand snapt, verdwijnt in een la. Alles kan altijd beter. Maar soms is goed, goed genoeg.