Blog Fraude opsporen met de Wet van Benford

Fraude opsporen met de Wet van Benford

Kun je een dataset beoordelen op betrouwbaarheid, met een druk op de knop? Jazeker! Met dank aan Dr Frank Benford. Frauduleuze datasets vallen eenvoudig door de mand als je kijkt naar de verdeling van de begincijfers van een getallenreeks. In dit artikel leggen we je uit hoe het zit.

Willekeurige getallen verzinnen

Stel je moet een willekeurige lijst met getallen verzinnen. Bijvoorbeeld omdat je wil frauderen met de bedragen in je boekhouding (ik noem maar iets geks). Ieder getal – we gaan er vanuit dat je werkt met bedragen boven de euro - kan beginnen met het cijfer 1 tot en met het cijfer 9. De natuurlijke neiging van mensen is om de getallen dan een beetje ‘geloofwaardig’ te verdelen. Dat betekent dat ongeveer 1/9e deel van de getallen met een 1 begint, 1/9e deel van de getallen met een 2 begint, enzovoorts. Dat is grofweg ook wat er gebeurt als je via een formule in Excel een groot aantal willekeurige getallen laat genereren. Bij (bijvoorbeeld) 47.488 willekeurig gegenereerde getallen is de verdeling tussen de begingetallen 1 tot en met 9 steeds ongeveer 11%. Anders gezegd: 11% begint met een 1, 11% begint met een 2, enzovoorts. Het zou immers raar zijn als 30% van je verzonnen getallen met een 1 beginnen en 6% van je getallen met 7. Toch?

Wat is de Wet van Benford?

Fout! De natuurkundige Frank Benford ontdekte dat de verdeling van de begincijfers van getallen uit een dataset geen uniforme (lees: gelijkmatige) verdeling volgen. In plaats daarvan zijn ze logaritmisch verdeeld. Dat betekent bijvoorbeeld dat ongeveer 30% van de getallen met een 1 zal beginnen en ongeveer 6% met een 7.

Hoe werkt de Wet van Benford?

Op basis van de Wet van Benford kun je uitrekenen hoe vaak de getallen 1 tot en met 9 als begingetal ongeveer voor zouden moeten komen in een dataset. Vervolgens kun je vergelijken hoe vaak de getallen 1 tot en met 9 daadwerkelijk voorkomen als begingetal in je dataset. Zie je flinke afwijkingen, dan kan dat een indicatie zijn dat er geknoeid is met de cijfers.

Voorbeelden van de Wet van Benford

De Wet van Benford wordt in de praktijk op veel verschillende vlakken toegepast. Bijvoorbeeld bij de beoordeling van verkiezingsuitslagen, het aantal inwoners van de gemeenten in een land, beurskoersen, enzovoorts. De wet leent zich ook goed voor fiscale en financïele datasets. Denk bijvoorbeeld aan de beoordeling van factuurbedragen.

Wanneer werkt de wet van Benford niet?

Er is een ‘maar’. De Wet van Benford gaat niet op voor datasets die gemaakt worden op basis van een willekeurig proces (bijvoorbeeld loterij-uitslagen). Dat is trouwens precies wat de wet bruikbaar maakt voor fraudedetectie. Het heeft ook weinig zijn om bijvoorbeeld crediteurnummers te beoordelen, als deze door het systeem bijvoorbeeld standaard met een 2 beginnen. Ook geldt dat hoe groter de dataset is, hoe betrouwbaarder de uitkomsten zullen zijn.