Nieuws, updates en meer

Controleren is meer dan opschonen

In deze tijd van digitalisering kun je zo’n beetje iedere potentiële fout in je administratie vinden op basis van een algoritme. Hoewel automatisering van data-analyses organisaties veel tijd, geld en risico’s scheelt, is er een belangrijke valkuil. De valkuil van de veronderstelde volledigheid. Met andere woorden, hoe weet je dat er geen fouten of risico’s in je administratie zitten waarop je algoritmes niet controleren? In dit gastartikel legt Paul van Batenburg – autoriteit op het gebied van steekproeven – uit hoe steekproeven kunnen helpen om die valkuil te voorkomen.

Ik begin met een verzonnen voorbeeld. De ballenbak van een meubelgigant bevat miljoenen ballen. Net zoals de administratie van een organisatie miljoenen records bevat. In de ballenbak wil de meubelgigant zo veel mogelijk groene ballen. Groen is een rustgevende kleur en houdt de kindjes in de ballenbak rustig. Ballen van een andere kleur worden gezien als fout of risico. Daarom heeft de meubelgigant bedacht dat minstens 80% van die ballen groen moet zijn. Maar, men heeft rode en witte ballen gezien en misschien zijn dat er te veel.

Er is een apparaat uitgevonden dat ballen van een gekozen kleur lek prikt en opzuigt (vergelijk: meerdere algoritmes die je administratie controleren op een bepaalde fout of een bepaald risico).Het heeft dus geen zin om het apparaat op groen te programmeren want dan zijn alle groene ballen verdwenen. En met een algoritme kan je de administratie wel scannen op records die goed lijken te gaan, maar daarmee zijn ze dat nog niet.

Als we het apparaat op rood instellen blijkt 5,1% van de ballen in de bak rood te zijn geweest.

Geweest, want ze zijn nu lek geprikt en opgezogen. Daarna stellen we het apparaat in op wit. En 2,8% van de ballen wordt verwijderd. We hebben dus alle rode en alle witte ballen opgespoord en afgevoerd. Mooi zo. Kunnen we nu stellen dat aan de eis van minimaal 80% groene ballen is voldaan?

Als we een steekproef hadden getrokken hadden we voor we beginnen met lek prikken en afvoeren, eerst kunnen kijken welke kleuren er eigenlijk zijn. In 100 waarnemingen blijken er 90 groene ballen te zijn. Dat geeft nog geen garantie dat de hele ballenbak ook voor 90% groen is, maar met wat statistiek blijkt dat we wel 95% zeker zijn dat de gestelde eis van minimaal 80% gehaald wordt. Van die 10 ballen die niet groen zijn, zijn er 5 rood en 3 wit. Daarmee hadden we kunnen schatten dat er ongeveer 5% rode en 3% witte ballen zijn. En we weten inmiddels dat die schattingen redelijk zijn. Maar, nu komt het belangrijkste voordeel van steekproef controle: we zien ook 2 blauwe ballen (vergelijk: fouten of risico’s in je administratie die je vantevoren zelf niet hebt bedacht).

Dankzij de steekproef schatten we dus dat ongeveer 2% (en maximaal 6,3%) van de ballen blauw zijn. Het apparaat had het exacte aantal gegeven, als we het er op hadden ingesteld. Maar, dat hebben we niet gedaan, omdat we voor de steekproef niet wisten dat er ook blauwe ballen in de bak zaten. Het geautomatiseerd zoeken naar andere kleuren dan groen werkt dus prima voor die kleuren waarop we het apparaat hebben ingesteld. Maar we krijgen geen informatie over andere kleuren. Net zoals een algoritme alleen die fouten en risico’s zal vinden, die je vooraf gedefinieerd hebt.

Natuurlijk kunnen we het apparaat achtereenvolgens instellen op alle kleuren van de regenboog, maar of dat efficiënt is, is twijfelachtig. Natuurlijk is in dit voorbeeld het aantal kleuren van de regenboog beperkt, maar het aantal verschillende potentiële fouten in je administratie is nagenoeg oneindig.

Dankzij de steekproef weten wij bijvoorbeeld dat er in 100 waarnemingen geen oranje ballen zijn gevonden. Dan komt de statistiek weer om de hoek kijken: de beste schatting van het percentage oranje ballen in de ballenbak is 0, en we kunnen 95% zeker zijn dat er maximaal 3% oranje ballen zijn omdat ze in de steekproef niet gevonden waren. En dat geldt natuurlijk voor alle andere kleuren…

Moraal van dit verhaal. Met data-analyse kan je alle fouten uit populaties halen die je van tevoren kunt definiëren, maar fouten waar je niet op hebt gerekend zul je niet ontdekken. Met steekproeven krijg je informatie over alle mogelijke fouten die vaak genoeg voorkomen om relevant te zijn. Het grote verschil is dat je bij data-analyse een element van de populatie toetst aan een norm voor wat fout is, terwijl bij een steekproef wordt getoetst aan de norm voor wat goed is.

Controleren met behulp van data-analyse is voor mij daarom een combinatie van slimme tools om vooraf gedefinieerde fouten uit een populatie te verwijderen en daarna een steekproef om vast te stellen dat er niet nog meer fouten verwijderd moeten worden.

Mijn vak is effectief en efficiënt contoleren met behulp van statistiek. Ik geef advies over de vraag hoe groot die steekproef moet zijn die aangeeft welke data-analyses ingezet (hadden) moeten worden om te zorgen dat de populatie aan de gestelde eisen voldoet. Controleren is namelijk meer dan fouten opsporen: het is ook garanderen dat het resterende percentage fouten niet materieel is.

Overigens: ik heb opzettelijk voor de leesbaarheid geen formules gebruikt om de door mij genoemde percentages te onderbouwen.

Wil je meer weten over steekproeven? Of wil je contact opnemen met Paul van Batenburg? Kijk dan op https://steekproeven.eu/.

Welkom bij
WijControlerenJedata.nl

Voordat je verder gaat, vragen we je akkoord te gaan met onze Algemene voorwaarden en onze Cookies.

Ik ga niet akkoord Ik ga akkoord

Controleren javascript ondersteuning

Voor een optimale gebruikerservaring, maakt deze website intensief gebruik van javascript.

Als deze tekst niet snel wordt vervangen, ondersteunt uw browser GEEN javascript. Schakel javascript in uw browser in of gebruik een andere browser.