
Audits op basis van een steekproef komen veel voor. In alle situaties waarin de te auditen materie te groot, te uitgebreid is om in zijn geheel te controleren, wordt volstaan met een steekproef. Dat geldt bijvoorbeeld bij product audits, de audits van bedrijfsprocessen. Maar ook bij financiële audits. Ook daar maakt de auditor vaak gebruik van een steekproef.
Dit roept natuurlijk direct de vraag op: Hoe groot moet een steekproef zijn om een betrouwbaar beeld van het geheel te geven? Kan ik bij een geheel van 1000 te auditen elementen volstaan met een steekproef van 10? Of moet dit minstens 150 zijn? Of nog meer? In trainingen over auditing komt deze vraag nogal eens aan de orde. De volgende onderzoeken, ontleend aan Daniel Kahneman, laten zien dat dit zinnige vragen zijn.
Onderzoek onder voorkomen van nierkanker
Een paar jaar geleden is er een onderzoek gedaan naar het voorkomen van nierkanker in alle 3401 county’s van de Verenigde Staten. Het bleek dat deze ziekte het minst voorkwam in de rurale, dunbevolkte county’s, gesitueerd in de van oudsher republikeinse staten in het midden-westen, zuiden en westen van de VS. De onderzoekers hadden er niet veel moeite mee om deze uitkomsten te duiden. Het gezonde rurale leven, weinig luchtvervuiling, geen watervervuiling en vers voedsel zonder kunstmatige toevoegingen maakt de uitkomsten begrijpelijk.
Niet veel moeite mee om uitkomsten te duiden
Het onderzoek liet verder de resultaten zien waar de ziekte het meeste voorkwam. Dit waren de rurale dunbevolkte county’s gesitueerd in de van oudsher republikeinse staten in het midden-westen, zuiden en westen van de VS. De betrokken onderzoekers hadden er niet veel moeite mee om deze uitkomsten te duiden. Het hoge aantal was direct te wijten aan geen toegang tot goede gezondheidszorg in de rurale county’s, het vetrijke dieet, te veel alcohol en te veel roken. Ook een aannemelijk verhaal. Maar alles goed en wel, dit kan niet waar zijn. Het rurale leven kan niet tegelijk de verklaring vormen voor het weinig voorkomen van nierkanker en voor het veel voorkomen van deze ziekte. Het sleutelwoord voor de verklaring van deze uitkomsten is dan ook niet ‘ruraal’, maar ‘dunbevolkt’. Hoezo?
Het vreemde gedrag van kleine steekproeven
Om deze vraag te beantwoorden stelt Kahneman twee experimenten voor die u zelf ook kunt doen. Een waarschuwing vooraf: het zijn uiterst saaie experimenten, alleen uit te houden als een andere tijdsbesteding nog meer verveling oplevert.
- Experiment I: Neem een grote vaas met evenveel rode en witte knikkers. Neem vervolgens, bij wijze van steekproef, steeds 4 knikkers uit deze vaas. U telt steeds hoeveel rode knikkers u trekt. Daarna doet u de knikkers terug en pakt u de volgende vier. Als u de beschikking heeft over een robot, dan kunt u deze de taak laten doen. Want als u deze handeling maar vaak genoeg herhaalt dan zult u zien dat er een patroon ontstaat: U zult zien dat de uitkomst ‘2 rood en 2 wit’ zes keer zo vaak voorkomt als de uitkomst ‘4 rood’ of ‘4 wit’. Dit is een wiskundig gegeven. Elke keer dat dit experiment gedaan wordt, zal de uitkomst hetzelfde zijn. De uitkomsten ‘4 rood’ en ‘4 wit’ zijn dus redelijk bijzonder vergeleken met de andere uitkomsten.
- Experiment II: Zoek een collega met wie u dit experiment kunt doen. Bedenk dat de saaiheid van het experiment de relatie onder druk kan zetten. U pakt steeds 4 knikkers uit de pot. Uw collega steeds 7. U maakt beiden een notitie als u enkel rode of enkel witte knikkers trekt. Alweer, als u beiden dit maar vaak genoeg doet, ontstaat er een patroon: U zult ongeveer 8 keer zo vaak deze bijzondere uitkomst trekken dan uw collega. De specifieke percentages zijn: U in 12,5 procent van de trekkingen en uw collega in 1,56 procent van de trekkingen. Ook dit is een wiskundig gegeven. Herhaling zal steeds dezelfde uitkomsten opleveren. Een kleine steekproef leidt vaker tot opvallende uitkomsten dan een grotere.
En dit vormt de verklaring voor de strijdige onderzoeksuitkomsten aan het begin van dit artikel. Zie de inwoners van de VS als een grote vaas met knikkers. Sommige knikkers zijn gemarkeerd met NK voor nierkanker. Zo gaat u alle county’s van de VS langs. U trekt veel knikkers voor dichtbevolkte county’s en weinig voor dunbevolkte county’s. Net als in experiment II zult u bij de trekking van dunbevolkte county’s vaker extreme uitkomsten (nauwelijks nierkanker of veel nierkanker) aantreffen dan bij de trekking van dichtbevolkte county’s.
Conclusies over steekproeven
Het kost weinig moeite om de uitkomsten van een steekproefsgewijze audit (onderzoek) te duiden. Ons brein is er op gericht om een verhaal te maken van de gegevens die we onder ogen krijgen. Dat maakt beide verklaringen van de onderzoekers aannemelijk. Ook al kunnen ze niet beide waar zijn.
- Grote steekproeven zijn preciezer dan kleine steekproeven. Hier heeft iedereen wel een intuïtief besef van. Grote steekproeven zijn meer representatief.
- Kleine steekproeven leveren vaker opvallende resultaten op dan grote steekproeven.
De laatste conclusie verdient aandacht. Het betekent dat de onderzoeksresultaten niets over de stand van zaken van nierkanker in dunbevolkte gebieden zeggen, maar het effect zijn van een wiskundig patroon. Dat gaat dus veel verder dan het meer of minder betrouwbaar zijn van steekproeven.
Dit is het risico van een kleine steekproef. Een audit gebaseerd op een kleine steekproef leidt vaak tot extreme inhoudelijke uitkomsten. Dit kan de gebruiker van de audit op het verkeerde been zetten. Omdat deze uitkomsten niets met de inhoudelijkheid van een audit te maken hebben, maar puur het gevolg zijn van een wiskundig patroon. Dit heeft als belangrijke implicatie dat bij een onverwachte extreme uitkomst van een audit, eerst gekeken moet worden naar de grootte van de steekproef waar deze resultaten op gebaseerd zijn. Voordat men overgaat tot meer inhoudelijke beschouwingen over deze uitkomsten.
Hoe verder?
Dit roept natuurlijk direct een vraag op. Hoe groot moet een steekproef dan zijn om deze wiskundige valkuil te vermijden? Dit is een vraag waar elke onderzoeker en elke auditor voor gesteld wordt bij de keuze voor een steekproef. Met name bij het ontwerp van een enquête staat de steekproef vraag vaak voor aan.
Er bestaat een simpel en een meer uitgebreid inhoudelijk antwoord op deze vraag.
Het simpele antwoord is: gebruik een van de rekentools die op internet te vinden is. Er zijn veel gratis en betaalde sites te vinden die een tool bieden voor het berekenen van de minimale steekproef grootte. Aan de andere kant, er wordt wel eens gezegd: ‘A fool with a tool is still a fool’. Wat er toe kan leiden om aandacht te besteden aan het meer inhoudelijke antwoord.
De formule die gebruikt wordt in deze tools, vraagt naar bepaalde informatie. Informatie waarbij de beantwoording leidt tot een beter begrip van waar het om draait bij de vaststelling van de minimale steekproefgrootte.
Betrouwbaarheid
Om maar met het vreemde gedag van kleine steekproeven te beginnen: dit heeft te maken met het gewenste betrouwbaarheidsniveau van de steekproef. Helemaal uitsluiten van afwijkende uitkomsten is onmogelijk, dus een betrouwbaarheid van 100 procent is niet haalbaar. Onderzoekers kiezen meestal voor een betrouwbaarheidsniveau van 95 procent. Voor een audit betekent dit dat de auditor in 95 procent van de gevallen goed zit met de uitkomsten en in 5 procent van de gevallen niet. U kunt kiezen voor een nog hoger betrouwbaarheidsniveau, maar dat heeft direct consequenties voor de grootte van de steekproef.
Nauwkeurigheid
Een andere afweging die u moet maken is de foutenmarge die u accepteert. Stel dat uit een audit blijkt dat 70 procent van de producten aan de meetcriteria voldoet. Mag dat dan in de praktijk ook betekenen dat tussen de 65 en 75 procent van de producten aan de criteria voldoet? Dit wordt ook wel eens de nauwkeurigheidsmarge genoemd. Ook hier geldt, hoe kleiner de foutenmarge, des te groter moet de steekproef worden.
Verwachtingen
Een volgende belangrijke vraag is of de auditor een voorafgaande verwachting heeft over de uitkomsten. Hier wijkt een audit af van een ‘gewoon’ onderzoek. Een indicatie geven van een eventuele verwachting kan duiden op vooringenomenheid. Het advies is dan ook als u in een tool hier naar gevraagd wordt, u een neutraal antwoord geeft. U heeft geen verwachting over de uitkomsten van een audit.
Populatie
Een laatste vraag die beantwoord moet worden: hoe groot is de populatie? Namelijk het geheel aan de te auditen elementen. Als de populatie meer is dan 10.000 wordt een andere formule gebruikt dan als de populatie kleiner is.
Als u een tool gebruikt dan zal u steeds gevraagd worden de bovenstaande vragen in kwantitatieve zin te beantwoorden. Het gebruik van deze vragen zorgt er niet alleen voor dat de steekproefgrootte die u kiest optimaal is. Het zorgt er ook voor dat u kritische vragen over de uitkomsten van een audit, in ieder geval ten aanzien van de steekproef, goed kunt beantwoorden.
Bert van der Zaag, arbeids- en organisatiepsycholoog en mede-eigenaar van Tau Resources