Tja, wat ga ik hier zeggen dat een beetje helderheid zou kunnen geven. Bij voorbaat mijn excuses aan iedereen die dit leest, dit gaat een vrij fundamentele, behoorlijk taaie post worden. En toch denk ik dat dit de manier is om te begrijpen waar we hier eigenlijk over praten.
Laat ik beginnen met te zeggen dat ik snap dat je je verbaast, dat doe ik namelijk ook. En we zijn niet de enigen. Misschien wel de grootste controverse in de wiskundige statistiek van de afgelopen 150 jaar is die tussen de aanhangers van de klassieke, frequentistische benadering en de Bayesianen.
Pas toen na de uitvinding van de computer en de toename van de rekenkracht bleek dat je met een Bayesiaanse aanpak een aantal praktische problemen kon oplossen die tot dan toe onoplosbaar werden geacht, is deze controverse gaan liggen. Bekende voorbeelden zijn het kraken van de Duitse Enigma code in WO2 en het opsporen van gezonken onderzeeërs en vermiste kernbommen in de naoorlogse periode. De eerste voorbeelden komen vooral uit de militaire hoek. Dat komt denk ik omdat het leger vrij weinig ophad met de academische overpeinzingen van de frequentisten en gewoon heel snel resultaten wilde zien
Het verschil tussen de klassieke en de bayesiaanse benadering zit hem in de manier waarop omgegaan wordt met onzekerheid en daarmee hoe gekeken wordt naar het begrip 'kans'. De frequentistische benadering van de statistiek gaat ervan uit dat er een objectieve kans bestaat op een bepaalde eigenschap in een populatie en dat we die kans kunnen leren kennen door herhaaldelijk steekproeven te nemen uit deze populatie. Denk aan het klassieke opgooien van een muntje om te bepalen of we te maken hebben met een zuivere munt of niet.
Dit werkt vaak goed, maar er zijn ook regelmatig situaties waarin het niet mogelijk of niet praktisch is om herhaalde steekproeven te nemen. Dat geldt bijvoorbeeld ook voor ons op dit forum. Elke Mol in elk seizoen, alle kandidaten en elke opdracht zijn weer anders. We kunnen niet de kandidaten naar believen een bepaalde opdracht een aantal keren laten herhalen, turven wat de uitkomsten zijn en zo vaststellen wie de Mol is. Dat zou natuurlijk heel fijn zijn, maar ik denk niet dat de makers ons die kans nog gaan geven
We hebben dus een andere benadering nodig en die is er. De Bayesiaanse aanpak gaat er kort gezegd van uit dat 'objectieve kansen' in de werkelijkheid niet bestaan, maar dat er alleen subjectieve kansinschattingen zijn over een bepaalde werkelijkheid en dat je die kansinschattingen kunt verbeteren door telkens stukjes informatie toe te voegen aan alles wat je al weet.
Op de middelbare school zijn we vrijwel allemaal in aanraking gekomen met de klassieke, frequentistische statistiek, dat is hoe de meesten van ons hebben leren denken over onzekerheid en kansen. Als een frequentist naar de bayesiaanse aanpak kijkt is ie verbaasd hoe het toch mogelijk kan zijn dat relatief weinig informatie zo'n impact op de berekende kans kan hebben. De resultaten van bayesiaanse zoekalgoritmes lijken daarom voor de frequentist al gauw spectaculair: je breekt de Enigma code, vindt de onderzeeër op de oceaanbodem en ontmaskert de Mol
Ik hoop dat deze uiteenzetting een beetje helpt.
Nog twee opmerkingen over veelvoorkomende misverstanden
1. De Bayesiaanse aanpak is net als de klassieke aanpak niet onfeilbaar en de implementatie daarvan in een voorspellend model al helemaal niet. Het is dus heel goed mogelijk dat DidM het dit seizoen niet bij het juiste eind heeft.
2. De Bayesiaanse en frequentistische methoden zijn niet twee verschillende werkelijkheden. Het zijn twee verschillende manieren om naar dezelfde werkelijkheid te kijken. Beide methoden leiden uiteindelijk ook tot dezelfde berekende kansen. Alleen met de Bayesiaanse methode lukt dat in onzekere situaties meestal een stukje sneller.
En daarmee zijn we dan weer teruggekomen bij onze Verbazing,