blog

Terug naar overzicht
Tuesday 1 March 2016
Cijfers en mensen, (g) een goed idee?

Cijfers en mensen, (g) een goed idee?

Er is al enkele jaren heel wat te doen omtrent 'big data' en 'HR Analytics'. Na de jaren van hype, lijken we ons nu in wat het onderzoeksbureau Gartner de 'trog van desillusie' noemt, te bevinden. Meer en meer komt er kritiek op de analytische benadering van menselijk gedrag in organisaties. Heel wat van deze kritiek is terecht, en komt vanuit een fundamentele zorg omtrent het correct gebruik van geavanceerde data-analytische methoden. Toch is ook  heel wat kritiek eerder ongefundeerd. Een paar dagen geleden stootte ik op onderstaand filmpje op de overigens prima website van evidencebasedhrm. In een 20-minuten durende lezing wordt op een niet geheel correcte wijze twijfels gezaaid omtrent  HR analytics. Bij deze, en bij wijze van dialoog, wou ik toch een en ander rechtzetten. 

De aanleiding

De aanleiding van dit artikel  is een lezing over big data, of althans de video hiervan, die gepubliceerd werd op de website van evidencebasedhrm. Ik geef graag toe dat ik, als wetenschapper in hart en nieren, deze website af en toe raadpleeg   om snel wat achtergrond te krijgen rond de zoveelste hype binnen het HR werkveld. Ik ben ook een fan van het werk dat deze mensen doen, echt waar. Alleen  ben ik minder fan van de manier waarop .

Ik begrijp de emotionele reactie op de hardnekkige stompzinnigheid waarmee sommige beslissingsnemers vasthouden aan haast mythologische modellen en theorieën zeer goed. Ik herken dit bij mezelf, en ik herken dit ook vanuit de begindagen van Skepp, een andere vereniging die ik een warm hart toedraag. Alleen, door aan deze emoties uiting te geven, met scherpe opmerkingen, die vaak op de persoon worden gespeeld, help je de eigen zaak echt niet vooruit. Integendeel, je loopt het risico alleen in de woestijn te staan roepen.  Wanneer je bij deze kritiek echter ook nog gaat zondigen tegen de eigen evidence-based regels, loopt het helemaal verkeerd.  Vooraleer een aantal zaken verder te bespreken, lijkt het me het beste dat de lezer eerst het bewuste filmpje bekijkt. Je vindt het op de website van evidencebasedhrm

De argumenten tegen en voor HR Analytics

Spurieuze correlaties

Het grootst aantal slides worden besteed aan grappige voorbeelden van wat statistisci kennen als spurieuze correlaties. Een spurieuze correlatie is een correlatie die hoog (of laag) is en die ook statistische betekenisvol, of significant is. Echter, de entiteiten (metingen) die correleren lijken helemaal niets met elkaar te maken te hebben.  Spurieuze correlaties komen voor naarmate we meer en meer data met elkaar gaan correleren, en laat dit nu net het geval zijn wanneer we over 'Big Data' beschikken. Het fenomeen is relatief eenvoudig te begrijpen en is  goed bekend. Wanneer  we een correlatie gaan toetsen, hanteren we hierin een grens, bijvoorbeeld dat we de correlatie slechts als 'echt of waar' beschouwen wanneer er minder dan 5% kans is dat deze correlatie in onze steekproef te wijten is aan het toeval (soms hanteren we ook 1% of nog een kleinere grens). Dit werkt goed, maar wordt problematisch wanneer we pakweg 100 correlaties tegelijk gaan toetsen. Want, met deze 5% grens betekent dit dat er 5 correlaties zullen gevonden worden  die louter te wijten zijn aan het toeval. 

De suggestie van de spreker dat dit een probleem is voor HR Analytics gaat echter niet op.  Zoals de spreker allicht heel goed weet, maar vergeet te vermelden, is dat er methoden bestaan om hiermee om te gaan.  De meest gekende is de Bonferoni-correctie, waarbij we de grens strenger zullen stellen naarmate we meer testen tegelijkertijd doen. Deze en andere technieken werken wel degelijk, en leveren ook fundamentele wetenschappelijke inzichten op, bijvoorbeeld in de neuropsychologie. Wanneer we de werking van het brein onderzoeken aan de hand van functionele magnetische resonantie (fMRI) trachtten we de activiteit in bepaalde delen van het brein te koppelen aan de taken die mensen in de scanner uitvoeren. Het brein wordt hierbij opgedeeld in zogenaamde voxels (volumetric pixels), kubussen van pakweg 2x2x2 mm groot. In elk van deze kubussen wordt dan de sterkte van het signaal ten opzichte van een rusttoestand gemeten en vergeleken. U begrijpt dat hierbij al meteen een paar honderdduizend vergelijkingen bij komen kijken, en dat toevallige signalen welig tieren. Toch heeft dit ons begrip van de werking van het brein nog nooit in de weg gestaan. Integendeel. 

Vaststellen dat er zoiets bestaat als spurieuze correlaties is een ding. Vaststellen dat er een risico is dat mensen die hierin weinig ervaring of training hebben mogelijks verkeerde conclusies zullen trekken is een ander gegeven. Maar suggereren dat dit betekent dat Big Data nonsens is, gaat een brug te ver. 

Non-lineair dynamische systemen

Een ander probleem voor Big Data wordt geillustreerd  aan de hand  van  het bekende voorbeeld van Google Flu. Google kwam op het idee om vanuit de zoekopdrachten die mensen ingeven op hun zoekmachine te proberen voorspellen waar en in welke grootte-orde de griep epidemie zich zou ontwikkelen. In het eerste jaar behaalde Google indrukwekkende resultaten accuraat voorspelden waar en hoe stevig de griep zou toeslaan.  En dit een tweetal weken vroeger dan epidemiologische expertisecentra zoals het Centre for Disease Control en op basis van menselijk gedrag op het internetHet daaropvolgende jaar leidde dat zelfde model echter tot een (grote, factor ±2) overschatting van de griepepidemie.  Een van de redenen hiervoor was het zelf-referentieel karakter van de data. De bekendheid van het influenza project leidde tot veranderingen in de zoektermen die mensen op het internet hanteerden. Dit leidde tot een verhoging van de zoektermen die het systeem als basis hanteerde, en bijgevolg tot overschatting.  

De kern van het probleem ligt erin dat we proberen om een lineair model toe te passen op een niet-lineair, dynamisch systeem. Deze systemen worden onder andere gekenmerkt door het feit dat de output van het systeem op moment t, de input vormt op moment t+1. Met andere woorden, het systeem wijzigt zichzelf voortdurend. De meeste biologische systemen, en ja, ook de mens en de organisaties waarin wij werken zijn voorbeelden van dergelijke systemen. Dit betekent echter niet dat we dit soort systemen niet kunnen voorspellen. Het weer is een ander voorbeeld van een non-lineair systeem. Toegegeven, de accuraatheid van onze weersvoorspelling neemt af met de tijd. We kennen allemaal de grafiek van de temperatuur uit het weerbericht, waarbij de grijze zone rond de gemiddelde lijn steeds breder wordt naarmate de dagen vorderen. Dit betekent dat we met toenemende mate meer onzekerheid hebben. Welke inspanningen we ook doen, we lijken nooit geheel accuraat vat te krijgen op het weer. Maar dit neemt niet weg dat de accuraatheid van de voorspelling op korte termijn gigantische toegevoegde waarde kunnen hebben. Vraag dit maar aan de fruittelers en inwoners van orkaangevoelige gebieden. 

Eenzelfde verhaal gaat op voor de voorspellingen van menselijk gedrag binnen organisaties. Nee, het is inderdaad nonsens om een voorspelling over Mia's prestaties binnen twee jaar te doen (cfr. de spreker) te doen  (een individu)  zonder hieraan een graad van waarschijnlijkheid te koppelen.  En ja, helaas gebeurdt dit al te vaak. Maar het is wel mogelijk iets te vertellen over de waarschijnlijke prestaties van Mia's versus Rita's, en deze uitspraken hebben mogelijks een menselijke en economische meerwaarde. 

 Sampling error en sampling bias

Nog een bekend statistisch fenomeen is dat van sampling error of sampling bias. Dit wordt door de spreker herhaaldelijk aangehaald als zijnde dat mensen die Big Data gebruiken vaak de illusie hebben dat ze alle data hebben. Bijgevolg worden er soms foute conclusies getrokken. Een illustratief voorbeeld in de lezing is dat van de stad Boston, die via een smartphone applicatie de stand van het wegdek wenst te optimaliseren. De idee is eenvoudig: mensen nemen een foto, dewelke wordt voorzien door de telefoon van geolocatie informatie van gebreken aan de publieke wegen, waarop de stadsdiensten deze herstellen. Na een aantal maandenbleek dat de toestand van de wegen en straten in de begoede wijken erop vooruit gaat terwijl de toestand in de meer achtergestelde of kansarmere wijken steeds slechter wordt.  

Dit voorbeeld geeft effectief goed weer dat wij door onze keuzes voor een of ander meetsysteem vaak onbewust en onbedoeld vertekeningen veroorzaken in de samenstelling van onze steekproef: hier, enkel mensen met een (allicht) duurdere smartphone. Maar opnieuw, dit probleem is niet nieuw. Het staat uitstekend beschreven in heel wat handboeken statistiek, samen met een waslijst aan oplossingen. Er bestaan methoden om deze vertekeningen te vermijden, er mee om te gaan als ze zich toch voordoen, en er bestaan statistische methoden die op een vertekende steekproef toch toelaten om meer algemene uitspraken naar de populatie toe te doen (bijv. door het gebruik van mixed of random-effect modellen). Het kan ook eenvoudiger: beperk de uitspraken tot de groep waarop de data zijn verzameld. Een uitspraak  binnen de context van de demografie van de steekproef die eenvoudig descriptief kan beschreven worden zou al heel wat problemen vermijden. 

Tot slot, het gebruik van Big Data sluit het gezond verstand en het logisch redeneren niet uit. Een eenvoudige plot van het aantal interventies en meldingen op een kaart van het stedelijk gebied van Boston zou meteen duidelijk maken dat er in bepaalde delen geen meldingen zijn. Eenieder zou dan de logische vragen stellen: zijn daar geen problemen, of, komen deze problemen niet in het systeem terecht.  Het uitlokken of stimuleren van dit soort data-gedreven vragen is het begin van de toegevoegde waarde van elke data-gedreven project. 

Bottom-up data-gedreven of top-down model gedreven?

Een laatste groot punt van kritiek betreft het eerder data-gedreven karakter (bottom-up) dat vandaag de dag zijn intrede doet binnen het analytics gebeuren, zeker waar er grote datasets in gebruik zijn. Volgens de spreker zijn hier twee problemen: ten eerste, dit staat haaks op de empirische traditie, waar een model en daarvan afgeleidde hypothese getoetst dient te worden, en ten tweede, eerder technisch, men kan de data waarop men modellen bouwt nadien niet gebruiken om de voorspellingen te doen.  

Wat betreft het eerste punt lijkt het me toch dat de spreker hier een onderscheidt moet maken tussen theorie en realiteit. Het klopt dat modellen en hypothesetoetsing aan de basis liggen van de laatste 400 jaar van wetenschappelijke en technologische vooruitgang. Echter, in heel wat gevallen gaat de observatie de theorievorming vooraf.  Kepler is een notoir voorbeeld (maar evenzeer de grondlegger van de empirische methode Galileo). De wetten van Kepler waren niet tot stand gekomen zonder de rijkdom aan gegevens (data) die Tycho Brahe (een Deense astronoom) had verzameld. De geschiedenis van de moderne wetenschap staat bol van dit soort data-gedreven theorievorming. Zolang we maar een theorie, of beter nog, model maken en dit naderhand aan nieuwe data gaan toetsen, is er niets aan de hand. Dat er vroeg of laat een model gemaakt moet worden is trouwens onvermijdelijk. We maken in ons hoofd elke dag honderden modellen die we toetsen aan onze observaties. Het verschil tussen een wetenschappelijke benadering en wat wij elke dag doen is dat we de modellen expliciet formuleren, parametriseren en meetbaar (dus toetsbaar) maken en het falsificatieprincipe hanteren. 

Wat betreft het tweede punt, dit is opnieuw eerder technisch van aard. Het gaat hierbij om de toepassing van machine leren en de daarbij gepaard gaande technieken, zoals tree-based modelling, random forest modellen en support vector machines, om enkele populaire technieken te noemen. Maar, laat het duidelijk zijn, ook eerder eenvoudige technieken, zoals regressiemodellen hanteren vaak de data om het model te vinden en nadien om een voorspelling te doen. Alleen, dit wordt niet gedaan op dezelfde data (als het goed is). Wat men doet is een willekeurige (random) subset uit de data lichten om het model op te bouwen, en nadien de predictieve waarde te toetsen aan de overgebleven data. De onderlinge verbanden tussen de data (de covariantie, technisch) wordt hier gebruikt om de sterkte of waarde van het model te toetsen. Opnieuw, bestaan hier heel wat verschillende technieken die in de loop der tijd hun waarde en   nut maar ook hun tekortkomingen hebben bewezen, maar 'an sich' is hiermee niets verkeerd. 

Tot besluit

Het gebruik van data en analytische technieken  is niet zonder gevaar en er zijn, zoals door de spreker terecht opgemerkt, heel wat valkuilen. Maar, nergens vermeldt de spreker de veel grotere risico's die we nemen wanneer we onze beslissingen baseren op ons buikgevoel, onze intuitie. Ik volg de spreker enigzins dat data-gedreven benaderingen alleen slechts een deel van het geheel vormen. Zelf gebruiken wij bestaande modellen omtrent menselijk functioneren uit de sociale wetenschappen als toets, of als beperkende factoren om de vrijheidsgraden van de modellen in te perken. Deze aanpak combineert de best bestaande wetenschappelijke kennis met de organisatorische kennis (objectief uit gemeten data). Dit is een kenmerk van evidence-based werken.  De meeste collega's actief in dit gebied doen iets gelijkaardigs. 

Voor het eerst in pakweg 60 jaar beschikken we over een manier van werken die in staat is om mensen en hun talenten een stem te geven aan de beslissingstafel in ondernemingen en organisaties. Het zou al te gek zijn om deze overboord te gooien omdat er 'charlatans' en 'kwakzalvers' (woorden van de spreker) in dit gebied actief zijn. In dat geval kunnen we de volledige gezondheidszorg maar beter afschaffen. Trouwens, de het standaardmodel van de fysica is gebruikt om de atoombommen die Hiroshima en Nagasaki verwoestten te maken. We hebben de fysica, gelukkig, niet overboord gegooid. Al dient hierbij gezegd ook het misbruik ervan niet, helaas. 

Een laatste punt, om te eindigen, draait om het verschil tussen wetenschappelijke vooruitgang en de toepassing van die kennis in de praktijk. De spreker haalt het voorbeeld van Popper aan. Alle zwanen zijn wit tot er 1 zwarte voorbijkomt. Klopt, op dat moment, is de uitspraak wetenschappelijk onjuist. Maar een ondernemer die op basis van 1 zwarte zwaan in zijn onderneming beslissingen neemt dat alle witte niet meer in de vijver mogen, is niet zo verstandig bezig. Ik hou geen pleidooi om die zwarte zwaan te verwijderen, ik zit niet in het Brugse stadsbestuur. Integendeel, wij gebruiken data   om te begrijpen vanwaar deze komt, hoe verschillend ze wel is, en wat deze kan bijdragen tot die groep witte zwanen. Dit gaan we niet doen alleen doen met Big Data en Analytics, maar dat doen we van mens tot mens, met een goed gesprek en een waardevolle dialoog. Maar we hebben daarvoor de tijd, omdat de modellen die  's nachts stilletjes draaien, ons de tijd en ruimte hiervoor verschaffen, ze nemen namelijk heel wat arbeidsintensief zoek en denkwerk van ons over. 

Ik vind het een goede zaak dat ook de andere kant van de big data hype belicht wordt. En ik ben blij dat het vanuit een evidence-based benadering belicht wordt en het is best moedig van de spreker dit te doen. Maar laat ons een dialoog voeren omtrent data en mensen, machines en werk, het is broodnodig voor de toekomst. Laat ons deze dialoog voeren in alle openheid en intellectuele eerlijkheid,  het is zo dat vooruitgang ontstaat. Niet door met veel grote en dure woorden te schieten op een kind dat leert lopen en af en toe over de eigen voeten struikelt.  

Terug naar overzicht

Blog archief