Elke statistische techniek is gebaseerd op aannames. Als ze worden geschonden, dan heeft dat consequenties voor de conclusies die je mag trekken. Schendingen van aannames hoeven niet automatisch te resulteren in actie. Soms is het voldoende om te benoemen dat de validiteit van de resultaten mogelijk minder goed is en dat je daar rekening mee houdt. Een kwalificatie op de conclusie. Vaak vergeten als alternatief voor transformeren!
Bij multiple regressie zijn de drie belangrijkste aannames als volgt: de residuen moeten normaal verdeeld zijn (normaliteit), de varianties niet heterogeen (homoscedasticiteit) en er mag geen sprake zijn van multicollineariteit. De normaliteit beoordeel je met de bovenstaande histogram, de homoscedasticiteit met een p-plot en de multicollineariteit met de statistiek VIF. Ga altijd pas over op transformeren als er schendingen zijn.
schendingen aannames
Een veelvoorkomend misverstand is dat de afhankelijke variabele normaal verdeeld zou moeten zijn. Dat is niet zo. De fouten die het regressiemodel maakt (de residuen) moeten normaal verdeeld zijn. Als uit de histogram met de residuen geen normaliteit valt af te leiden, dan is het een goede optie om te transformeren. Door de log te nemen van de afhankelijke variabele, kan de normaliteit alsnog worden gesimuleerd.
Vaak gaat het ontbreken van normaliteit hand in hand met heteroscedasticiteit. Als de punten niet op de lijn van de p-plot liggen, dan is geen sprake van homogeniteit. Dit is problematischer dan het ontbreken van normaliteit, omdat de p-waardes in het model dan waarschijnlijk niet valide zijn. Dit betekent dat het generaliseren op losse schroeven wordt gezet. De technische oplossing kan wederom zijn om te transformeren.
multicollineariteit
Het kan ook voorkomen dat onafhankelijke variabelen te sterk met elkaar samenhangen. Hiervan is sprake als de statistiek VIF boven de 4 uitkomt. Een oplossing hiervoor is om een of meer sterk met elkaar samenhangende predictors uit het model te laten. Door het model te optimaliseren, zie je vaak dat ook eerdere problemen met normaliteit en homogeniteit verdwijnen. Weeg altijd af of variabelen echt nodig zijn in het model.
wat als transformeren niet helpt?
Transformeren werkt niet altijd bevorderend. Daarnaast bemoeilijkt het de interpretatie van de resultaten. Andere opties zijn om met bootstrapping te werken of om een ander type regressie te gebruiken zoals logistische regressie. Of je kunt alsnog besluiten dat je technisch niets doet en het inhoudelijk meeneemt als kwalificatie op de conclusie. Beter een sterk verhaal dan een analyse die in het ongewisse blijft hangen!