Paradoxe de Simpson
Le paradoxe de Simpson est un biais statistique. Il permet d’observer qu’en subdivisant un groupe doté d’un critère (auquel l’on s’intéresse) en plusieurs sous-groupes, on peut avoir des tendances communes dans chaque sous-groupe qui vont pourtant à l’opposé de la tendance globale du groupe.
Comme je me doute que là, ce n’est pas hyper clair, voici un petit exemple (que je tiens d’une collègue)… Considérons la proportion de chômage dans la population pour deux années différentes :
1982 | 2009 | |
---|---|---|
Population diplomée | 8.6% | 8.9% |
Population non-diplomée | 13.6% | 13.9% |
Population totale | 12.35% | 11.9% |
On voit que la proportion de chômage chez les diplômés augmente, tout comme chez les non-diplômés. Pourtant, la proportion globale de chômage diminue ! Comment est-ce possible ?!
Pour répondre à cela, faisons deux rapides calculs de la répartition des diplômés et non-diplômés dans la population.
Prenons en 1982 :
Appelons X la proportion de diplômés dans la population totale.
On sait donc que : 8.6 * X + 13.6 * ( 1 – X ) = 12.35
Soit : X = 0.25En 1982, il y a donc 25% de diplômés (et donc 75% de non diplômés).
Et en 2009 ?
Appelons cette fois Y la proportion de diplômés dans la population totale.
On a : 8.9 * Y +13.9 * ( 1 – Y ) = 11.9
Soit : Y = 0.56En 2009, 56% des gens sont diplômés (contre 44% de non-diplômés).
On prend conscience d’une information que l’on avait pas directement dans la tableau précédent (mais qui était pourtant bien présente) : la proportion de diplômés et non-diplômés a évolué dans la population totale !
Cela s’appelle donc le paradoxe de Simpson (qui n’est finalement pas tellement un paradoxe) : le fait qu’une pondération (une variable supplémentaire) soit masquée dans les sous-groupe et permette d’inverser la tendance globale par rapport à la tendance dans chaque sous-groupe. Cette variable s’appelle le facteur de confusion et permet :
- De ne pas avoir une répartition homogène du groupe étudié ;
- De faire varier cette répartition.
Le paradoxe de Simpson peut permettre d’exploiter et manipuler des statistiques, sans pour autant les rendre fausses !
Prudence, la prochaine fois que l’on vous parlera de groupes et de sous-groupes : recherchez s’il n’y a pas un facteur de confusion…
(Merci à Nathalie.)