Paradoxe de Simpson

Cet article a été publié il y a 8 ans. Son contenu est sans doute daté, tant sur la forme que sur le fond... Toutefois, cela n’empêche pas d'échanger à son propos. N'hésitez donc pas à vous exprimer en commentaires à la fin de l'article.

Le paradoxe de Simpson est un biais statistique. Il permet d’observer qu’en subdivisant un groupe doté d’un critère (auquel l’on s’intéresse) en plusieurs sous-groupes, on peut avoir des tendances communes dans chaque sous-groupe qui vont pourtant à l’opposé de la tendance globale du groupe.

Comme je me doute que là, ce n’est pas hyper clair, voici un petit exemple (que je tiens d’une collègue)… Considérons la proportion de chômage dans la population pour deux années différentes :

	1982	2009
Population diplomée	8.6%	8.9%
Population non-diplomée	13.6%	13.9%
Population totale	12.35%	11.9%

On voit que la proportion de chômage chez les diplômés augmente, tout comme chez les non-diplômés. Pourtant, la proportion globale de chômage diminue ! Comment est-ce possible ?!

Pour répondre à cela, faisons deux rapides calculs de la répartition des diplômés et non-diplômés dans la population.

Prenons en 1982 :

Appelons X la proportion de diplômés dans la population totale.

On sait donc que : 8.6 * X + 13.6 * ( 1 – X ) = 12.35
Soit : X = 0.25

En 1982, il y a donc 25% de diplômés (et donc 75% de non diplômés).

Et en 2009 ?

Appelons cette fois Y la proportion de diplômés dans la population totale.

On a : 8.9 * Y +13.9 * ( 1 – Y ) = 11.9
Soit : Y = 0.56

En 2009, 56% des gens sont diplômés (contre 44% de non-diplômés).

On prend conscience d’une information que l’on avait pas directement dans la tableau précédent (mais qui était pourtant bien présente) : la proportion de diplômés et non-diplômés a évolué dans la population totale !

Cela s’appelle donc le paradoxe de Simpson (qui n’est finalement pas tellement un paradoxe) : le fait qu’une pondération (une variable supplémentaire) soit masquée dans les sous-groupe et permette d’inverser la tendance globale par rapport à la tendance dans chaque sous-groupe. Cette variable s’appelle le facteur de confusion et permet :

De ne pas avoir une répartition homogène du groupe étudié ;
De faire varier cette répartition.

Le paradoxe de Simpson peut permettre d’exploiter et manipuler des statistiques, sans pour autant les rendre fausses !

Prudence, la prochaine fois que l’on vous parlera de groupes et de sous-groupes : recherchez s’il n’y a pas un facteur de confusion…

(Merci à Nathalie.)

Categories:Science

Tags:etrange mathematiques reflexion science

Ekho

Geek bordelais, féru de science, amoureux de technologies, mordu de SF, amateur de fantasy, épris de jeux en tous genre, adepte de réflexions diverses. Et j'aime le canard, aussi.

Ekhorizon [reloaded]

Paradoxe de Simpson

Laisser un commentaire

Han Solo contre Indiana Jones ?!

Avez-vous déjà pris un rond-point ?

Toiles gelées

Dans les racines de Magic The Gathering