Paradoxe de Simpson

Last modified date

Aucun commentaire

2 minutes de lecture

Cet article a été publié il y a 6 ans. Son contenu est sans doute daté, tant sur la forme que sur le fond... Toutefois, cela n’empêche pas d'échanger à son propos. N'hésitez donc pas à vous exprimer en commentaires à la fin de l'article.

Le paradoxe de Simpson est un biais statistique. Il permet d’observer qu’en subdivisant un groupe doté d’un critère (auquel l’on s’intéresse) en plusieurs sous-groupes, on peut avoir des tendances communes dans chaque sous-groupe qui vont pourtant à l’opposé de la tendance globale du groupe.

Comme je me doute que là, ce n’est pas hyper clair, voici un petit exemple (que je tiens d’une collègue)… Considérons la proportion de chômage dans la population pour deux années différentes :

1982 2009
Population diplomée 8.6% 8.9%
Population non-diplomée 13.6% 13.9%
Population totale 12.35% 11.9%

On voit que la proportion de chômage chez les diplômés augmente, tout comme chez les non-diplômés. Pourtant, la proportion globale de chômage diminue ! Comment est-ce possible ?!

Pour répondre à cela, faisons deux rapides calculs de la répartition des diplômés et non-diplômés dans la population.

Prenons en 1982 :

Appelons X la proportion de diplômés dans la population totale.

On sait donc que : 8.6 * X + 13.6 * ( 1 – X ) = 12.35
Soit : X = 0.25

En 1982, il y a donc 25% de diplômés (et donc 75% de non diplômés).

Et en 2009 ?

Appelons cette fois Y la proportion de diplômés dans la population totale.

On a : 8.9 * Y +13.9 * ( 1 – Y ) = 11.9
Soit : Y = 0.56

En 2009, 56% des gens sont diplômés (contre 44% de non-diplômés).

On prend conscience d’une information que l’on avait pas directement dans la tableau précédent (mais qui était pourtant bien présente) : la proportion de diplômés et non-diplômés a évolué dans la population totale !

Cela s’appelle donc le paradoxe de Simpson (qui n’est finalement pas tellement un paradoxe) : le fait qu’une pondération (une variable supplémentaire) soit masquée dans les sous-groupe et permette d’inverser la tendance globale par rapport à la tendance dans chaque sous-groupe. Cette variable s’appelle le facteur de confusion et permet :

  • De ne pas avoir une répartition homogène du groupe étudié ;
  • De faire varier cette répartition.

Le paradoxe de Simpson peut permettre d’exploiter et manipuler des statistiques, sans pour autant les rendre fausses !

Prudence, la prochaine fois que l’on vous parlera de groupes et de sous-groupes : recherchez s’il n’y a pas un facteur de confusion…

(Merci à Nathalie.)

Geek bordelais, féru de science, amoureux de technologies, mordu de SF, amateur de fantasy, épris de jeux en tous genre, adepte de réflexions diverses. Et j'aime le canard, aussi.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

The maximum upload file size: 10 Mo. You can upload: image, document, spreadsheet, text, archive. Drop files here

Post comment