Ekhorizon

Geekeries du Sud-Ouest : web, BDs, séries, ciné, anecdotes, réflexions et magret de canard
Bas de page

Paradoxe de Simpson

Date : dimanche 24 avril 2016 à 22h00
Numéro : 537/548 • Auteur : • Lien court : http://ekh.io/xs

Catégorie : Science • Tags : , , ,

Le paradoxe de Simpson est un biais statistique. Il permet d'observer qu'en subdivisant un groupe doté d'un critère (auquel l'on s’intéresse) en plusieurs sous-groupes, on peut avoir des tendances communes dans chaque sous-groupe qui vont pourtant à l'opposé de la tendance globale du groupe.

Comme je me doute que là, ce n'est pas hyper clair, voici un petit exemple (que je tiens d'une collègue)... Considérons la proportion de chômage dans la population pour deux années différentes :


1982 2009
Population diplomée 8.6% 8.9%
Population non-diplomée 13.6% 13.9%
Population totale 12.35% 11.9%

On voit que la proportion de chômage chez les diplômés augmente, tout comme chez les non-diplômés. Pourtant, la proportion globale de chômage diminue ! Comment est-ce possible ?!

Pour répondre à cela, faisons deux rapides calculs de la répartition des diplômés et non-diplômés dans la population.

Prenons en 1982 :

Appelons X la proportion de diplômés dans la population totale.

On sait donc que : 8.6 * X + 13.6 * ( 1 - X ) = 12.35
Soit : X = 0.25

En 1982, il y a donc 25% de diplômés (et donc 75% de non diplômés).

Et en 2009 ?

Appelons cette fois Y la proportion de diplômés dans la population totale.

On a : 8.9 * Y +13.9 * ( 1 - Y ) = 11.9
Soit : Y = 0.56

En 2009, 56% des gens sont diplômés (contre 44% de non-diplômés).

On prend conscience d'une information que l'on avait pas directement dans la tableau précédent (mais qui était pourtant bien présente) : la proportion de diplômés et non-diplômés a évolué dans la population totale !

Cela s'appelle donc le paradoxe de Simpson (qui n'est finalement pas tellement un paradoxe) : le fait qu'une pondération (une variable supplémentaire) soit masquée dans les sous-groupe et permette d'inverser la tendance globale par rapport à la tendance dans chaque sous-groupe. Cette variable s'appelle le facteur de confusion et permet :

  • De ne pas avoir une répartition homogène du groupe étudié ;
  • De faire varier cette répartition.

Le paradoxe de Simpson peut permettre d'exploiter et manipuler des statistiques, sans pour autant les rendre fausses !

Prudence, la prochaine fois que l'on vous parlera de groupes et de sous-groupes : recherchez s'il n'y a pas un facteur de confusion...

(Merci à Nathalie.)

Vous avez aimé cet article ? Ou pas du tout ? Laissez votre avis en un clic, en étant le premier à le noter...
Noter cet article : note 1/5note 2/5note 3/5note 4/5note 5/5
Loading...

Articles similaires

31 commentaire(s)
3 commentaire(s)
20 commentaire(s)
13 commentaire(s)

Laisser un Commentaire

XHTML et ShortCode : Vous pouvez utiliser <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> [card]

Suivez les commentaires par le flux RSS dédié à cet article.