jeudi 30 juillet 2009
Cum hoc ergo propter hoc
Corrélation, causalité : le mélange est souvent facile pour peu qu'on n'ait pas les bases en Logique. Le meilleur moyen d'en voir ou d'en écouter et de regarder soliloquer un journaliste généraliste parler d'un sujet qu'il ne maitrise pas. On a alors droit à des contre vérités, des erreurs d'ordre de grandeur et ... des effets gigognes.
La corrélation exprime le fait que des données sont liées.
La causalité exprime le fait que de deux événements, l'un est la cause de l'autre. Raffinement : l'un ne peut être que la cause partielle de l'autre.
Si vous prenez par exemple le pourcentage de gamins qui ont essayé des produits faisant partie de la famille des Cannabaceae[1], dont le principe actif est le tétrahydrocannabinol, on ne le rappelle jamais assez ET le taux de mortalité en France des personnes de 50 ans, vous vous rendez compte que les données sont corrélées : le premier augmente linéairement, le second descend linéairement. Y a-t-il un lien de cause à effet pour autant ? Dans ce cas ci, le bon sens vous ferait dire non. Le scientifique lui, procède autrement : il exprime une théorie : soit A l'augmentation en pourcentage des fumeurs de cannabis de 18 ans et B la diminution du taux de mortalité des personnes de 50 ans. Puis il se pose la question (qui est sa théorie, ici en 3 sous théories) : A est il la cause de B ? Ou B est il la cause de A ? Ou l'un et l'autre sont-ils équivalent ?
Il y a alors deux façons de traiter la théorie : soit on émet des hypothèses qui serviront à réfuter le théorie, soit on la démontre.
Pour réfuter la théorie, il faut ici traiter 3 cas. (les cas ci dessus énoncés : A => B ?, B => A ?, A <=> B ?)
Prenons le premier cas : A => B. Pour réfuter la causalité, il suffit de modifier la cause pour montrer qu'il y a ou pas influence (dans un cadre monofacteur... si on ajoute des modus barbara, on n'est pas sorti). il suffit donc de faire fumer les jeunes, soit plus du tout, soit beaucoup plus pour montrer que cela n'influence pas le taux de mortalité des personnes de 50 ans, lui resté fixe.
Pour le deuxième cas, B => A, là encore, il suffit de trouver une forme de contre exemple. Tuons toutes les personnes de 50 ans, et voyons si les jeunes fument plus ou moins !
Pour le troisième cas, qui est est une équivalence, il suffit de montrer qu'une des deux implications est fausse pour que l'équivalence soit fausse. Pour montrer que l'équivalence est vraie, vous devez montrer que les deux implications sont vraies.
Comme on le voit, il y a ici des difficulté protocolaires (tuer des gens, faire fumer beaucoup plus de cannabis, ...). Mais il faut bien comprendre que pour démontrer une vérité, il est nécessaire de montrer que tous les cas sont vrais, alors que pour infirmer une vérité, il suffit de montrer qu'un cas est faux. Et cela peut être fait de beaucoup de façon différentes.
Je travaille actuellement sur ce genre de problématique : montrer qu'il existe ou non des liens de causalité sur des données corrélées. C'est un bonheur parce que c'est difficile. La difficulté vient entre autre du fait que les données sont à la fois statistiques mais surtout qualitatives.
En gros, j'ai une situation A que je caractérise par un état B. De cet état B, je réalise un traitement T(B; x,y) avec plusieurs critères (il y a principalement deux de libres, dont la cardinalité totale du produit en croix vaut 40). J'arrive dans un état C.
Premier problème : chaque traitement T se compose de deux phases dont le total prend 1 à 2 minutes.
Deuxième problème : il faut comparer des données strictement qualitatives avec tout de même un tout petit peu de statistique. Si le bon sens et le coté statistique me permettent d'écarter tout un tas de résultats foireux, je peux aisément me retrouver avec le problème d'avoir à comparer cinq ou dix pages concernant A, passées par C1 = T(B;x1,y1), C2 = T(B;x2,y2), C3 = ... Et quand c'est du pur qualitatif, ce n'est pas simple, ne serait ce que de déterminer des tendances.
Troisième problème : c'est tout bête, c'est le temps : Comparer deux pages de résultats qualitatifs, c'est difficile et long. Et si comparer deux pages peut se faire en un certain temps, faire le même travail quand on sort de 4 h du même intense travail, c'est plus long.
Quatrième problème : Et quand on trouve des hypothèses (pour moi, le réglage de x et y), encore faut il démontrer qu'elles sont justes ! C'est à dire vérifier que certaines corrélations sont aussi des causalités. Ça veut dire contre hypothèse etc... Et quand parfois une sous causalité induite s'en mêle, ben, c'est le bordel : les résultats peuvent sembler incohérents !
Cinquième problème : il faut que les réglages soit exhaustifs (au maximum) et stables pour A. Car ce qui m'intéresse aussi, c'est que le réglage trouvé pour le jour j le soit aussi pour le jour j+1 ! Et sur un ensemble de définition suffisamment étendu pour qu'elles soient stables : mes situations A du jour j et du jour j+1 sont par nature indépendantes. Pour revenir à nos fumeurs et nos personnes de 50 ans, imaginez qu'il y ait une causalité, mais seulement sur des bornes bien définies de consommation (intra) ou pire, sur des données externes au problème (par exemple, la territorialité des essais !)
Sixième problème : il faut trouver un résultat ! Quitte à ce que ce soit un résultat négatif. Et ce peut être pour beaucoup de motifs : c'est le traitement en lui même qui n'est pas bon, ce peut être le nombre de paramètres qui est insuffisant, ... car tout cela a un but : je ne fait pas C = T(Etat(A ; x,y) pour rien. Et c'est difficile en soi : si je dis tel réglage est bon
, alors, il suffit de vérifier que pour ce réglage, c'est toujours bon (ie ne pas permettre de trouver un contre exemple). Alors que si je dis Aucun réglage n'est bon
, il faut alors montrer que pour tous les réglages, les résultats ne sont pas bons.
Septième problème : mon voisin refait sa toiture. Entre cloutage d'ipn en bois, découpes de carreau et autres gouttières à la machine à disque, martelage de clous, mes oreilles, malgré une position au deuxième étage et des double vitrages, en ont soupé comme on dit. [edit : j'ai oublié de préciser que ce qui est aussi gênant, ce sont les bruits de la perceuse, leurs engueulades en roumains et probablement, vues les conditions de sécurité dans lesquelles ils travaillent, la sirène des pompiers qui ne va pas tarder...]
Bref, c'est aussi difficile que c'est le bonheur. Et prise de tête. Moi qui ai l'habitude de dire que pour un problème pour lequel j'ai déjà une vague idée de la façon d'obtenir une solution, ça ne m'intéresse que peu, me voila servi. Et c'est du trois étoiles.
Note pour moi même : trouver qui dirige le Consortium Unicode. Lui péter la gueule.
[1] : si je dois avouer avoir fumé une dizaine de pétards dans ma vie (et encore, je n'ai pas fumé autre chose que des cigarettes de Cow Boys depuis plus de 15 ans), je dois avouer que le Kafiristanica me laisse un bon souvenir... Vu le ton de la phrase précédente, je dois aussi vous signaler ceci : Depuis la loi de 2007 sur la récidive ou loi Dati, des peines plancher sont applicables aux récidivistes. En pratique, l'achat de 2 grammes de cannabis pour sa consommation personnelle, par une personne considérée par la loi comme récidiviste conduit ainsi à une peine plancher de quatre ans ferme. Le reste est sur legifrance.gouv.fr, code pénal...
Ce billet, écrit à 12:50:08 par Vicnent dans la catégorie Mathématiques a suscité :
un commentaire :: pas de trackback :: Déjà 414 lectures
