Apprentissage supervisé

Apprentissage supervisé


L’apprentissage supervisé

Dans le cadre de l’apprentissage supervisé, on cherche à savoir quelles sont les variables significativement corrélées à la cible, en l’occurrence la concentration moyenne en fibres d’amiante [OMS+FFA], discrétisée selon le protocole. Le schéma ci-dessus présente la couverture de Markov, ensemble minimal de variables caractérisant complètement la variable cible. L’apprentissage de la couverture de Markov permet de trouver quelles sont les variables qui sont certes le plus corrélées à la cible mais qui sont également décorrélées entre elles, c’est-à-dire qu’elles ne sont pas porteuses de la même information statistique. Dans ce contexte, les trois seules variables explicatives de la cible sont le facteur de protection et la présence des matériaux « plâtres amiantés » (matériau G) ou « enduits et peintures amiantés  » (matériau F).


Les probabilités marginales a priori et a posteriori selon les différentes modalités de la variable amiante [OMS+FFA] sont reportées dans le tableau suivant.



Afin de compléter l’analyse sur la fiabilité des corrélations, une validation croisée par la méthode leave one out a été réalisée. Il apparait que les relations cible-facteur de protection et cible-plâtres amiantés sont fiables (fréquence d’apparition de la relation 100%) et la relation cible-enduits et peintures amiantés est plutôt fiable (fréquence d’apparition de la relation 86%). Une autre relation pourrait par ailleurs être considérée avec les plus grandes précautions : cible-isolement (fréquence d’apparition de la relation 11%).