Classification non supervisée basée sur les arbres de décision et importance des variables

Date(s) : 22/05/2017 iCal
14 h 00 min - 15 h 00 min

CUBT (« clustering using unsupervised binary trees ») est une méthode descendante qui comprend trois étapes pour obtenir une partition optimale d’un jeu de données. Cette méthode a les mêmes avantages que CART, elle peut produire des partitions optimales pour une grande variété de données et possède de bonnes propriétés de convergence. Elle est aussi interprétable grâce à la lecture des divisions binaires obtenues dans l’arbre.
Une des limitations techniques de la version initiale de CUBT est le fait que le critère d’hétérogénéité et la mesure de dissimilarité utilisés sont spécifiques aux données quantitatives continues. Nous proposons donc des extensions de CUBT pour l’adapter au cas de données ordinales (de type item) et nominales. Nous suggérons de nouveaux critères, basés sur l’information mutuelle et l’entropie de Shannon. Différents modèles de simulation de données sont présentés pour expérimenter cette nouvelle version de CUBT et la comparer à d’autres approches non supervisées. Nous définissons aussi quelques heuristiques concernant le choix des paramètres de CUBT.

Nous nous intéressons ensuite au problème de sélection de variables en classification non supervisée. Un arbre de classification permet d’identifier les variables qui prennent part activement à la construction de l’arbre. Cependant, bien que certaines variables soient non pertinentes pour la construction de l’arbre, elles peuvent être compétitives dans les différentes divisions binaires de l’arbre. Dans de nombreuses applications d’analyse de données, il est essentiel de classer les variables selon un score d’importance afin de déterminer leur pertinence dans un modèle donné. La sélection de variables permet ainsi de réduire la complexité des modèles que l’on utilise, afin d’obtenir un gain de précision et d’interprétabilité du modèle.
Nous présentons donc une méthode pour mesurer l’importance des variables dans le cadre de la classification non-supervisée. Cette méthode, inspirée de CART, utilise CUBT et la notion de divisions binaires compétitives pour définir un score d’importance des variables. Nous analysons l’efficacité et la stabilité de ce nouvel indice, en le comparant à d’autres méthodes classiques de scores d’importance de variables. Nous considérons des modèles de simulation de données pour comparer notre approche, en ajoutant des variables non pertinentes dans les jeux de données obtenus. Cette méthode montre des résultats satisfaisants en termes d’efficacité et de stabilité. Ce nouveau critère peut être utilisé pour obtenir une hiérarchie des variables d’un jeu de données, et développer un algorithme performant de sélection de variables.

http://www.researchgate.net/profile/Pierre_Michel2

Catégories Pas de Catégories