Localisation

Adresses

Aix-Marseille Université
Institut de Mathématiques de Marseille (I2M) - UMR 7373
Site Saint-Charles : 3 place Victor Hugo, Case 19, 13331 Marseille Cedex 3
Site Luminy : Campus de Luminy - Case 907 - 13288 Marseille Cedex 9

Soutenance de thèse

Méthodes ensemblistes pour des problèmes de classification multi-vues et multi-classes avec déséquilibres

Sokol Koço
LIF, Aix-Marseille Université

Date(s) : 16/12/2013   iCal
14h00 - 16h00

Lieu: FRIIAM et FRUMAM, 2ème étage du bâtiment de chimie (bâtiment 7/c1 sur le plan http://sciences.univ-amu.fr/sites/sciences.univ-amu.fr/files/plan_du_site_st_charles_02-12.pdf)
By Sokol Koço, LIF, Marseille.
Résumé de la thèse : De nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d’attributs, appelés des vues. Bien que représentant les mêmes objets, chaque vue est plus ou moins adaptée à une tâche d’apprentissage donnée. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche ; en classification multi-classes, chaque vue peut s’avérer forte pour reconnaître une classe, et faible pour reconnaître d’autres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de l’apprentissage supervisé et ont pour but de traiter les questions d’apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées.
La première contribution de cette thèse est un algorithme d’apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. Le but de cet algorithme est d’améliorer les performances des classifieurs appris sur les vues fortes en utilisant des informations contenues dans les vues faibles et en établissant ainsi une coopération entre les vues.
La seconde partie de cette thèse concerne la mise en place d’un cadre général pour les méthodes d’apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Ce cadre consiste à utiliser la norme de la matrice de confusion comme mesure d’erreur pour un classifieur donné. Dans ce cadre, nous proposons une extension de AdaBoost.MM permettant de prendre en compte des classes déséquilibrées.
Dans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Dans ce cas, la coopération passe de l’espace d’entrée à celui de sortie, ce qui permet de trouver la meilleure vue pour chaque classe. Plusieurs méthodes basées sur cette idée sont proposées, parmi lesquelles une méthode de boosting proche de la première méthode.
Afin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d’appels téléphoniques, qui a fait l’objet du projet ANR DECODA.Ainsi chaque partie traite différentes facettes du problème. La première partie présente le problème en tant que problème multi-vues (sacs de mots et de concepts, prosodie, mesures de l’interaction entre les locuteurs, etc.): est-ce que la séparation des vues, traitées par coopération, améliore les performances d’une fusion précoce de toutes ces vues? Dans la seconde partie, nous considérons le problème des classes déséquilibrées (par exemple, il y a beaucoup plus d’appels concernant les itinéraires que les procès verbaux). La troisième partie regroupe les aspects multi-vues et les déséquilibres entre classes.

Rapporteurs :
Marc Sebban, Université Jean Monnet de Saint-Etienne
François Yvon, Université Paris Sud

Examinateurs :
Géraldine Damnati, Orange Labs
Liva Ralaivola, Aix*Marseille Université
Nicolas Usunier, Université Technologique de Compiègne

Directeurs :
Frédéric Béchet, Aix*Marseille Université
Cécile Capponi, Aix*Marseille Université

Catégories


Secured By miniOrange