Emilie MORVAN – Apprentissage de vote de majorité pour la classification supervisée et l’adaptation de domaine : approches PAC-Bayésienne et combinaison de similarités




Date(s) : 18/09/2013
14 h 00 min - 16 h 00 min

Apprentissage de vote de majorité pour la classification supervisée et l’adaptation de domaine : approches PAC-Bayésienne et combinaison de similarités par Emilie Morvant, LIF. ALEA-SI

Le jury sera composé de :

Rapporteurs :

Michèle Sebag, Directrice de recherche CNRS, Université d’Orsay

Mario Marchand, Professeur, Université Laval de Québec

Examinateurs :

Antoine Cornuéjols, Professeur, AgroParisTech

Rémi Gilleron, Professeur, Université de Lille

Liva Ralaivola, Professeur, Aix*Marseille Université

Directeurs

Amaury Habrard, Professeur, Université de Saint-Etienne

Stéphane Ayache, Maître de Conférences, Aix-Marseille Université

Résumé:

De nos jours, avec l’expansion d’Internet, l’abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l’utilisation de méthodes d’apprentissage automatique supervisé capables de prendre en considération différentes sources d’informations. Par exemple, pour des applications relevant de l’indexation sémantique de documents multimédia, il s’agit de pouvoir efficacement tirer bénéfice d’informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D’une part, il faut être capable d’utiliser au mieux toute l’information a priori disponible sur les objets à combiner. D’autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d’apprentissage. Dans ce contexte, il faut être à même d’adapter le modèle à de nouvelles données, ce qui relève de l’adaptation de domaine. Dans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques. Une première série de contributions s’intéresse à l’apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s’inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d’étudier les capacités en généralisation de tels votes de majorité en supposant un {\\it a priori} sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq\, minimisant une borne sur l’erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance {\\it a priori} sur les performances des votants à combiner sous la forme d’une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l’indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque. Notre seconde série de contributions concerne la problématique de l’adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d’inférer un espace de représentation de manière à rapprocher les distributions des données d’apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon\,gamma\,tau)-bonnes et se justifie par la minimisation d’une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l’adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l’apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.

Catégories



Retour en haut 

Secured By miniOrange