Espace étudiants

B. GHATTAS

Cette page donne accès aux étudiants au matériel utilisé pendant mes cours.
Pour consulter la page des données cliquez ICI.

Data Mining
Ce cours spécifique à la licence professionnelle a bour but de décrire les différentes démarches d'un processus de traitement de données allant de l'import, le nettoyage, la sélection, le rééchantillonnage, la modélisation, la prévision et l'évaluation de performances.
Pour chaque étape de ce processus type des approches classiques sont introduites et illustrées sur des données réelles.
Les principaux chapitres sont:
- La démarche générale en Data mining
- Rééchantillonnage (Bootstrap, Jacknife), stratification
- Les principes de 'apprentissage supervisé
- Evaluation des performances de modèles, validation croisée
- Arbres de décision
- Aggrégation de modèles

L'apprentissage Statistique
Ce cours a pour objectif de présenter les principes de base de la théorie de l'apprentissage statistique. Il s'agira essentiellement de l'apprentissage supervisé et non supervisé dans le cas de variables réponses continue ou discrète. Les techniques modernes feront l'objet des différents chapitres mais je présentrai de préférence les principes des méthodes en rentrant dans des détails pour des cas simples.
Ainsi les chapitres prévus sont les suivants:
- Le principe de minimisation du risque empirique
- L'apprentissage supervisé et non supervisé
- L'éstimation du risque
- Les méthodes de segmentation par arbres (CART, CHAID et leurs variantes)
- Les méthodes d'aggrégation de modèles en régression en en classification (Bagging, Boosting, Random Forest)
- Les SVM
- Les réseaux bayésiens
- Sélection de variables (Garrote, Lasso, Lars)
- Problèmes d'extensions: cas multiclasses, cas multivariés, cas fonctionnels.

Les Dispos utilisées pour le cours:  IntroductionMéthodes de segmentationAggrégation de prédicteursSéparation linéaire.

Biostatistique et Apprentissage
Ce cours est composé de deux parties qui peuvent être considérées  indépendantes mais qui abordent partiellement des problématiques similaires.
- Biostatistiques : Modèles linéaires généralisés, modèles mixtes.
- Apprentissage : Apprentissage supervisé, quelques modèles utilisés pour les biopuces, méthodes à noyaux, noyaux spécifiques pour les séquences.


Flux de Données
Ce cours aborde quelques problèmes d'apprentissage dans les réseaux télécoms ou les réseaux de données. Dans ce contexte des problèmes de prévision en régression tel que la prévision de débit,  ou de discrimination tel que l'identication de catégories de flux font appels à des traitements spécificques des données ou à des versions spécifiques d'algorithmes d'apprentissage.
La partie technique de ce cours est la même que celle du cours d'apprentissage général. Les illustrations sont basées sur des données réelles issues des réseaux locaux ou forunis par l'ENST. Les TP seront réalisés sous R.
Pour consulter la page des données cliquez ICI.

Complements on Unsupervised Learning
In this course we consider unsupervised learning where we aim in general to find subgroups of observations among a sample. We will consider some examples of different approaches such as the non-hierarchical k-means ; the classical hierarchical approaches, and tree based approaches. Most of the methods are based on dissimilarity measures, which may be specific to the nature of the data. We will consider some methods for large samples, such as PAM and Clara. Slides used for the course.
Course chapters:  Unsupervised learning,  Non-parametric clustering, K-means,  Hierarchical clustering,   Tree based clustering,   Association rules algorithms,  Bayesian networks


Feature Selection
We consider different approaches for variables and model selection seen as a subset of variables optimization. We begin with the most classical methods such as backward, forward and floating. We focus on methods based on ranking variables, where the importance of each variable depends on the model used. Two cases will be considered, CART and Random Forests variables importance. We also show how support vector machines offer different scoring methods for each variable used in the model. Some approaches for variables selection based on variables ranking will be resented. Slides used for the course
Course chapters:   : Introduction to feature Selection methods,  Forward, Backward, and floating selection,  Variables Importance in CART and Random forests,  SVM based scores for variables’ ranking,  Model selection based on varaibles’ importance

Analyse multidimensionnelle de données (AMD)

Méthodes factorielles.  Analyse en Composantes Principales
Analyse factorielle des correspondances
Analyse Discriminante
Classifications automatiques hiérarchiques.
Méthodes non paramétriques, nuées dynamiques, K-means.
Applications à l'analyse des données d'expression.

Modélisation de séquences (ModSeq).
Chaîne de Markov, modèle de Markov caché.
Marches aléatoires.
Algorithmes d'estimation : Forward et Backward, Viterbi.
Simulations : échantillonneur de Gibbs, Expectation Maximisation, Metropolis Hasting

---------------------------------------------------------------------------------------------------------

Descriptif des anciens cours jusqu'en 2014-2015....

Cours de premier semestre Probabilités et Statistiques
Objectif : Acquisition des notions de bases en probabilités et statistiques.



Expérience aléatoire et variable aléatoire, événements, probabilité.
Lois de probabilités. Les lois discrètes et continues les plus utilisées.
Loi jointe, loi conditionnelle, loi marginale et indépendance.
Règle de Bayes, l'approche Bayésienne et l'approche classique.
Estimation, Maximum de Vraisemblance, qualité d'un estimateur, le bootstrap.
Tests d'hypothèses. Comparaison de moyennes comparaison de fréquences.
Modèle linéaire et modèle linéaire généralisé.

Fiches de TD


Cours du deuxième semestre : (Ex Mathématiques appliquées à la Biologie)
objectif : Prise en main des principales méthodes mathématique pour la modélisation et l'analyse des données biologiques Processus de Poisson



Chaîne de Markov, modèle de Markov caché.
Marches aléatoires.
Algorithmes d'estimation : Forward et Backward, Viterbi.
Simulations : échantillonneur de Gibbs, Expectation Maximisation, Metropolis Hastings.


Méthodes factorielles.  Analyse en Composantes Principales
Analyse factorielle des correspondances
Analyse Discriminante
Classifications automatiques hiérarchiques.
Méthodes non paramétriques, nuées dynamiques, K-means.
Applications à l'analyse des données d'expression avec logiciels/langages spécialisés.