Institut de Mathématiques de Marseille, UMR 7373




Rechercher


Accueil > Équipes de recherche > Statistiques (STA) > Thèmes de l’équipe

Thèmes de Recherche de l’équipe Statistiques (STA)

par Lozingot Eric - publié le , mis à jour le

Plusieurs thèmes de recherche sont développés au sein de l’équipe. Certains thèmes regroupent une majorité des membres. D’autres sont étudiés plus marginalement, mais sont voués à se développer. Des liens existent entre tous les thèmes. Comme l’utili- sation de la statistique bayésienne dans l’apprentissage, la construction de tests non paramétriques pour des processus dépendants ou pour des modèles actuariels.

Thème 1 : Statistique mathématique, problèmes inverses
Cette thématique a été historiquement développée par l’équipe de statistique de Château- Gombert. Plusieurs axes de recherche sont abordés.
→ L’agrégation des méthodes linéaires à l’aide de la pondération exponentielle. Bien que la pondération exponentielle soit l’une des plus efficaces des méthodes d’agrégation convexe, son analyse rigoureuse est un problème mathématique généralement difficile. Une nouvelle approche de l’analyse de la pondération exponentielle est développée, basée sur des inégalités d’entropie pour les processus ordonnés. Cette méthode permettrait de contrôler la concentration du risque de la pondération exponentielle dans le voisinage du risque d’oracle ([8] et [19]).
→ La sélection automatique des paramètres de régularisation dans les problèmes inverses linéaires. Le problème de sélection automatique des paramètres de régularisation dans les problèmes inverses est l’un des problèmes fondamentaux dans les méthodes numériques. Malgré une longue histoire de ce problème il n’y a pas actuellement de solutions simples et efficaces. Pour construire de bonnes méthodes de sélection automatique, une approche basée sur une interprétation probabiliste du problème inverse a été proposée et étudiée. Plus précisément, il a été démontré que la méthode basée sur la minimisation du risque prédictif non-biaisé sera proche de la méthode optimale pour le problème inverse ([19]).
Dans [28], on obtient des résultats théoriques sur un modèle généralisant l’estimation non paramétrique de densité multivariée et la déconvolution de densité multivariée.
On établit des bornes inférieures du risque minimax sous des conditions très faible (dimension quelconque de la fonction, espace de régularité large, famille de pertes Lp quelconque). Dans un autre travail (en cours de finalisation), on développe une méthode d’estimation qui vérifie une inégalité de type oracle et atteint les vitesses minimax.
Membres impliqués : F. Autin, Y. Golubev, T. Le Gouic, O. Lepski, C. Pouet, T. Willer

Thème 2 : Estimation et tests non paramétriques
Cet axe de recherche peut se rattacher à la statistique mathématique, mais ses dévelop- pements sont assez nombreux pour le faire apparaître séparément.
→ Procédure d’estimation universelle. Création d’une procédure d’estimation univer- selle s’adaptant simultanément au grand spectre de paramètres nuisibles indépende- ment de leur nature (incluant l’adaptation structurelle). Sur ce sujet des collaborations avec plusieurs chercheurs de differents pays se sont achevées avec succès avec la ré- solution de nombreux problèmes qui restaient ouverts depuis longtemps ([18], [27], [20], [26], [16]). En particulier, dans l’article [24] on trouve des résultats définitifs sur l’existence d’estimateurs adaptatif par rapport à l’echelle de classes de Nikolskii aniso- tropes. De plus, 8 problèmes ouverts liés à l’estimation adaptative sont formulés. Ces travaux ont mis en évidence la nécessité de développer de nouveaux outils probabilistes liés aux majorantes uniformes (upper functions) pour les fonctionnelles aléatoires po- sitives, voir [25],[22], [23], [21], [17].
→ Approche maxiset. L’étude des performances maxiset des estimateurs par méthodes d’ondelettes a mis en lumière de nouveaux espaces fonctionnels, en particulier des es- paces regroupant des fonctions ayant des coefficients d’ondelettes structurés. Les vi- tesses minimax et minimax adaptatives de ces nouveaux espaces sont étudiées.
Un travail en collaboration avec C. Chesneau, [9], concerne les performances d’un estimateur de la fonction de répartition dans un modèle de données dépendantes et censurées. La méthode utilise des ondelettes déformées, et est étudiée du point de vue théorique (risque minimax) et pratique (comportement de l’estimateur sur des données simulées et sur des données réelles).
Dans les problèmes d’estimation en grande dimension où il est question d’estimer un paramètre d-dimensionnel à partir de n observations (avec d >> n) de nouvelles méthodes se sont récemment révélées performantes comme par exemple les méthodes de type LASSO ou de type DANTZIG SELECTOR. Ces méthodes reposent toutes sur la résolution d’un problème d’optimisation l1 sous contrainte. Il est question d’utiliser le point de vue maxiset pour comprendre si l’une ou l’autre des deux méthodes peut être considérée comme la meilleure.
→ Tests non paramétriques. Le modèle de mélange à poids variable est intéressant pour traiter de nombreux problèmes. Le cas paramétrique a été traité dans l’article [3]. Le cas non-paramétrique a été traité dans plusieurs articles afin d’étudier différents aspects : vitesse minimax de test, perte pour l’adaptation : [1], [2] and [4]. Ce mo- dèle doit être étudié comme une alternative aux méthodes d’imputation pour traiter les problèmes de données manquantes (par exemple imputation simple, imputation mul- tiple). Une autre piste est de supposer que les poids variables qui sont donnés ne sont pas exacts mais entachés d’erreur (par exemple, les poids variables sont fournis par un expert humain ou un système expert qui disposent de données d’apprentissage). La théorie des matrices aléatoires fournira probablement des outils pour étudier ce pro- blème. En effet, le comportement de la plus petite valeur propre d’une certaine matrice du problème est crucial quant à la qualité des résultats obtenus.
Membres impliqués : F. Autin, C. Pouet, T. Le Gouic, O. Lepski

Thème 3 : Processus et dépendance - Extrêmes - Statistique actuarielle
→ Processus à mémoire longue. Une série de papiers portent sur la comparaison de processus dans différents cadres de dépendances. On peut noter [13] pour le cas apparié et [12] pour les cas de dépendance faible. Aujourd’hui nous nous intéressons à la construction de test de comparaison de processus à dépendance forte, de champs gaus- siens, et à des processus de loi stables.
→ Séries temporelles. Dans le cadre de la rédaction du livre ""Méthodes en séries tem- porelles et applications avec R" (Boutahar et Royer-Carenzi), de nouvelles méthodes ont été développées pour l’analyse des séries temporelles, et notamment l’identifica- tion de ses composantes. Ainsi, le test classique de racine unitaire de Dickey-Fuller augmenté permet de distinguer une tendance déterministe linéaire d’une tendance sto- chastique d’ordre 1, mais il échoue à détecter une tendance déterministe si elle est de degré supérieur ou égal à deux. Nous proposons une stratégie pour y remédier.
→ Satistique des extrêmes multivariés. Dans le cadre de la thèse d’Imen Kchaou (co- tutelle avec l’université de Sfax), des travaux récents portent sur l’estimation de la fonction de dépendance pour des variables aléatoires ayant des lois extrêmes. Nous continuons à explorer la théorie des valeurs extrêmes pour les séries temporelles : Loi asymptotique des maximas, loi des dépassement d’un seuil, comportement asympto- tique des estimateurs de la fonction de Pickands dans le cas de faible et de forte dé- pendance. Des extensions au cas multivarié sont en cours et l’on peut noter plusieurs applications en assurance qui pourront faire le lien avec les travaux en actuariat ci- dessous.
→ Modélisation statistique du risque. Nous avons étudié l’approximation des probabi- liés de ruine dans le cas univarié et bivarié ([14] et [15]). Il s’agit d’une approche numé- rique, l’aspect statistique étant pour l’instant laissé en perspective. Les extensions mul- tivariées sont particulièrement intéressantes en assurance car peu de méthodes donnent aujourd’hui des résultats satisfaisants pour approcher les probabilités de ruine. Notre approche par polynômes semble donner de meilleurs résultats. Nous nous intéressons également à la modélisation de la mortalité par des champs Markovien.
Membres impliqués : M. Boutahar, D. Pommeret, L. Reboul, M. Royer-Carenzi

Thème 4 : Statistique bayésienne - Apprentissage
Ces deux axes de recherche ont des liens forts autour du thème porteur des big data. L’aspect bayésien a été renforcé par le recrutement récent de P. Pudlo.
→ En statistique bayésienne, plusieurs axes sont étudiés : la sélection bayésienne de variables ([7]), les algorithmes de type ABC ([5]), et l’approche bayésienne en Big Data ([6]). De nombreuses applications en biologie sont développées.
→ En lien avec le big data, des travaux sont en cours sur des méthodes de classification non supervisée par des arbres de décision, sur des extensions à des données nominales, et sur l’importance des variables.
→ Travaux de modélisation en médecine sur la mise au point de procédures de ques- tionnaires adaptatifs.
→ Mise au point de techniques de discrimination à l’aide de modèles graphiques avec application à des données d’imagerie médicale.
Membres impliqués : B. Ghattas, D. Pommeret, P. Pudlo

● Collaborations interdisciplinaires - Applications
Nous avons plusieurs projets de collaboration en cours. Notamment
– Développer des collaborations avec des collègues géographes d’Aix-Marseille
Université sur la modélisation des transports dans le cadre du développement de
la recherche à Centrale Casablanca.
– Collaborer avec les géographes d’Aix en Provence pour modéliser le vieillise-
ment de la population par des méthodes de statistique spatiale (voir [11]).
– Modéliserl’évolutionduphytoplanctonpardesméthodesbayésiennes(sélection de variables, mélanges) avec la Mediterranean Institute of Oceanography, en
lien avec la thèse de M. Dugenne et la projet Amidex CHROME.
– Prolongerdestravauxquis’inscriventdanslecadredepartenariatsECOS2014
avec l’uruguay pour la modélisation statistique en Ecologie.
– Développer les collaborations Statistique-Signal, à l’instar de [10], où C. Coiffard, C. Melot et T. Willer ont étudié une fonction multifractale en calculant les
p-exposants en tous points, montrant qu’ils sont non triviaux.