Équipe Statistique (STA)

Responsable d’équipe : Pierre PUDLO

L’équipe STA est une composante du Groupe Scientifique Mathématiques de l’Aléatoire (ALEA).

Plusieurs thèmes de recherche sont développés au sein de l’équipe. Certains thèmes regroupent une majorité des membres. D’autres sont étudiés plus marginalement, mais sont voués à se développer. Des liens existent entre tous les thèmes. Comme l’utilisation de la statistique bayésienne dans l’apprentissage, la construction de tests non paramétriques pour des processus dépendants ou pour des modèles actuariels.

Thème 1 : Statistique mathématique, problèmes inverses

Cette thématique a été historiquement développée par l’équipe de statistique de Château-Gombert. Plusieurs axes de recherche sont abordés.

→ L’agrégation des méthodes linéaires à l’aide de la pondération exponentielle. Bien que la pondération exponentielle soit l’une des plus efficaces des méthodes d’agrégation convexe, son analyse rigoureuse est un problème mathématique généralement difficile. Une nouvelle approche de l’analyse de la pondération exponentielle est développée, basée sur des inégalités d’entropie pour les processus ordonnés. Cette méthode permettrait de contrôler la concentration du risque de la pondération exponentielle dans le voisinage du risque d’oracle ([8] et [19]).

→ La sélection automatique des paramètres de régularisation dans les problèmes inverses linéaires. Le problème de sélection automatique des paramètres de régularisation dans les problèmes inverses est l’un des problèmes fondamentaux dans les méthodes numériques. Malgré une longue histoire de ce problème il n’y a pas actuellement de solutions simples et efficaces. Pour construire de bonnes méthodes de sélection automatique, une approche basée sur une interprétation probabiliste du problème inverse a été proposée et étudiée. Plus précisément, il a été démontré que la méthode basée sur la minimisation du risque prédictif non-biaisé sera proche de la méthode optimale pour le problème inverse ([19]).
Dans [28], on obtient des résultats théoriques sur un modèle généralisant l’estimation non paramétrique de densité multivariée et la déconvolution de densité multivariée.
On établit des bornes inférieures du risque minimax sous des conditions très faible (dimension quelconque de la fonction, espace de régularité large, famille de pertes Lp quelconque). Dans un autre travail (en cours de finalisation), on développe une méthode d’estimation qui vérifie une inégalité de type oracle et atteint les vitesses minimax.

Chercheurs : F. Autin, Y. Golubev, T. Le Gouic, O. Lepski, C. Pouet, T. Willer

Thème 2 : Estimation et tests non paramétriques

Cet axe de recherche peut se rattacher à la statistique mathématique, mais ses développements sont assez nombreux pour le faire apparaître séparément.

→ Procédure d’estimation universelle. Création d’une procédure d’estimation universelle s’adaptant simultanément au grand spectre de paramètres nuisibles indépendamment de leur nature (incluant l’adaptation structurelle). Sur ce sujet des collaborations avec plusieurs chercheurs de différents pays se sont achevées avec succès avec la résolution de nombreux problèmes qui restaient ouverts depuis longtemps ([18], [27], [20], [26], [16]). En particulier, dans l’article [24] on trouve des résultats définitifs sur l’existence d’estimateurs adaptatif par rapport à l’échelle de classes de Nikolskii anisotropes. De plus, 8 problèmes ouverts liés à l’estimation adaptative sont formulés. Ces travaux ont mis en évidence la nécessité de développer de nouveaux outils probabilistes liés aux majorantes uniformes (upper functions) pour les fonctionnelles aléatoires positives, voir [25],[22], [23], [21], [17].

→ Approche maxiset. L’étude des performances maxis et des estimateurs par méthodes d’ondelettes a mis en lumière de nouveaux espaces fonctionnels, en particulier des espaces regroupant des fonctions ayant des coefficients d’ondelettes structurés. Les vitesses minimax et minimax adaptatives de ces nouveaux espaces sont étudiées.
Un travail en collaboration avec C. Chesneau, [9], concerne les performances d’un estimateur de la fonction de répartition dans un modèle de données dépendantes et censurées. La méthode utilise des ondelettes déformées, et est étudiée du point de vue théorique (risque minimax) et pratique (comportement de l’estimateur sur des données simulées et sur des données réelles).
Dans les problèmes d’estimation en grande dimension où il est question d’estimer un paramètre d-dimensionnel à partir de n observations (avec d >> n) de nouvelles méthodes se sont récemment révélées performantes comme par exemple les méthodes de type LASSO ou de type DANTZIG SELECTOR. Ces méthodes reposent toutes sur la résolution d’un problème d’optimisation l1 sous contrainte. Il est question d’utiliser le point de vue maxiset pour comprendre si l’une ou l’autre des deux méthodes peut être considérée comme la meilleure.

→ Tests non paramétriques. Le modèle de mélange à poids variable est intéressant pour traiter de nombreux problèmes. Le cas paramétrique a été traité dans l’article [3]. Le cas non-paramétrique a été traité dans plusieurs articles afin d’étudier différents aspects : vitesse minimax de test, perte pour l’adaptation : [1], [2] and [4]. Ce modèle doit être étudié comme une alternative aux méthodes d’imputation pour traiter les problèmes de données manquantes (par exemple imputation simple, imputation multiple). Une autre piste est de supposer que les poids variables qui sont donnés ne sont pas exacts mais entachés d’erreur (par exemple, les poids variables sont fournis par un expert humain ou un système expert qui disposent de données d’apprentissage). La théorie des matrices aléatoires fournira probablement des outils pour étudier ce problème. En effet, le comportement de la plus petite valeur propre d’une certaine matrice du problème est crucial quant à la qualité des résultats obtenus.

Chercheurs : F. Autin, C. Pouet, T. Le Gouic, O. Lepski

Thème 3 : Processus et dépendance – Extrêmes – Statistique actuarielle

→ Processus à mémoire longue. Une série de papiers portent sur la comparaison de processus dans différents cadres de dépendances. On peut noter [13] pour le cas apparié et [12] pour les cas de dépendance faible. Aujourd’hui nous nous intéressons à la construction de test de comparaison de processus à dépendance forte, de champs gaus- siens, et à des processus de loi stables.

→ Séries temporelles. Dans le cadre de la rédaction du livre «  »Méthodes en séries temporelles et applications avec R » (Boutahar et Royer-Carenzi), de nouvelles méthodes ont été développées pour l’analyse des séries temporelles, et notamment l’identification de ses composantes. Ainsi, le test classique de racine unitaire de Dickey-Fuller augmenté permet de distinguer une tendance déterministe linéaire d’une tendance stochastique d’ordre 1, mais il échoue à détecter une tendance déterministe si elle est de degré supérieur ou égal à deux. Nous proposons une stratégie pour y remédier.

→ Statistique des extrêmes multivariés. Dans le cadre de la thèse d’Imen Kchaou (co-tutelle avec l’université de Sfax), des travaux récents portent sur l’estimation de la fonction de dépendance pour des variables aléatoires ayant des lois extrêmes. Nous continuons à explorer la théorie des valeurs extrêmes pour les séries temporelles : Loi asymptotique des maximas, loi des dépassement d’un seuil, comportement asymptotique des estimateurs de la fonction de Pickands dans le cas de faible et de forte dépendance. Des extensions au cas multivarié sont en cours et l’on peut noter plusieurs applications en assurance qui pourront faire le lien avec les travaux en actuariat ci-dessous.

→ Modélisation statistique du risque. Nous avons étudié l’approximation des probabilités de ruine dans le cas univarié et bivarié ([14] et [15]). Il s’agit d’une approche numérique, l’aspect statistique étant pour l’instant laissé en perspective. Les extensions multivariées sont particulièrement intéressantes en assurance car peu de méthodes donnent aujourd’hui des résultats satisfaisants pour approcher les probabilités de ruine. Notre approche par polynômes semble donner de meilleurs résultats. Nous nous intéressons également à la modélisation de la mortalité par des champs Markovien.

Chercheurs : M. Boutahar, D. Pommeret, L. Reboul, M. Royer-Carenzi

Thème 4 : Statistique bayésienne – Apprentissage

Ces deux axes de recherche ont des liens forts autour du thème porteur des big data. L’aspect bayésien a été renforcé par le recrutement récent de P. Pudlo.

→ En statistique bayésienne, plusieurs axes sont étudiés : la sélection bayésienne de variables ([7]), les algorithmes de type ABC ([5]), et l’approche bayésienne en Big Data ([6]). De nombreuses applications en biologie sont développées.

→ En lien avec le big data, des travaux sont en cours sur des méthodes de classification non supervisée par des arbres de décision, sur des extensions à des données nominales, et sur l’importance des variables.

→ Travaux de modélisation en médecine sur la mise au point de procédures de questionnaires adaptatifs.

→ Mise au point de techniques de discrimination à l’aide de modèles graphiques avec application à des données d’imagerie médicale.

Chercheurs : B. Ghattas, D. Pommeret, P. Pudlo

Collaborations interdisciplinaires – Applications

Nous avons plusieurs projets de collaboration en cours. Notamment :

– Développer des collaborations avec des collègues géographes d’Aix-Marseille Université sur la modélisation des transports dans le cadre du développement de la recherche à Centrale Casablanca.

– Collaborer avec les géographes d’Aix-en-Provence pour modéliser le vieillissement de la population par des méthodes de statistique spatiale (voir [11]).

– Modéliser l’évolution du phytoplancton par des méthodes bayésiennes (sélection de variables, mélanges) avec la Mediterranean Institute of Oceanography (MIO), en lien avec la thèse de M. Dugenne et la projet Amidex CHROME.

– Prolonger des travaux qui s’inscrivent dans le cadre de partenariats ECOS 2014 avec l’uruguay pour la modélisation statistique en Écologie.

– Développer les collaborations Statistique-Signal, à l’instar de [10], où C. Coiffard, C. Melot et T. Willer ont étudié une fonction multifractale en calculant les p-exposants en tous points, montrant qu’ils sont non triviaux.


Sur le web : Détails sur le rapport d’activité 2011-2016 – Équipe STA (page 93-95)

 


Retour en haut 

Secured By miniOrange