Régularisation des modèles linéaires généralisés mixtes par construction de composantes supervisées

Jocelyn Chauvet
IMAG, Université de Montpellier
https://jocelynchauvet.wixsite.com/phdstat

Date(s) : 15/03/2021   iCal
14 h 00 min - 15 h 00 min

Une forte redondance des variables explicatives cause de gros problèmes d’identifiabilité et d’instabilité des coefficients dans les modèles de régression. Même lorsque l’estimation est possible, l’interprétation des résultats est donc extrêmement délicate. Il est alors indispensable de combiner à la vraisemblance de ces modèles un critère supplémentaire qui régularise l’estimateur. Dans le sillage de la régression PLS qu’elle englobe et généralise, la stratégie de régularisation que nous considérons est fondée sur l’extraction de composantes dites « supervisées ». Contraintes à l’orthogonalité entre elles, ces composantes doivent non seulement capturer l’information structurelle des variables explicatives, mais également prédire au mieux les variables réponses, qui peuvent être de types divers (continues ou discrètes, quantitatives, ordinales ou nominales).

Sur un exemple élémentaire de régression, nous commençons par mettre en défaut le pouvoir interprétatif des composantes principales et PLS. Cela juste la nécessité de construire des composantes de manière plus flexible dans la but de rétablir ce pouvoir interprétatif. Les composantes supervisées sont précisément conçues dans cette optique, tout en maintenant de bonnes qualités prédictives.

Par ailleurs, la régression sur composantes supervisées, développée initialement pour les GLMs multivariés, n’a jusqu’alors concerné que des modèles à observations indépendantes. Or, dans de nombreuses situations, les observations sont groupées. Nous proposons donc une extension de la méthode aux GLMMs multivariés, pour lesquels les corrélations intra-groupes sont modélisées au moyen d’effets aléatoires. À chaque étape de l’algorithme de Schall permettant l’estimation du GLMM, nous procédons à la régularisation du modèle par l’extraction de composantes maximisant un compromis entre qualité d’ajustement et pertinence structurelle. Comparé à la régularisation par pénalisation de type ridge ou LASSO, nous montrons sur données simulées que notre méthode permet non seulement de révéler les dimensions explicatives les plus importantes pour l’ensemble des réponses, mais fournit souvent de meilleures estimations. La méthode est aussi évaluée sur des données réelles d’écologie forestière.

Regularization of generalized linear mixed models by construction of supervised components

A strong redundancy of the explanatory variables causes big problems of identifiability and instability of the coefficients in the regression models. Even when estimation is possible, the interpretation of the results is therefore extremely delicate. It is therefore essential to combine the likelihood of these models with an additional criterion which regularizes the estimator. In the wake of the PLS regression that it encompasses and generalizes, the regularization strategy that we consider is based on the extraction of so-called “supervised” components. Constrained to orthogonality between them, these components must not only capture the structural information of the explanatory variables, but also best predict the response variables, which can be of various types (continuous or discrete, quantitative, ordinal or nominal).

On an elementary example of regression, we start by defeating the interpretative power of the principal components and PLS. This is just the need to build components in a more flexible way in order to restore this interpretive power. The supervised components are precisely designed with this in mind, while maintaining good predictive qualities.

In addition, the regression on supervised components, initially developed for multivariate GLMs, has so far only concerned models with independent observations. However, in many situations, observations are grouped together. We therefore propose an extension of the method to multivariate GLMMs, for which the intra-group correlations are modeled by means of random effects. At each step of the Schall algorithm allowing the estimation of the GLMM, we proceed to the regularization of the model by the extraction of components maximizing a compromise between goodness of fit and structural relevance. Compared with the regularization by ridge or LASSO type penalization, we show on simulated data that our method not only allows to reveal the most important explanatory dimensions for all the responses, but often provides better estimates. The method is also evaluated on real forest ecology data.

https://hal.archives-ouvertes.fr/hal-01818544/

Catégories



Retour en haut