Subsections

Dérivation, optimisation

Classiquement, le calcul des variations s'applique pour rechercher des minima ou maxima d'une fonction. Il consiste à partir d'une solution donnée, et examiner les solutions proches pour voir si elles sont meilleures ou moins bonnes. Ceci se fait à l'aide de la dérivation.

Il est utile de rappeler dans un premier temps les bases du calcul différentiel sur les fonctions de plusieurs variables.

Dérivées partielles

Soit $ f: {\mathbb{R}}^n\to{\mathbb{R}}^m$ , et soit $ U\subset{\mathbb{R}}^n$ . Soit $ {\underline{x}}_0\in U$ .


\begin{definition}
Soit $U\subset{\mathbb{R}}^n$. $f:{\mathbb{R}}^n\to{\mathbb{R...
...s $\partial f/\partial x_i$
existent et sont continues sur $U$.
\end{definition}
Le premier résultat essentiel est la proposition suivante
\begin{proposition}[Taylor]
Soit $f:{\mathbb{R}}^n\to{\mathbb{R}}^m$, de classe ...
...erline{h}}\to 0}\epsilon({\underline{h}}) = 0\ .
\end{equation}\end{proposition}

\begin{definition}
Avec les m\^emes notations que ci-dessus, l'application
\begi...
...}\index{Application tangente}
\\lq a $f$\ en ${\underline{x}}_0$).
\end{definition}

REMARQUE 1.1   On note généralement

$\displaystyle x_j: {\underline{h}}=(h_1,\dots h_n)\in{\mathbb{R}}^n\to h_j\to{\mathbb{R}}
$

l'application ``projection'' sur la $ j$ -ième composante. On montre facilement que pour tout $ {\underline{x}}_0$ ,

$\displaystyle d_{{\underline{x}}_0} x_j({\underline{h}}) = h_j\ ,
$

de sorte que l'on peut noter $ dx_j=d_{{\underline{x}}_0} x_j$ , et ainsi écrire la différentielle de $ f$ sous la forme classique

$\displaystyle d_{{\underline{x}}_0}f = \sum_{j=1}^n \frac{\partial f}{\partial x_j}({\underline{x}}_0)\,dx_j\ .$ (1.3)

EXEMPLE 1.1   On considère une fonction continue $ f: [a,b]\to{\mathbb{R}}$ , et la fonction $ \ell$ qui à $ x\in [a,b]$ associe la longueur de la courbe définie par le graphe de $ f$ . La différentielle en $ x_0$ de $ \ell$ vaut

$\displaystyle d_{x_0}\ell \frac{\partial \ell}{\partial x}(x_0)dx\ ,
$

et le théorème de Pythagore montre que

$\displaystyle f(x_0+\epsilon) = f(x_0) + \sqrt{\epsilon^2 + \epsilon^2 f'(x_0)^2}
+ O(\epsilon^2)\ ,
$

d'où

$\displaystyle \frac{\partial \ell}{\partial x}(x_0) = \sqrt{1+ f'(x_0)^2}\ .
$

On en déduit l'expression de la fonction $ \ell$ :

$\displaystyle \ell(u) = \int_a^u \sqrt{1+ f'(x)^2}\,dx$ (1.4)

et la longueur $ L=\ell(b)$ de la courbe.


\begin{definition}
Avec les m\^emes d\'efinitions que ci-dessus, la {\bf matrice...
...
{\bf Jacobien}\index{Jacobien} de $f$\ en ${\underline{x}}_0$.
\end{definition}

La différentielle et la matrice Jacobienne possèdent d'importantes propriétés vis à vis de la composition des fonctions.


\begin{theorem}
Soient $U\subset{\mathbb{R}}^n$, $V\subset{\mathbb{R}}^m$, $f:{\...
... J_g(f({\underline{x}}_0)) J_f({\underline{x}}_0)\ .
\end{eqnarray}\end{theorem}


Les dérivées d'ordre supérieur sont définies récursivement. Par exemple, étant donnée une fonction de plusieurs variables $ f:{\mathbb{R}}^n\to\mathbb{C}$ , on définit

$\displaystyle \frac{\partial^2f}{\partial x_i\partial x_j}({\underline{x}}_0) =...
...ac{\partial}{\partial x_i}\frac{\partial f}{\partial x_j}({\underline{x}}_0)\ .$ (1.5)

Pour des dérivées d'ordres peu élevés, on utilisera également la notation suivante

$\displaystyle f'_{x_i} = \frac{\partial f}{\partial x_i}\ ,\quad
f''_{x_ix_j} = \frac{\partial^2f}{\partial x_i\partial x_j}\ ,\dots
$

Le résultat essentiel est le théorème de Schwarz
\begin{theorem}[Schwarz]
Soit $U\subset{\mathbb{R}}^n$, soit ${\underline{x}}_0\...
...^2f}{\partial x_j\partial x_i}({\underline{x}}_0)\ .
\end{equation}\end{theorem}


\begin{definition}
On dira que $f:{\mathbb{R}}^n\to{\mathbb{R}}^m$\ est de class...
...pha_2+\dots+\alpha_n\le k$
existent et sont continues dans $U$.
\end{definition}

Optimisation

Optimiser une fonction de plusieurs variables équivaut à en chercher les extrêma, c'est à dire les maxima et les minima.


\begin{definition}
Soit $f: X\subset{\mathbb{R}}^n\to{\mathbb{R}}$.
\begin{itemi...
...resp. $f({\underline{x}})> f({\underline{x}}_0)$).
\end{itemize}\end{definition}
Une notion centrale pour la recherche d'extrêma locaux est la notion de point critique. On dit que $ {\underline{x}}_0$ est un point critique de la fonction $ f$ (supposée de classe $ C^1$ dans un voisinage de $ {\underline{x}}_0$ ) si pour tout $ i=1,\dots n$ , on a

$\displaystyle \frac{\partial f}{\partial x_i}({\underline{x}}_0) = 0\ ,\quad i=1,\dots n\ ,
$

ce que l'on note

$\displaystyle \nabla f({\underline{x}}_0)=0\ .
$

Les points critiques caractérisent les extrêma locaux d'une fonction $ f$ à l'ordre 1. Cependant, le gradient $ \nabla f$ de $ f$ ne permet pas de décider si un point critique est effectivement un extrêmum, ni si il s'agit d'un minimum ou d'un maximum. Il est nécessaire pour cela d'effectuer une étude à l'ordre deux. On utilise pour cela le résultat suivant, qui étend la proposition [*]
\begin{theorem}[Taylor-Young]
Soient $U\subset{\mathbb{R}}^n$, ${\underline{x}}_...
...\lim_{\vert{\underline{h}}\vert\to 0}\epsilon({\underline{h}})=0$.
\end{theorem}
Le terme de second ordre dans le théorème ci-dessus fait intervenir la Matrice Hessienne (ou Hessienne) de $ f$ en $ {\underline{x}}_0$ :

$\displaystyle H_f({\underline{x}}_0) = \left(\begin{array}{ccccc} \frac{\partia...
...s& \frac{\partial^2f}{\partial x_n^2}({\underline{x}}_0) \end{array} \right)\ .$ (1.6)

La matrice Hessienne est réelle symétrique, elle est donc diagonalisable. Ses valeurs propres (qui sont réelles) possèdent une interprétation simple.
\begin{theorem}
Soit $f:U\subset{\mathbb{R}}^n\to{\mathbb{R}}$\ une fonction de ...
...}}_0$\ est un {\bf point selle}\index{point selle}.
\end{enumerate}\end{theorem}
Notons que si certaines valeurs propres de $ H_f({\underline{x}}_0)$ sont nulles, il n'est pas possible de conclure.

EXEMPLE 1.2   Soit $ f:{\mathbb{R}}^2\to{\mathbb{R}}$ , définie par

$\displaystyle f(x,y) = x^4 + y^4 -4xy +1\ .
$

On a $ f'_x(x,y) = 4x^3 -4y$ et $ f'_y(x,y)=4y^3-4x$ . Ainsi les points critiques $ (x,y)$ satisfont nécessairement $ x^9=x$ et $ y^9=y$ , d'où les trois solutions $ (0,0)$ , $ (1,1)$ et $ (-1,-1)$ . La matrice Hessienne est de la forme

$\displaystyle H_f(x,y) = \begin{pmatrix}12x^1&-4\\ -4&12y^2\end{pmatrix}\ .
$

On en déduit aisément que $ (0,0)$ est un minimum local, alors que $ (1,1)$ et $ (-1,-1)$ sont des points selle.

EXEMPLE 1.3   Lois de Snell-Descartes en deux dimensions. Un rayon lumineux se propage à la vitesse $ v_1$ dans le milieu 1 (demi-plan supérieur dans la FIG. [*]), et à la vitesse $ v_2$ dans le milieu 2 (demi-plan inférieur). Le principe de Fermat précise que la lumière suit le trajet le plus économique en temps. En notant $ x$ l'abscisse du point où la trajectoire coupe l'interface, le temps nécessaire pour aller de $ (x_1,z_1)$ à $ (x_2,z_2)$ en passant par le point d'abscisse $ x$ vaut

$\displaystyle T(x) = \frac{\sqrt{(x-x_1)^2 + z_1^2}}{v_1} +
\frac{\sqrt{(x_2-x)^2 + z_2^2}}{v_2} \ .
$

Cette quantité est (localement) optimale quand sa dérivée par rapport à $ x$ s'annule, c'est à dire lorsque

$\displaystyle \frac{x-x_1}{v_1\sqrt{(x-x_1)^2 + z_1^2}} -
\frac{x_2-x}{v_2\sqrt{(x_2-x)^2 + z_2^2}} =0\ ,
$

ce qui conduit à la loi de Snell-Descartes

$\displaystyle \frac{\sin\theta_1}{v_1} = \frac{\sin\theta_2}{v_2}\ .
$

Figure: Loi de Snell-Descartes
\includegraphics[width=5cm]{figures/Snell}
On obtient de la même façon la loi de Snell-Descartes à la réflexion.


EXEMPLE 1.4   Lois de Snell-Descartes en trois dimensions. Dans le cas tridimensionnel, la situation est similaire. Il s'agit cette fois de déterminer les coordonnées $ (x,y)$ dans le plan de l'interface où le rayon coupera celui-ci. Le temps de trajet vaut cette fois

$\displaystyle T(x,y) = \frac{\sqrt{(x-x_1)^2 + (y-y_1)^2 + z_1^2}}{v_1} +
\frac{\sqrt{(x_2-x)^2 + (y_2-y)^2 + z_2^2}}{v_2} \ .
$

Il s'agit cette fois d'optimiser par rapport à $ x$ et $ y$ simultanément, ce qui revient à annuler simultanément les dérivées de $ T$ par rapport à $ x$ et $ y$ , c'est à dire son gradient bidimensionnel. Ceci conduit aux équations
$\displaystyle \frac{x-x_1}{v_1\sqrt{(x-x_1)^2 + (y-y_1)^2+ z_1^2}} -
\frac{x_2-x}{v_2\sqrt{(x_2-x)^2 + (y_2-y)^2 + z_2^2}}$ $\displaystyle =$ $\displaystyle 0\ ,$  
$\displaystyle \frac{y-y_1}{v_1\sqrt{(x-x_1)^2 + (y-y_1)^2+ z_1^2}} -
\frac{y_2-y}{v_2\sqrt{(x_2-x)^2 + (y_2-y)^2 + z_2^2}}$ $\displaystyle =$ $\displaystyle 0\ ,$  

qui impliquent immédiatement

$\displaystyle \left(\begin{array}{c}x_2-x\\ y_2-y\end{array}\right) =
\frac{v_2 d_2}{v_1 d_1}
\left(\begin{array}{c}x-x_1\\ y-y_1\end{array}\right)\ ,
$

i.e. le point du plan de coordonnées $ (x,y)$ se trouve dans le segment compris entre $ (x_1,y_1)$ et $ (x_2,y_2)$ . On se ramène donc à un problème bidimensionnel, et le raisonnement ci-dessus s'applique directement.


Optimisation sous contrainte

Il arrive que l'on ait à rechercher des extrêma de certaines fonctions de plusieurs variables, auxquelles sont imposées un certain nombre de contraintes supplémentaires. On a dans ce cas recours à la méthode des multiplicateurs de Lagrange, qui est illustrée en FIG. [*] dans un exemple bidimensionnel. Dans cet exemple, on cherche à minimiser une certaine fonction $ F$ définie sur le plan, dont les lignes de niveau sont tracées en courbes (presque parallèles sur la figure), sous une contrainte prenant la forme $ G(x)=C$ (une constante), représentée comme le bord d'un domaine sur la figure). Il apparaît clairement que l'optimum est obtenu lorsque les gradients de $ F$ et $ G$ sont confondus.

Figure: Optimisation sous contrainte par multiplicateurs de Lagrange: les lignes sont les lignes de niveau de la fonction à optimiser, et la contrainte est représentée par le bord de la surface fermée.
Image multiplicateur
Cet exemple peut se généraliser en dimension quelconque, où il prend une forme tout à fait similaire. Plus précisément, le résultat général est le suivant:
\begin{theorem}
Soient $f$\ et $g$\ deux fonctions diff\'erentiables dans $\Omeg...
...partial\lambda}({\underline{x}}_0,\lambda_0)=0\ .
\end{displaymath}\end{theorem}

Bruno Torresani 2007-06-26