Teorema:

$\def\vect{\boldsymbol}$ Suponhamos que $f : \mathbb R^n \to \mathbb R$ é continuamente diferenciável. Então o Algoritmo de Descida com Busca de Armijo e $\epsilon = 0$ ou para com $\| \nabla f( \vect x_k ) \| = 0$ em algum $k \ge 0$ ou ele gera uma sequência infinita $\def\vect{\boldsymbol}$$\{ \vect x_k \} \subset \mathbb R^n$ tal que todo ponto de acumulação dessa sequência é um ponto estacionário de $f$.

Se ocorrer $\| \nabla f( \vect x_k ) \| = 0$ não há mais nada a provar. Se não há nenhum ponto de acumulação, tampouco há o que ser demonstrado. Suponhamos, portanto, que o algoritmo não pare e que exista um ponto de acumulação $\overline{\vect x}$, ou seja, existe uma subsequência $\{\vect x_{\ell_k}\}$ tal que $\vect x_{\ell_k} \to \overline{\vect x}$ e suponhamos, por absurdo, que $\nabla f( \overline{\vect x} ) \ne \vect 0$.

Agora lembremo-nos que nosso algoritmo satisfaz $$ f( \vect x_k + \lambda_k \vect d_k ) < f( \vect x_k ) + \lambda_k\sigma \vect d_k^T\nabla f( \vect x_k ). $$ Denotando $\overline{\lambda}_k := \lambda_k\| \vect d_k \|$ e $\overline{\vect d}_k := \vect d_k / \|\vect d_k\|$, então isso equivale a $$ f( \vect x_k + \overline{\lambda}_k \overline{\vect d}_k ) < f( \vect x_k ) + \overline{\lambda}_k\sigma \overline{\vect d}_k^T\nabla f( \vect x_k ). $$ Como $\{\overline{\vect d}_k\}$ é uma sequência limitada, podemos assumir que $\{\overline{\vect d}_{\ell_k}\}$ seja convergente e denotar esse limite por $\overline{\vect d}$, ou seja, $\overline{\vect d}_{\ell_k} \to \overline{\vect d}$.

Nosso algoritmo garante que $$ \vect d_k^T\nabla f( \vect x_k ) \le -\gamma\|\vect d_k\|\|\nabla f( \vect x_k )\|. $$ Dividindo ambos os lados por $\|\vect d_k\|$ obtemos $$ \overline{\vect d}_k^T\nabla f( \vect x_k ) \le -\gamma\|\nabla f( \vect x_k )\|. $$ Em particular $$ \overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) \le -\gamma\|\nabla f( \vect x_{\ell_k} )\|. $$ Aplicando limites acima, temos $$ \overline{\vect d}^T\nabla f( \overline{\vect x} ) \le -\gamma\|\nabla f( \overline{\vect x} )\|. $$

Portanto, existe $\overline\Lambda > 0$ tal que $\nu \in ( 0, \overline\Lambda )$ satisfaz: $$ f( \overline {\vect x} + \nu\overline{\vect d} ) < f( \overline{\vect x} ) + \nu( \sigma + \eta )\overline{\vect d}^T\nabla f( \overline{\vect x} ), $$ onde $\eta > 0$ é tal que $\sigma + \eta < 1$.

Note que isso pode ser reescrito como $$ f( \vect x_{\ell_k} + \nu\overline{\vect d}_{\ell_k} ) + \rho_{1, \ell_k} < f( \vect x_{\ell_k} ) + \rho_{2, \ell_k} + \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) + \rho_{3, \ell_k} + \nu\eta\overline{\vect d}^T\nabla f( \overline{\vect x} ), $$ onde $$ \begin{split} \rho_{1, \ell_k} & {}:= f( \overline{\vect x} + \nu\overline{\vect d} ) - f( \vect x_{\ell_k} + \nu\overline{\vect d}_{\ell_k} ) \to 0,\\ \rho_{2, \ell_k} & {}:= f( \overline{\vect x} ) - f( \vect x_{\ell_k} ) \to 0\\ \rho_{3, \ell_k} & {}:=\nu\sigma\overline{\vect d}^T\nabla f( \overline{\vect x} ) - \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) \to 0. \end{split} $$

Desta forma, $$ f( \vect x_{\ell_k} + \nu\overline{\vect{\vect d}}_{\ell_k} ) < f( \vect x_{\ell_k} ) + \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) + \rho_{\ell_k} + \nu\eta\overline{\vect d}^T\nabla f( \overline{\vect x} ), $$ onde $\rho_{\ell_k} \to 0$.

Notemos que a busca de Armijo é feita no conjunto $$ \lambda_k \in \{ \lambda, \beta\lambda, \beta^2\lambda, \dots \} $$ ou, de outra forma $$ \overline{\lambda}_k \in \{ \lambda\| \vect d_k \|, \beta\lambda\| \vect d_k \|, \beta^2\lambda\| \vect d_k \|, \dots \} $$

Primeiro notemos que existe $\mu > 0$ tal que $\|\vect d_{\ell_k}\| \ge \mu$ pois caso contrário existe subsequência de $\{ \vect d_{\ell_k} \}$ que congverge para zero, mas isso contradiz $\nabla f( \overline{\vect x} ) \ne \vect 0$ e $\| \vect d_k \| \ge \kappa \| \nabla f( \vect x_k ) \|$.

Desta forma o passo escolhido satisfaz $$ \overline{\lambda}_{\ell_k} \ge \min\{ \lambda\|\vect d_{\ell_k}\|, \overline{\Lambda}\beta \} \ge \min\{ \lambda\mu, \overline{\Lambda}\beta \} =: \overline{\lambda} $$

desde que, $\ell_k$ seja grande o suficiente tal que para $\nu \ge \overline{\lambda}$ tenhamos $$ \rho_{\ell_k} + \nu\eta\overline{\vect d}^T\nabla f( \overline{\vect x} ) \le 0 $$ pois nesse caso temos $$ \begin{split} f( \vect x_{\ell_k} + \nu\overline{\vect d}_{\ell_k} ) & {}< f( \vect x_{\ell_k} ) + \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) + \rho_{\ell_k} + \nu\eta\overline{\vect d}^T\nabla f( \overline{\vect x} )\\ & {} \le f( \vect x_{\ell_k} ) + \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) \end{split} $$ para $\nu \in ( \overline{\lambda}, \overline{\Lambda} )$.

Suponhamos agora que $\ell_k$ é grande o suficiente para que tenhamos $$ \overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} ) \le \frac{\overline{\vect d}^T\nabla f( \overline{\vect x} )}{2}. $$ Nesse caso temos $$ \begin{split} f( \vect x_{\ell_k} + \nu\overline{\vect d}_{\ell_k} ) &{}\le f( \vect x_{\ell_k} ) + \nu\sigma\overline{\vect d}_{\ell_k}^T\nabla f( \vect x_{\ell_k} )\\ & {} \le f( \vect x_{\ell_k} ) + \nu\sigma\frac{\overline{\vect d}^T\nabla f( \overline{\vect x} )}{2} \end{split} $$

Portanto, $$ f( \vect x_{\ell_{k + 1}} ) \le f( \vect x_{\ell_k + 1} ) \le f( \vect x_{\ell_k} ) + \overline{\lambda}_k\sigma\frac{\overline{\vect d}^T\nabla f( \overline{\vect x} )}{2} \le f( \vect x_{\ell_k} ) + \overline{\lambda}\sigma\frac{\overline{\vect d}^T\nabla f( \overline{\vect x} )}{2}. $$ Logo: $$ f( \vect x_{\ell_{k + n}} ) \le f( \vect x_{\ell_k} ) + n\overline\lambda\sigma\frac{\overline{\vect d}^T\nabla f( \overline{\vect x} )}{2}, $$ ou seja, $f( \vect x_{\ell_k} ) \to -\infty$, o que contradiz a continuidade de $f$.