Linearizar ou não?
Será que linearizar um problema é sempre uma boa estratégia?
Vamos lá?
Na aula passada vimos que nem toda função utilizada em um ajuste é combinação linear de funções conhecidas. Quando isto acontece, não temos como usar a estratégia de ajuste por quadrados mínimos linear. As vezes é possível linearizar o problema, mas será que a solução desse problema linearizado é mesmo boa?
- 1
- 2
A solução ótima do problema linearizado é...
Ao observar os dados, pareceu razoável ajustá-los por uma gaussiana.
Os parâmetros a determinar são, a amplitude da gaussiana, sua média e variância. Ou seja, queremos determinar coeficientes $c_1, c_2$ e $c_3$ tais que $$y \approx \phi(x) = c_1\exp(-(c_2x-c_3)^2).$$
Como $c_1, c_2$ e $c_3$ não são coeficientes de uma combinação linear de funções, o problema de ajuste não recai em um problema de quadrados mínimos linear. Porém, é possível linearizá-lo, utilizando a transformação $z=\log(y)$. Com efeito, \begin{align*} z = \log(y) & \approx \log(\phi(x)) \\\ \ & = \log\left[c_1\exp(-(c_2x-c_3)^2)\right] \\\ \ & = \log c_1 -(c_2x-c_3)^2\\\ \ & = [\log c_1 -c_3^2] + (2c_2c_3)x - c_2^2 x^2 \\\ \ & = \alpha_1 + \alpha_2 x + \alpha_3 x^2, \end{align*} onde $\alpha_1 = [\log c_1 -c_3^2],$ $\alpha_2 = 2c_2c_3$ e $\alpha_3 = -c_2^2.$
Com esta transformação, o problema de ajuste linear torna-se determinar o polinômio de grau 2 que melhor se ajusta aos dados $\{(x_1,z_1)\,\ldots,(x_n,z_n)\},$ no sentido de quadrados mínimos.
Na figura abaixo é possível ver os dados transformados e o polinômio de grau 2 que melhor os ajusta. O resíduo deste ajuste foi $\sum_{k=1}^n [z_k - \log(\phi(x_k))]^2 \approx 400.$
Como o domínio $(x,z)$ foi utilizado apenas como um recurso para permitir utilizar a estratégia de ajuste por quadrados mínimos lineares, precisamos retornar para as variáveis originais do problema. Observe que $$ c_2 = \sqrt{-\alpha_3}, \quad c_3 = {\alpha_2 \over 2 c_2}, \quad c_1 = \exp(\alpha_1+c_3^2).$$
Nas variáveis originais, o ajuste obtido está exibido na figura a seguir. O resíduo deste ajuste foi $\sum_{k=1}^n [y_k - \phi(x_k)]^2 \approx 55.$
Ao observar esta figura ficamos com a sensação de que deve haver uma gaussiana que se ajuste melhor aos dados $\{(x_1,y_1)\,\ldots,(x_n,y_n)\},$ apesar de não haver um polinômio de grau 2 que se ajuste melhor aos dados $\{(x_1,z_1)\,\ldots,(x_n,z_n)\}.$ De fato, a gaussiana de melhor ajuste está exibida na figura abaixo. O resíduo deste ajuste foi $\sum_{k=1}^n [y_k - \phi(x_k)]^2 \approx 0.09.$
Será que esta gaussiana, que teve um ajuste tão melhor que a anterior, quando convertida novamente para o domínio $(x,z),$ não teria produzido uma parábola melhor que a encontrada acima? De fato, o resíduo nesse caso é $\sum_{k=1}^n [z_k - \log(\phi(x_k))]^2 \approx 1.5\cdot 10^5.$
Desta forma, concluímos que a propriedade de otimalidade do ajuste não é preservada por transformações não lineares. Em outras palavras, um ajuste ótimo em um domínio pode não ser ótimo em outro, quando a relação entre os domínios for não linear.
Como aprendizado, devemos ficar conscientes de que o ajuste obtido pela linearização do problema deve ser utilizado com cautela. Se a solução obtida desta forma não for aceitável, ou quando nem é possível realizar a linearização do problema, só nos resta resolver diretamente o problema de ajuste não linear. Como fazer isto é assunto para outra aula.
Neste exercício você deve perceber que o mínimo de uma função pode não ser preservado por transformações. Considere $y = f(x) \equiv x^2$. Seja $x^*$ o minimizador de $f.$ Quem é $x^*$? Para as transformações abaixo, determine $\hat{x}$ que minimiza $z$ e compare-o com $x^*.$
- $z = A f(x) + B,$ para $A>0$
- $z = (f(x)-4)^2$
- $z = \cos(f(x))$
(a) $\hat{x} =x^*$; (b)$|\hat{x}| = 2$; (c) $\hat{x} = \pm \sqrt{(2k+1)\pi}$, para $k\in\mathbb{N}$.