Modelos de Regressão
Aplicação de método de imputação para substituição de dados discrepantes univariados obtidos em resultados experimentais
Na interpretação dos resultados em estudos arqueométricos de cerâmicas arqueológicas, para classificar, estudar a similaridade/dissimilaridade, a proveniência das amostras e a tecnologia de produção são utilizados métodos estatísticos multivariados, tais como: análise de conglomerados (do inglês, cluster analysis), análise de componentes principais (do inglês, principals components), análise discriminantes do inglês, discriminant analysis), entre outros. Contudo, para que seja viável a utilização destas técnicas estatísticas se faz necessário que a matriz das amostras não possua valores discrepantes (do inglês, outliers) e que esteja completa, isto é, inexistência de valores faltantes (do inglês, missing values), para uma posterior análise dos dados completos (Stanimirova and Walczak, 2008).
Os objetivos deste trabalho são detectar os dados discrepantes univariados e tratá-los como faltantes utilizando um método de imputação para obtenção de valores plausíveis para sua substituição e avaliar em termos comparativos a quantidade de dados discrepantes univariados e multivariados antes e após a aplicação deste método de imputação.
Para este trabalho; foram utilizados dados de concentrações elementares de As, Ce, Cr, Eu, Fe, Hf, La, Na, Nd, Sc, Sm, Th e U determinadas por análise por ativação com neutrons instrumental em amostras de fragmentos cerâmicos de um sítio arqueológico; foi feito um estudo de detecção de dados discrepantes univariados aplicando o método de Box-Plot e um método de análise discrepantes multivariados utilizando o método da distancia de Mahalanobis antes e após aplicação do método de imputação por decomposição do valor singular.
Comparação das distribuições Gama e Log-normal na predição da fragilidade: um estudo de simulação
Dados de sobrevivência multivariados exigem o uso de técnicas específicas. Um modelo muito popular para esse tipo de dados é o modelo de fragilidade, que consiste na introdução de uma componente aleatória no modelo de Cox denominada fragilidade. A distribuição Gama é a mais utilizada para a fragilidade devido à sua conveniência algébrica. O objetivo deste trabalho é comparar a acurácia e a dispersão das razões de fragilidades preditas via distribuições Gama e Log-normal. Para isso foram gerados 1000 amostras de cada um dos 12 cenários correspondendo a 4 tamanhos diferentes de amostras e 3 percentuais médios de censuras e foi calculado o erro quadrático médio e o percentual do viés absoluto médio para cada cenário. Concluiu-se que a distribuição Log-normal apresenta menor viés e menor erro quadrático médio em todos os cenários gerados.
Comparação de duas abordagens utilizando modelos mistos para um experimento de cana-de-açúcar
Ao escolher um modelo de regressão para descrever o comportamento de uma variável resposta de acordo com variáveis de controle, tem-se a opção de usar modelos polinomiais. Aumentando-se a ordem destes modelos, pode-se obter aproximações cada vez mais precisas da verdadeira função de regressão, geralmente não linear. Modelos não lineares de efeitos mistos é uma estensão dos modelos lineares de efeitos mistos, permitindo que a função de regressão não linear dependa dos efeitos fixos e aleatórios. Neste trabalho, utilizaram-se duas abordagens mistas, linear e não-linear, para modelar os dados de produção de matéria seca de cana-de-açúcar, provenientes de um experimento longitudinal. As duas abordagens forneceram bons ajustes, entretanto a não linear mostrou-se mais atraente, pois as estimativas dos seus parâmetros têm uma melhor interpretação, uma vez que sua derivada de primeira ordem é amplamente utilizada para a verificação do acumulo de matéria seca no período de interesse.
Métodos regressivos para estimação de coberturas de óbitos para as regiões do Nordeste
As coberturas de óbitos são referentes ao percentual de óbitos, de uma dada região, que foram registrados. Este trabalho tem como objetivo apresentar um modelo de perdição para o cálculo das coberturas de óbitos para as regiões do Nordeste, regiões estas, onde os dados sofrem com o subregistro de óbitos. As técnicas atualmente disponíveis para o cálculo de coberturas de óbitos, necessitam que o pesquisador entenda sobre o comportamento da mortalidade da região onde está se querendo calcular as coberturas, sendo dessa forma um pouco subjetivas. O modelo proposto trata-se de um modelo parcimonioso, que utiliza apenas duas variáveis educacionais para a predição das coberturas. Para o ajustamento do modelo foi utilizado Modelos Lineares Generalizados.
ESTIMATIVA DA PERFILAGEM EM POÇOS DE PÉTROLEO UTILIZANDO A ESTATÍSTICA MULTIVARIADA
O perfil sônico é utilizado, principalmente em poços pioneiros, que recebem maiores investimentos para aquisição de dados, pois esses poços servem como referência para analisar o potencial petrolífero da área. Para poços considerados de explotação, normalmente não são corridas as ferramentas sônicas por motivos econômicos, principalmente nos tempos de preço de petróleo baixo. Como não é viável economicamente fazer uma aquisição do perfil sônico, na grande maioria dos poços antigos, principalmente em decorrência da parada da produção do óleo, deve-se recorrer a outros meios para solucionar o problema. Uma das maneiras é utilizar métodos estatísticos que gerem um perfil sônico, dito sintético, para estabelecer estimativas das velocidades sísmicas das rochas ao longo dos poços. Assim, esse trabalho visa determinar um modelo que gere perfis sônicos sintéticos em poços de petróleo perfurados nas unidades geológicas pertencentes a Bacia Sedimentar Sergipe-Alagoas e que estejam dentro dos padrões de qualidade necessários. Este trabalho tem o apoio financeiro da FAPITEC.
A bootstrap estimator for the Student-t regression model
The Student-t regression model suffers from monotone likelihood. This means that the likelihood achieves its maximum value at infinite values of one or more of the parameters, in this case the unknown degrees of freedom. This leads to problems when one uses iterative algorithms to locate the solutions to the non-linear equations generated by the likelihood. Fonseca et al. (2008) deal with this problem by using the Jeffreys priors. We implement a bootstrap estimator which is based on resampling the data until samples without monotone likelihood are encountered. Results from this analysis will be presented .
Gráfico de Controle de Regressão Aplicado ao Monitoramento de Características da Qualidade do Eletrodo de Carbono
O gráfico de controle de regressão clássica é uma ferramenta do controle estatístico da qualidade, útil no monitoramento processos em que existe a atuação conjunta de variáveis correlacionadas. Desta forma, o objetivo da utilização desta ferramenta estatística é monitorar comportamento das características da qualidade que apresentem relação estatística. Assim, a partir da utilização do gráfico de controle de regressão clássica para monitorar o processo de obtenção de alumínio, mais especificamente aplicado no monitoramento de duas das características da qualidade de eletrodos de carbono, a resistividade elétrica (ohm) e resistência a flexão (mpa), pôde-se verificar que todos os pontos amostrais da relação conjunta das duas características da qualidade encontravam-se entre os limites de controle, isto é, o processo de produção de eletrodos de carbono está sob controle estatístico. Além disso, destaca-se o fato de que para a construção dos gráficos de controle de regressão foi necessário o desenvolvimento do modelo de regressão para a resistividade elétrica (Y), em função da resistência a flexão (X). Assim, além do modelo desenvolvido servir para se determinar a linha central e os limites de controle (inferior e superior) do gráfico de controle de regressão clássica, pode ser utilizado para prever valores de resistividade elétrica em função resistência a flexão.
ESTIMAÇÃO DE POPULAÇÕES HUMANAS VIA IMAGENS DE SATÉLITE: COMPARANDO ABORDAGENS E MODELOS
Este trabalho compara duas estratégias diferentes para estimar populações humanas via modelos de regressão com imagens de satélite. A primeira estratégia utiliza um modelo de regressão linear simples cuja variável explicativa é resultante de um processamento das imagens originais de um sensor. A segunda estratégia utiliza um modelo de regressão linear múltipla cujas variáveis explicativas são as imagens originais do sensor e dados relacionados à contagem populacional no período anterior ao que está sendo estimado. A avaliação dos modelos é feita através do erro relativo mediano das predições obtidas.
Comparação de Estimadores de Regressão
A análise de regressão é uma das técnicas estatísticas mais utilizadas em aplicações. Para estimar os parâmetros de um modelo de regressão linear, comumente se aplica o método de Mínimos Quadrados Ordinários (MQO). Contudo, observa-se que as estimativas de MQO podem ser sensíveis à presença de valores discrepantes nas variáveis consideradas. Uma forma de contornar este problema é fazer uso de estimadores resistentes a tais observações, nomeadamente estimadores robustos. No presente trabalho, avaliou-se o desempenho dos estimadores robustos de regressão Estimador M de Huber (M), Menor Mediana dos Quadrados dos Resíduos (MMQ) e Mediana dos Quadrados dos Resíduos Podados (MQP), comparando-os também com o MQO. Um resultado a ser destacado é que o estimador M não é recomendável na presença de valores discrepantes nas variáveis preditoras, sendo seu uso indicado apenas quando há valores atípicos na resposta, ao passo que MMQ e MQP apresentam estimativas resistentes nos dois casos. Outra característica importante
do MMQ e do MQP é que eles fornecem estimativas robustas mesmo considerando uma amostra com aproximadamente 50% de "contaminação", isto é, seus pontos de ruptura são próximos a 0.5, enquanto que os do MQO e do M são assintoticamente nulos.
Avaliação do Modelo Total de Sucessos (MTS) para Regressão Logística com Erros de Classificação utilizando Distribuições a Priori Normais
Sob o enfoque bayesiano, considera-se o modelo logístico em que a variável resposta está sujeita a erros de classificação. Visando minimizar o impacto desses na estimação dos coeficientes da regressão, propõe-se realizar classificações repetidas e independentes dos elementos amostrais e incorporar ao modelo o número total de sucessos obtidos nessas avaliações. O modelo proposto utiliza diferentes distribuições a priori Normais independentes para os coeficientes de regressão e distribuições a priori independentes Betas para os erros de classificação. Para o processo de inferência a posteriori, utiliza-se abordagem de dados aumentados, Gibbs Sampler e o método de rejeição adaptativo com Metropolis. Comparando-se os resultados obtidos com aqueles em que não há erros de classificação, o MTS apresenta resultados mais satisfatórios na medida em que a distribuição a priori dos erros de classificação e dos coeficientes de regressão é mais informativa e o número de classificações repetidas é maior. Como esperado, os resultados utilizando classificações repetidas são mais satisfatórios que aqueles quando se utiliza apenas uma classificação do elemento.