Modelos de Regressão

Uso da distribuição geométrica para modelagem de dados de contagem com excesso de zeros em finanças

Autor(es) e Instituição: 
Marcelo de Paula
Carlos Alberto Ribeiro Diniz
Apresentador: 
Marcelo de Paula

Em finanças, dados de contagem com excesso de zeros, como por exemplo a variável resposta "tempo em dias entre o pagamento da fatura do cartão e seu vencimento" pode ser modelado segundo uma distribuição geométrica. Em geral, dados financeiros dessa natureza apresentam uma grande quantidade de zeros observados, pois a grande maioria dos clientes efetuam o pagamento dentro do prazo de vencimento. Nesse trabalho fazemos um estudo com dados virtuais de finanças com excesso de zeros em que analisamos o desempenho do modelo logístico e do modelo logístico com resposta geométrica. Aspectos sobre probabilidade de cobertura de ambos os modelos são abordados.

Resumo estendido: 

Respostas dicotômicas oriundas da distribuição Gaussiana com estrutura heteroscedástica multiplicativa

Autor(es) e Instituição: 
Marcelo de Paula
Carlos Alberto Ribeiro Diniz
Apresentador: 
Marcelo de Paula

A regressão logística binária é indicada quando a variável resposta de interesse é dicotômica, isto é, quando a variável resposta assume apenas dois valores possíveis. Porém, em muitas situações práticas pode ocorrer que a variável resposta binária tenha uma distribuição original pertencente a alguma classe de distribuições, sejam elas discretas ou contínuas. Em outras palavras, a variável resposta tem uma distribuição original que não a de Bernoulli e, por algum motivo, tal variável foi posteriormente dicotomizada considerando um ponto de corte C arbitrário. Nesse sentido a regressão logística pode incorporar a informação sobre a distribuição original da variável resposta no ajuste do modelo logístico usual. Nesse trabalho assumimos que a variável resposta binária seja oriunda da distribuição normal em uma estrutura heteroscedástica.

Resumo estendido: 

A Bayesian Skew-Normal Independent Mixture Measurement Error Model

Autor(es) e Instituição: 
Themis da Costa Abensur - UFAM
Celso Rômulo Barbosa Cabral - UFAM
José Cardoso Neto - UFAM
Apresentador: 
Themis da Costa Abensur

The traditional regression model with measurement errors assumes normal distributions for the error terms and unobserved latent covariate. These assumptions are not appropriate when asymmetry, outliers, and multi-modality occur simultaneously. We propose a model that presents robustness against violations of these assumptions, assuming that the distribution of the covariate belongs to a highly flexible family of distributions, defined as a finite mixture of skew-normal independent distributions. The model can be applied in many practical situations such as comparative calibration of instruments, where the bias and precision of measurements made using some instruments are
evaluated based on measurements made by a reference one. The main goals are (i) develop algorithms for Bayesian estimation of the parameters of the proposed model; (ii) investigate, through simulation, the performance of the model selection criterion DIC (Deviance Information Criterion) as a suitable method to choose between the different considered models, including the determination of the number of component mixtures and (iii) apply the proposed methodology by considering the analysis of simulated and real data sets.

Resumo estendido: 

Comparação de métodos de estimação em modelos logísticos multiníveis para dados longitudinais: Um estudo de simulação.

Autor(es) e Instituição: 
Renata de Miranda Esquivel- Centro Integrado de Manufatura e Tecnologia (CIMATEC)/ SENAI.
Leila Denise Alves Ferreira Amorim- Departamento de Estatística da UFBA.
Rosemeire Leovigildo Fiaccone -Departamento de Estatística da UFBA.
Apresentador: 
Renata de Miranda Esquivel

O desenvolvimento de métodos estatísticos para análise de dados obtidos em situações em que as observações são dependentes tem apresentado crescimento relevante nas últimas décadas e, em especial, na análise de dados provenientes de estudos longitudinais. No contexto dos modelos multiníveis lineares generalizados (GLMM), a estimação pode ser realizada sob dois enfoques: métodos de aproximação da verossimilhança ou por integração numérica (Hox, 2002). Esse trabalho objetiva comparar a performance dos métodos de estimação disponíveis no software R para o ajuste de modelos logísticos multiníveis na análise de dados longitudinais. Para isto foram conduzidos estudos de simulação, considerando-se diferentes graus de dependência, número de observações repetidas e número de indivíduos. Resultados dos estudos de simulação apontam para diferenças mais acentuadas de performance dos métodos (em termos de vício, variabilidade dos estimadores e probabilidade de cobertura) em situações com reduzido número de mensurações ao longo do tempo e alto coeficiente de correlação intraclasse. Neste caso, alguns métodos produziram estimativas menos viesadas, enquanto outros foram mais acurados. No entanto, o aumento conjunto do número de indivíduos sob estudo e do número de medidas repetidas apontam que a performance destes métodos de estimação tendem a ser muito similares. Neste caso, a escolha do método a ser utilizado no ajuste do modelo logístico multinível dependerá da disponibilidade em software estatístico.

Projeto com financiamento FAPESB, Termo de Outorga nº.0082/2006.

Regressão Logito-Normal

Autor(es) e Instituição: 
Brian Alvarez Ribeiro de Melo - UFSCar
Carlos Alberto Ribeiro Diniz - UFSCar
Apresentador: 
Brian Alvarez Ribeiro de Melo

Neste trabalho propomos o modelo de regressão logito-normal, uma alternativa ao modelo de regressão beta, com a variável resposta também restrita ao intervalo (0, 1) e seguindo distribuição logito-normal. A média e a variância da distribuição logito-normal não possuem formas fechadas e, por esta razão, tais parâmetros são determinados através de funções dos parâmetros da distribuição Normal μ e σ2 Estimação por máxima verossimilhança é utilizada para estimar os coeficientes da regressão.

Resumo estendido: 

Comparação de duas abordagens para análise de curvas de crescimento com variáveis latentes: Avaliação do PIB Baiano

Autor(es) e Instituição: 
Leila Denise A. F. Amorim, Departamento de Estatística - IM/UFBA
Rosemeire L. Fiaccone, Departamento de Estatística - IM/UFBA
Ana Clara Paixão Campos, Iniciação Científica (Cnpq) – IM/UFBA
Lia Terezinha L. P. de Moraes, Departamento de Estatística - IM/UFBA
Apresentador: 
Lia Terezinha L. P. de Moraes

Nas últimas décadas ocorreram avanços consideráveis no desenvolvimento de novas e poderosas metodologias para o estudo de dados longitudinais, com ênfase na avaliação das mudanças ao longo do tempo. Dentre estas metodologias destacam-se modelagem das curvas de crescimento com variáveis latentes, modelagem multinível, modelos de mistura generalizados, equações de estimação generalizadas e a modelagem exploratória do crescimento. As similaridades e diferenças entre essas metodologias tornam importante o entendimento do papel de cada uma delas na análise de dados e a discussão de suas particularidades. O objetivo deste trabalho é comparar e discutir duas abordagens metodológicas para análise de curvas de crescimento ao longo do tempo: os modelos multiníveis (MM) e os modelos de curva de crescimento com variáveis latentes (LGC). Para ilustrar os dois métodos, foram modelados dados, na forma de índices, do Produto Interno Bruto (PIB) para 415 municípios do Estado da Bahia no período entre 1999 e 2007. Os resultados obtidos pelas duas abordagens apontam para estimativas bem próximas. Discussão a respeito das limitações e vantagens de cada uma das metodologias é realizada. Devido aos mais recentes desenvolvimentos teóricos, no entanto, a distinção entre MMs e LGCs tem se tornado tênue, sendo que as duas metodologias tendem a convergir em um curto espaço de tempo.

Pesquisa com financiamento da FAPESB (Termo Outorga n° APR 0434/2008)

Matriz de covariância do estimador de máxima verossimilhança corrigido pelo viés em modelos não-lineares da família exponencial

Autor(es) e Instituição: 
Tiago Maia Magalhães, Depto. de Estatística, Universidade de São Paulo
Denise Aparecida Botter, Depto. de Estatística, Universidade de São Paulo
Mônica Carneiro Sandoval, Depto. de Estatística, Universidade de São Paulo
Apresentador: 
Tiago Maia Magalhães

Neste trabalho obtemos a matriz de covariância assintótica de ordem n^{-2}, onde n é o tamanho da amostra, do estimador de máxima verossimilhança corrigido pelo viés de ordem n^{-1} em modelos não-lineares da família exponencial considerando o parâmetro de precisão conhecido. Avaliamos o resultado obtido por meio de estudos de simulação de Monte Carlo.

Resumo estendido: 

Modelos de regressão para distribuições ZAIG com dados longitudinais: algumas técnicas de diagnóstico

Autor(es) e Instituição: 
Maria Kelly Venezuela - Insper Instituto de Ensino e Pesquisa
Rinaldo Artes - Insper Instituto de Ensino e Pesquisa
Apresentador: 
Maria Kelly Venezuela

A distribuição ZAIG (Zero-adjusted inverse gaussian) é uma distribuição de probabilidade não-negativa e semi-contínua, com probabilidade positiva de assumir o valor zero e que, para valores maiores de zero, comporta-se como uma distribuição normal inversa (Jong & Heller, Generalized Linear Models for Insurance Data, 2008, University Press). Ela tem um grande potencial de aplicabilidade na área financeira, no estudo de perdas devido a não pagamento de dívidas (perda zero indicando o pagamento integral do compromisso) e na área médica, por exemplo, em situações em que se pretende dosar a concentração de uma substância que pode ou não estar presente no sangue. No caso de estudos transversais, a estimação de modelos de regressão para variáveis respostas ZAIG pode ser feita por meio da biblioteca GAMLSS criada para a plataforma R (www.r-project.org).
No presente trabalho, são desenvolvidas técnicas diagnósticas para modelos de regressão para parâmetros de distribuições multivariadas com distribuições marginais ZAIG, estimados por meio de funções de estimação análogas às funções de estimação de independência propostas por Liang & Zeger (Biometrika, 1986). As técnicas de diagnóstico baseiam-se no trabalho de Venezuela (Tese de Doutorado, 2008, IME-USP), que considera equações de estimação para modelos de regressão para dados longitudinais, entretanto, definidas apenas para variáveis respostas continuas. Algumas dessas técnicas são estendidas para o caso em que há mistura de uma distribuição discreta com uma contínua, como é o caso da distribuição ZAIG.
Por fim, será apresentada uma aplicação a um banco de dados real para análise da taxa de mortalidade no trânsito em municípios da região sudeste no período de 2000 a 2002.

Resumo estendido: 

ANÁLISE DE REGRESSÃO LINEAR: ABORDAGEM TRADICIONAL E ESPACIAL EM UM ESTUDO DE CASO

Autor(es) e Instituição: 
Ana Julia Righetto - ESALQ/USP
Vilma Mayumi Tachibana - FCT/UNESP
Apresentador: 
Ana Julia Righetto

Em vários experimentos deseja-se averiguar como uma mudança ocorrida em uma ou mais variáveis, ditas explicativas, afetam outra variável denominada variável resposta. Essa relação funcional entre as variáveis pode ser obtida por uma técnica estatística, muito utilizada ultimamente, denominada análise de regressão. Neste trabalho utilizou-se uma das divisões desta técnica que é análise de regressão linear, que por sua vez é subdividida em linear simples, com apenas uma variável explicativa, e linear múltipla, com duas ou mais variáveis explicativas. Porém, muitas vezes as variáveis possuem uma dependência espacial que é ignorada pela regressão linear clássica. Sendo assim, modelos de regressão espacial podem e devem ser ajustados. Modelos do tipo CAR e do tipo SAR foram estudados. Os dados são referentes aos setores censitários da cidade de Presidente Epitácio – SP; um modelo para explicar a renda dos moradores da cidade, atráves das variáveis explicativas instrução e idade, foi ajustado.

Resumo estendido: 

Predição em Modelos de Tempo de Falha com Efeito Aleatório para Avaliação de Riscos de Falhas em Poços Petrolíferos

Autor(es) e Instituição: 
João Batista Carvalho (UFRN)
Dione Maria Valença (UFRN)
Julio da Motta Singer (IME-USP)
Apresentador: 
João Batista Carvalho

Consideramos técnicas de predição baseadas em modelos de tempo de falha acelerado com efeito aleatório para dados de sobrevivência correlacionados. Além do enfoque bayesiano através do Estimador de Bayes Empírico, também discutimos sobre o uso de um preditor clássico, o Melhor Preditor Linear Não Enviesado Empírico (EBLUP). Para ilustrar a utilização desses preditores, fazemos aplicações a um conjunto de dados reais envolvendo tempos entre falhas de equipamentos de poços petrolíferos da Bacia Potiguar. Nesse contexto, o objetivo é predizer os riscos/probabilidades de falha com a finalidade de subsidiar programas de manutenção preventiva. Os resultados obtidos mostram que ambos os métodos são adequados para prever falhas futuras, proporcionando decisões corretas em relação ao emprego e economia de recursos para manutenção preventiva.

Resumo estendido: 
Divulgar conteúdo