Modelos Lineares, MLG e outros modelos não-lineares

Viés da regressão logística multinomial para estimar risco relativo ou razão de prevalência e alternativas

Autor(es) e Instituição: 
Suzi Camey
Vanessa B Leotti Torman
Vânia Hirakata
Renan Xavier Cortes
Álvaro Vigo
Apresentador: 
Suzi Camey

Recentes trabalhos têm enfatizado que já não há justificativa para a utilização da razão de chances (RC), como aproximação do risco relativo (RR) ou razão de prevalências (RP). A principal motivação é se evitar interpretações equivocadas da RC como RR ou RP, uma vez que vários estudos demonstraram que a RC não é uma boa aproximação para estas medidas quando o desfecho é comum (>10%). Para desfechos multinomiais é usual utilizar a Regressão Logística Multinomial. Neste contexto, porém, não há estudos demonstrando o impacto da aproximação da RC, obtida pela mesma, nas estimativas de RR ou RP. Objetivo: apresentar e discutir métodos alternativos à regressão logística multinomial, baseados na regressão de Poisson e no modelo log-binomial, para estimar RR ou RP. Metodologia: comparar as abordagens através de um estudo de simulação em diversos cenários. Resultados: Assim como no caso do desfecho binário, os modelos log-binomial e regressão de Poisson com variância robusta apresentaram estimativas mais precisas e acuradas para o RR ou RP. Conclusão: Os resultados das simulações evidenciaram que as abordagens propostas no trabalho permitem estimar RR ou RP com relativa acurácia e precisão. A comparação entre as estimativas obtidas evidenciou que para desfechos multinomiais RC não deve ser utilizada como aproximação do RR ou RP, pois podem levar a conclusões incorretas.

A Bayesian Skew-Normal Independent Mixture Measurement Error Model

Autor(es) e Instituição: 
Themis da Costa Abensur - UFAM
Celso Rômulo Barbosa Cabral - UFAM
José Cardoso Neto - UFAM
Apresentador: 
Themis da Costa Abensur

The traditional regression model with measurement errors assumes normal distributions for the error terms and unobserved latent covariate. These assumptions are not appropriate when asymmetry, outliers, and multi-modality occur simultaneously. We propose a model that presents robustness against violations of these assumptions, assuming that the distribution of the covariate belongs to a highly flexible family of distributions, defined as a finite mixture of skew-normal independent distributions. The model can be applied in many practical situations such as comparative calibration of instruments, where the bias and precision of measurements made using some instruments are
evaluated based on measurements made by a reference one. The main goals are (i) develop algorithms for Bayesian estimation of the parameters of the proposed model; (ii) investigate, through simulation, the performance of the model selection criterion DIC (Deviance Information Criterion) as a suitable method to choose between the different considered models, including the determination of the number of component mixtures and (iii) apply the proposed methodology by considering the analysis of simulated and real data sets.

Resumo estendido: 

Modelos Simétricos versus Regressão Kernel: Uma aplicação em Ciências Florestais

Autor(es) e Instituição: 
Luiz Medeiros de Araujo Lima Filho - UFRPE/ UFPB
Marcelo Rodrigo Portela Ferreira - UFPB
Juliana Freitas Pires - UFPB
José Antônio Aleixo da Silva - UFRPE
Apresentador: 
Luiz Medeiros de Araujo Lima Filho

O Pólo Gesseiro do Araripe em Pernambuco é um grande consumidor de madeira para produção de gesso. Devido à grande necessidade de se buscar uma alternativa econômica e ambiental para a região é de interesse obter uma produção sustentável para o Eucalyptus ssp, uma vez que esta é um gênero de rápido crescimento e grande versatilidade. No planejamento do manejo florestal sustentado uma variável é de extrema importância: o crescimento. Sua modelagem é fundamental na prognose da produtividade, qualidade do local e dinâmica de populações. Geralmente, as curvas de crescimento são estudadas por meio de modelos não-lineares desenvolvidos empiricamente para relacionar, por exemplo, altura e idade. Um modelo não-linear bastante utilizado na prática para modelar curvas de crescimento é o modelo de Chapman-Richards. Em estudos deste tipo, em geral, assume-se que os erros seguem distribuição normal. Contudo, a modelagem sob a suposição de erros com distribuição normal é bastante sensível a valores atípicos que por ventura possam ocorrer, podendo distorcer as estimativas dos parâmetros. Uma alternativa para corrigir esse problema é adotar distribuições mais robustas que a distribuição normal. Desta forma, a classe de modelos simétricos se torna uma alternativa viável para corrigir tal problema. A classe dos modelos não paramétricos pode também ser considerada como uma alternativa viável, visto que muitas vezes as suposições feitas acerca da distribuição dos erros e da forma funcional do modelo podem ser muito restritivas ou até mesmo inadequadas. A idéia em regressão não paramétrica é estimar a relação entre a variável resposta e um conjunto de variáveis independentes diretamente dos dados, ao invés de estimar parâmetros. Neste trabalho, com a expectativa de obter melhores estimativas de crescimento em altura de Eucalyptus ssp, consideraremos os modelos simétricos, bem como o modelo de regressão não paramétrica via funções kernel. Para os modelos simétricos aplicaram-se ao modelo de Chapman-Richards as seguintes distribuições: normal, t de Student, Cauchy, exponencial potência e logística II. Dentre os modelos paramétricos, o modelo simétrico com distribuição Exponencial Potência e Logística II, de acordo com os critérios utilizados, foram os que apresentaram melhores estimativas de crescimento em altura de Eucalyptus ssp no Pólo Gesseiro de Pernambuco. Em contrapartida, o modelo de regressão kernel foi aplicado aos dados e apresentou melhores estimativas em comparação com os modelos paramétricos.

Resumo estendido: 

Comparação de Retas de Regressão em Dados de Microarray

Autor(es) e Instituição: 
Cleber Martins Xavier
Gustavo H. Esteves
Apresentador: 
Cleber Martins Xavier

No contexto da biologia molecular, a análise de dados de microarray tem sido usada extensivamente ao longo dos últimos anos. Esta técnica experimental possibilita o estudo dos níveis de expressão de milhares de genes simultaneamente para diferentes tipos de tecidos biológicos, e a análise de dados obtidos através desta técnica depende fortemente de modelos matemáticos e estatísticos adequados. Dentre estes métodos de análise destaca-se a construção de redes de relevância, através da comparação de valores de correlação ou informação mútua, para se estimar a associação funcional entre dois genes distintos. Este trabalho visa testar a utilização de modelos de regressão linear no lugar destas medidas de associação, com o intuito principal de aprimorar este método de análise para dados de microarray, bem implementar os avanços obtidos no software de programação estatística R.

Resumo estendido: 

Comparação de métodos de estimação em modelos logísticos multiníveis para dados longitudinais: Um estudo de simulação.

Autor(es) e Instituição: 
Renata de Miranda Esquivel- Centro Integrado de Manufatura e Tecnologia (CIMATEC)/ SENAI.
Leila Denise Alves Ferreira Amorim- Departamento de Estatística da UFBA.
Rosemeire Leovigildo Fiaccone -Departamento de Estatística da UFBA.
Apresentador: 
Renata de Miranda Esquivel

O desenvolvimento de métodos estatísticos para análise de dados obtidos em situações em que as observações são dependentes tem apresentado crescimento relevante nas últimas décadas e, em especial, na análise de dados provenientes de estudos longitudinais. No contexto dos modelos multiníveis lineares generalizados (GLMM), a estimação pode ser realizada sob dois enfoques: métodos de aproximação da verossimilhança ou por integração numérica (Hox, 2002). Esse trabalho objetiva comparar a performance dos métodos de estimação disponíveis no software R para o ajuste de modelos logísticos multiníveis na análise de dados longitudinais. Para isto foram conduzidos estudos de simulação, considerando-se diferentes graus de dependência, número de observações repetidas e número de indivíduos. Resultados dos estudos de simulação apontam para diferenças mais acentuadas de performance dos métodos (em termos de vício, variabilidade dos estimadores e probabilidade de cobertura) em situações com reduzido número de mensurações ao longo do tempo e alto coeficiente de correlação intraclasse. Neste caso, alguns métodos produziram estimativas menos viesadas, enquanto outros foram mais acurados. No entanto, o aumento conjunto do número de indivíduos sob estudo e do número de medidas repetidas apontam que a performance destes métodos de estimação tendem a ser muito similares. Neste caso, a escolha do método a ser utilizado no ajuste do modelo logístico multinível dependerá da disponibilidade em software estatístico.

Projeto com financiamento FAPESB, Termo de Outorga nº.0082/2006.

Regressão Logito-Normal

Autor(es) e Instituição: 
Brian Alvarez Ribeiro de Melo - UFSCar
Carlos Alberto Ribeiro Diniz - UFSCar
Apresentador: 
Brian Alvarez Ribeiro de Melo

Neste trabalho propomos o modelo de regressão logito-normal, uma alternativa ao modelo de regressão beta, com a variável resposta também restrita ao intervalo (0, 1) e seguindo distribuição logito-normal. A média e a variância da distribuição logito-normal não possuem formas fechadas e, por esta razão, tais parâmetros são determinados através de funções dos parâmetros da distribuição Normal μ e σ2 Estimação por máxima verossimilhança é utilizada para estimar os coeficientes da regressão.

Resumo estendido: 

Comparação de duas abordagens para análise de curvas de crescimento com variáveis latentes: Avaliação do PIB Baiano

Autor(es) e Instituição: 
Leila Denise A. F. Amorim, Departamento de Estatística - IM/UFBA
Rosemeire L. Fiaccone, Departamento de Estatística - IM/UFBA
Ana Clara Paixão Campos, Iniciação Científica (Cnpq) – IM/UFBA
Lia Terezinha L. P. de Moraes, Departamento de Estatística - IM/UFBA
Apresentador: 
Lia Terezinha L. P. de Moraes

Nas últimas décadas ocorreram avanços consideráveis no desenvolvimento de novas e poderosas metodologias para o estudo de dados longitudinais, com ênfase na avaliação das mudanças ao longo do tempo. Dentre estas metodologias destacam-se modelagem das curvas de crescimento com variáveis latentes, modelagem multinível, modelos de mistura generalizados, equações de estimação generalizadas e a modelagem exploratória do crescimento. As similaridades e diferenças entre essas metodologias tornam importante o entendimento do papel de cada uma delas na análise de dados e a discussão de suas particularidades. O objetivo deste trabalho é comparar e discutir duas abordagens metodológicas para análise de curvas de crescimento ao longo do tempo: os modelos multiníveis (MM) e os modelos de curva de crescimento com variáveis latentes (LGC). Para ilustrar os dois métodos, foram modelados dados, na forma de índices, do Produto Interno Bruto (PIB) para 415 municípios do Estado da Bahia no período entre 1999 e 2007. Os resultados obtidos pelas duas abordagens apontam para estimativas bem próximas. Discussão a respeito das limitações e vantagens de cada uma das metodologias é realizada. Devido aos mais recentes desenvolvimentos teóricos, no entanto, a distinção entre MMs e LGCs tem se tornado tênue, sendo que as duas metodologias tendem a convergir em um curto espaço de tempo.

Pesquisa com financiamento da FAPESB (Termo Outorga n° APR 0434/2008)

MODELO FUZZY E MODELO DE REGRESSÃO LOGÍSTICA PARA TOMADA DE DECISÃO NA CLASSIFICAÇÃO DE OBESIDADE.

Autor(es) e Instituição: 
Diego Augusto Queijo
Liciana Vaz de Arruda Silveira
Lia Thieme Oikawa Zangirolani
Apresentador: 
Diego Augusto Queijo

Obesidade é comumente definida como um excesso de gordura corporal, porém diante da dificuldade em mensurar tal gordura diretamente, esta tem sido definida como um excesso de peso mais do que um excesso de gordura corporal, que tem como desdobramento a ocorrência de doenças associadas e/ou prejuízos à saúde do indivíduo. Atualmente, o excesso de massa corpórea é verificado por meio de um Índice de Massa Corpórea (IMC), que considera o quociente entre o peso corporal (kg) e a estatura elevada ao quadrado (m²). Indivíduos com sobrepeso apresentam IMC de 25 até 29,9 Kg/m², e com obesidade apresentam IMC de 30 Kg/m² ou mais, de acordo com a OMS. A identificação das causas da obesidade não é trivial e objetiva. Especialistas reconhecem que a obesidade é uma doença crônica, de difícil tratamento, denominada multifatorial, envolvendo em sua gênese diversos aspectos, entre eles: o consumo alimentar, aspectos ambientais, genéticos, psicossociais, entre outros. O objetivo deste trabalho foi modelar a presença de obesidade sobre o enfoque da teoria dos conjuntos Fuzzy, levando em conta a comparação de dois parâmetros: a porcentagem de gordura corporal e a relação cintura quadril, para tomada de decisão da classificação da obesidade.

Resumo estendido: 

Aproximação de Monte Carlo para a Verossimilhança de um Modelo Linear Generalizado Misto

Autor(es) e Instituição: 
Bernardo Borba de Andrade, Univ de Brasilia
Charles James Geyer, Univ of Minnesota
Apresentador: 
Bernardo Borba de Andrade

Apresentamos um algoritmo para simulação da verossimilhança de um modelo linear generalizado misto (MLGM). O algoritmo se baseia no método de umbrella sampling via MCMC. Versões de Monte Carlo para o EMV e outras estatísticas baseadas na verossimilhança simulada são apresentados. A principal motivação é a dificuldade em se obter a verossimilhança exata para MLGMs devido a necessidade de integração multidimensional. Outros métodos computacionalmente intensivos, como aproximação estocástica e MCEM, são brevemente discutidos.

Trabalho completo: 

Matriz de covariância do estimador de máxima verossimilhança corrigido pelo viés em modelos não-lineares da família exponencial

Autor(es) e Instituição: 
Tiago Maia Magalhães, Depto. de Estatística, Universidade de São Paulo
Denise Aparecida Botter, Depto. de Estatística, Universidade de São Paulo
Mônica Carneiro Sandoval, Depto. de Estatística, Universidade de São Paulo
Apresentador: 
Tiago Maia Magalhães

Neste trabalho obtemos a matriz de covariância assintótica de ordem n^{-2}, onde n é o tamanho da amostra, do estimador de máxima verossimilhança corrigido pelo viés de ordem n^{-1} em modelos não-lineares da família exponencial considerando o parâmetro de precisão conhecido. Avaliamos o resultado obtido por meio de estudos de simulação de Monte Carlo.

Resumo estendido: 
Divulgar conteúdo