Inferência Estatística
Testes da Razão de Verossimilhanças em Modelos Lineares Mistos
Frequentemente modelos lineares mistos são utilizados para análise de medidas repetidas. Em particular, dados longitudinais podem ser ajustados por tais modelos. Dependendo da quantidade de covariáveis, da estrutura de covariâncias considerada e do tamanho amostral, uma inferência baseada na função de verossimilhança sobre parte do vetor paramétrico pode ser bastante influenciada pelos demais parâmetros desconhecidos como, por exemplo, o teste da razão de verossimilhanças. Neste trabalho consideramos três aperfeiçoamentos deste teste para inferência sobre os efeitos fixos em modelos lineares mistos: correção de Bartlett, um teste baseado no método “bootstrap” e um teste da razão de verossimilhanças perfiladas modificadas. Aqui utilizamos uma aproximação, baseada em Severini (1998), para a modificação da função de verossimilhança perfilada proposta por Barndorff-Nielsen (1983). Simulações de Monte Carlo foram realizadas e, em todos os casos simulados, as taxas de rejeição observadas sob a hipótese nula dos três testes alternativos considerados foram mais próximas dos níveis nominais do que as taxas relativas ao teste usual.
O que você pensa sobre traição? Um estudo sobre infidelidade amorosa dentro da Universidade Federal Fluminense.
É cada vez maior o número de pessoas que iniciam sua vida afetiva de em uma idade mais jovem. Como conseqüência o conceito sobre fidelidade em relacionamentos afetivos parece estar mudando. No entanto, apesar se tratar de um tema indiscutivelmente presente em relações afetivas, não é observado frequentemente a realização de pesquisas que avaliem os entendimentos sobre fidelidade do ponto de vista quantitativo. Dessa forma, esta pesquisa teve como objetivo principal avaliar quantitativamente como, atualmente, o estudante universitário encara a questão da fidelidade em relacionamentos amorosos.
Monotonicidade em Testes de Hipóteses
A maioria dos textos na literatura de testes de hipóteses trata de critérios de otimalidade para um determinado problema de decisão. No entanto, existem, em menor quantidade, alguns textos sobre os problemas de se realizar testes de hipóteses simultâneos e sobre a concordância lógica de suas soluções ótimas.
Algo que se espera de testes de hipóteses simultâneos é que, se uma hipótese $H$ implica uma hipótese $H^\prime$, então é desejável que a rejeição da hipótese $H^\prime$ necessariamente implique na rejeição da hipótese $H$, para uma mesma amostra observada. Essa propriedade é chamada aqui de monotonicidade.
A fim de estudar essa propriedade sob um ponto de vista mais geral, neste trabalho é definida a noção de classe de testes de hipóteses, que estende a função teste para uma sigma-álgebra de possíveis hipóteses nulas, e introduzida uma definição de monotonicidade.
Também é mostrado, por meio de alguns exemplos simples, que, para um nível de significância fixado, a classe de testes Razão de Verossimilhanças Generalizada (RVG) não apresenta monotonicidade, ao contrário de testes formulados sob a perspectiva bayesiana, como o teste de Bayes baseado em probabilidades a posteriori e o FBST.
Por fim, são verificadas, sob a teoria da decisão, quando possível, condições suficientes para que uma classe de testes de hipóteses tenha monotonicidade.
Regressão logística binária com resposta pertencente a família exponencial
Em diversas situações a variável resposta binária tem uma distribuição discreta ou contínua. Nesse trabalho apresentamos a metodologia proposta por Suissa e Blais (1995) para o contexto da família exponencial. Apresentamos a construção e o desenvolvimento dos modelos para alguns casos particulares, incorporando a informação sobre a distribuição original da variável resposta. Fazemos vários estudos de simulação comparando o modelo de regressão logística com a informação da distribuição de origem e o modelo de regressão logística usual. Assumindo uma distribuição corretamente especificada, a incorporação desta informação sobre a variável resposta no modelo produz estimativas de máxima verossimilhança mais eficientes. Como aplicação fazemos um estudo com dados artificiais onde aplicamos o modelo de regressão logística com resposta pertencente a família exponencial comparando com o modelo de regressão logística usual. Consideramos os modelos normal, log-normal e exponencial.
Testes de hipóteses em eleições majoritárias
O problema de inferência sobre uma proporção, amplamente divulgado na literatura estatística, ocupa papel central no desenvolvimento das várias teorias de Inferência Estatística e, invariavelmente, é objeto de investigação e discussão em estudos comparativos entre as diferentes escolas de Inferência. Ademais, a estimação de proporções, bem como teste de hipóteses para proporções, é de grande importância para as diversas áreas do conhecimento, constituindo um método quantitativo simples e universal. Nesse trabalho, é feito um estudo comparativo entre as abordagens clássica e bayesiana do problema de testar as hipóteses de ocorrência ou não de 2º turno em um cenário típico de eleição majoritária (maioria absoluta) em dois turnos no Brasil.
Uso da distribuição geométrica para modelagem de dados de contagem com excesso de zeros em finanças
Em finanças, dados de contagem com excesso de zeros, como por exemplo a variável resposta "tempo em dias entre o pagamento da fatura do cartão e seu vencimento" pode ser modelado segundo uma distribuição geométrica. Em geral, dados financeiros dessa natureza apresentam uma grande quantidade de zeros observados, pois a grande maioria dos clientes efetuam o pagamento dentro do prazo de vencimento. Nesse trabalho fazemos um estudo com dados virtuais de finanças com excesso de zeros em que analisamos o desempenho do modelo logístico e do modelo logístico com resposta geométrica. Aspectos sobre probabilidade de cobertura de ambos os modelos são abordados.
Respostas dicotômicas oriundas da distribuição Gaussiana com estrutura heteroscedástica multiplicativa
A regressão logística binária é indicada quando a variável resposta de interesse é dicotômica, isto é, quando a variável resposta assume apenas dois valores possíveis. Porém, em muitas situações práticas pode ocorrer que a variável resposta binária tenha uma distribuição original pertencente a alguma classe de distribuições, sejam elas discretas ou contínuas. Em outras palavras, a variável resposta tem uma distribuição original que não a de Bernoulli e, por algum motivo, tal variável foi posteriormente dicotomizada considerando um ponto de corte C arbitrário. Nesse sentido a regressão logística pode incorporar a informação sobre a distribuição original da variável resposta no ajuste do modelo logístico usual. Nesse trabalho assumimos que a variável resposta binária seja oriunda da distribuição normal em uma estrutura heteroscedástica.
An Alternative Class of Multivariate Scale Mixtures of Skew-Normal Distributions
The normal distribution is a routine assumption for the analysis of real data, but it may be unrealistic specially when the data present strong skewness, as well as heavy tails. Following Branco & Dey (2001) and Arellano-Valle et al. (2007), this article develops a new class of multivariate scale mixtures of skew-normal distributions which includes the skew-normal (and the normal) distribution as a special case. The main advantage of these class of distributions is that they have a nice hierarchical representation that allows the implementation of Markov chain Monte Carlo (MCMC) methods to simulate samples from the joint posterior distribution. Analytical forms of the densities are obtained and distributional properties of the proposed class are also studied. In order to examine the robust aspects of this flexible class, against outlying and influential observations, we present a Bayesian case deletion influence diagnostics based on the Kullback-Leibler divergence. Results obtained from simulated and real data sets are reported illustrating the usefulness of the proposed methodology.
Aplicação de árvores de contexto probabilísticas para classificação de textos do Corpus Histórico do Português Tycho Brahe
O Corpus Histórico do Português Tycho Brahe é um corpus eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1435 e 1845 e está disponível para pesquisadores, gratuitamente, para fins acadêmicos e pedagógicos. Ele é desenvolvido junto ao projeto temático Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística.
O trabalho consiste na modelagem probabilística do Corpus Histórico e utilizamos árvores de sufixo probabilísticas que foram introduzidas por Rissanem em 1983, no caso de árvores finitas. Em seu trabalho ele não apenas introduz o modelo como também propõe um algoritmo para estimar as árvores de contexto dada uma amostra. Em seu artigo ele apresenta uma prova da consistência (fraca) do algoritmo no caso de uma árvore fixa. Em nosso trabalho, generalizamos este resultado para o caso de uma árvore probabilística ilimitada.
Recentemente, árvores de sufixo probabilísticas se tornaram populares na literatura estatística com o nome de variable length Markov chains utilizado por Buhlman e Wyner (1999). Eles provaram a consistência de uma variante do algoritmo de contexto para árvores finitas permitindo que a altura da árvore crescesse com o tamanho da amostra. Árvores probabilísticas ilimitadas definem uma interessante família de cadeias estocásticas de ordem infinita em um alfabeto finito. A idéia é que para cada passado, apenas um sufixo finito do passado (sequência finita de símbolos), chamada de contexto é suficiente para predizer o próximo símbolo. Esses sufixos podem ser representados por uma árvore enumerável completa de contextos finitos na qual existe uma probabilidade de transição associada a cada contexto.
Agradecemos o apoio da FAPEMIG na realização do projeto.
Nonparametric Frontier Modelling: A Novel Inference Approach
In this paper we consider the estimation of a nonparametric frontier model first proposed in Martins-Filho and Yao (2007). We improve their estimation procedure by adopting a variant of the local exponential smoothing introduced in Ziegelmann (2002). Our estimator is shown to be consistent and asymptotically normal under mild regularity conditions. In addition, due to local exponential smoothing, potential negativity of conditional variance functions that may hinder the use of Martins-Filho and Yao's estimator is avoided. A Monte Carlo study is performed to contrast our estimator performance with that of the estimator proposed in Martins-Filho and Yao (2007). We find that there can be significant improvements in finite sample performance when using exponential smoothing in this context.