Ciências Exatas e da Terra
Mineração de Informações em Dados Não Regulares
Por mais simples que seja a análise de dados, sua viabilidade e sucesso depende não só da habilidade do estatístico mas também, em muito, dos recursos computacionais disponíveis. Muitos métodos importantes de análise só tiveram sucesso --- tornaram-se populares --- graças ao advento destes recursos. Dentre estes pode-se citar os métodos de reamostragem (Bootstrap, Jackknife, Cross-validation, Permutation tests), MCMC, redes neurais, Data Mining dentre outros. Nos últimos 20 anos uma infinidade de softwares tornaram-se disponíveis para o processamento e análises de dados - Lisp Perl , Python, Ox, R, SAS, S-Plus etc. Com o surgimento destes softwares, com linguagens próprias de programação, dados antes na condição de não analizáveis passaram a ser analisados. Como exemplo, considere a tarefa de obter informação, de qualidade e relevância, a partir de textos ou de dados não estruturados, semi-estruturados ou ainda não regulares. Este trabalho surgiu de uma aplicação real onde o objetivo era a extração de informações de uma base de dados formada por anúncios - classificados - de vendas de imóveis na cidade de Maringá. Informações extraídas da base de anúncios tais como valor anunciado do imóvel, localização, metragem, número de cômodos etc., foram utilizadas para traçar o perfil do mercado imobiliário da cidade. Outras informações pertinentes a base foram usadas para se criar um possível modelo de precificação. A mineração em texto utilizou o que se chama em computação de expressões regulares.
Precise Testing for Hardy-Weinberg Equilibrium in a Biological Population: An Objective Bayesian Analysis
Many of the problems which traditionally have been formulated in terms of hypothesis testing are really complex decision problems on model choice, whose appropriate solution naturally depends on the structure of the problem. In this paper a probability model for the formation of genotypes from two alleles is given and expressed in terms of two parameters, $\alpha$ and $\beta$ ; $\alpha=0$ corresponding to Hardy-Weinberg equilibrium (Lindley, 1988). A particular scientific hypothesis of genetical equilibrium is discussed, special attention is paid to considering that in some genetical applications the proportion of \textbf{A} alleles is known fairly precisely before sampling, the posterior distribution of $\alpha$ considering $\beta$ known is found providing estimation of $\alpha$. The corresponding precise hypothesis testing problem is considered from a decision-theoretical viewpoint, where the null hypothesis is rejected if the null model is expected to be too far from the true model in the logarithmic divergence (Kullback-Leibler) sense. The results are illustrated using examples with data previously analyzed in the literature
Modeling Bivariate Survival Data Based on Copulas
We propose the use of long-term models as marginal distributions of bivariate survival times with dependence function modeled by copulas, obtaining a straightforwardly extension of the model proposed by Romeo et al (2006) and a more appropriate model for The Diabetic Retinopathy Study Research Group (1976) data.
Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB.
Neste trabalho será abordado uma aplicação do Modelo Poisson padrão e dos Modelos Inflacionados de Zeros para dados de contagem, Zero Inflated Poisson - ZIP e Zero Inflated Negative Binomial - ZINB, utilizando-se as técnicas dos MLG’s através de um conjunto de dados reais, onde algumas alterações foram implementadas no conjunto de dados a fim de aplicar os modelos supracitados. Após a realização dos ajustes uma análise de diagnóstico é discutida para verificar possíveis transgressões aos ajustes dos modelos considerados juntamente com a análise gráfica para verificar a adequabilidade dos modelos em questão em relação a variável de interesse no estudo, o número de abelhas que coletam polens no decorrer do dia.
Modelos de regressão para distribuições ZAIG com dados longitudinais: algumas técnicas de diagnóstico
A distribuição ZAIG (Zero-adjusted inverse gaussian) é uma distribuição de probabilidade não-negativa e semi-contínua, com probabilidade positiva de assumir o valor zero e que, para valores maiores de zero, comporta-se como uma distribuição normal inversa (Jong & Heller, Generalized Linear Models for Insurance Data, 2008, University Press). Ela tem um grande potencial de aplicabilidade na área financeira, no estudo de perdas devido a não pagamento de dívidas (perda zero indicando o pagamento integral do compromisso) e na área médica, por exemplo, em situações em que se pretende dosar a concentração de uma substância que pode ou não estar presente no sangue. No caso de estudos transversais, a estimação de modelos de regressão para variáveis respostas ZAIG pode ser feita por meio da biblioteca GAMLSS criada para a plataforma R (www.r-project.org).
No presente trabalho, são desenvolvidas técnicas diagnósticas para modelos de regressão para parâmetros de distribuições multivariadas com distribuições marginais ZAIG, estimados por meio de funções de estimação análogas às funções de estimação de independência propostas por Liang & Zeger (Biometrika, 1986). As técnicas de diagnóstico baseiam-se no trabalho de Venezuela (Tese de Doutorado, 2008, IME-USP), que considera equações de estimação para modelos de regressão para dados longitudinais, entretanto, definidas apenas para variáveis respostas continuas. Algumas dessas técnicas são estendidas para o caso em que há mistura de uma distribuição discreta com uma contínua, como é o caso da distribuição ZAIG.
Por fim, será apresentada uma aplicação a um banco de dados real para análise da taxa de mortalidade no trânsito em municípios da região sudeste no período de 2000 a 2002.
Computational Tools for Comparing Asymmetric GARCH Models via Bayes Factors
In this paper we use Markov chain Monte Carlo (MCMC) methods in order to estimate and compare GARCH models from a Bayesian perspective. We allow for possibly heavy tailed and asymmetric distributions in the error term. We use a general method proposed in the literature to introduce skewness into a continuous unimodal and symmetric distribution. For each model we compute an approximation to the marginal likelihood, based on the MCMC output. From these approximations we compute Bayes Factors and posterior model probabilities.
ANÁLISE DE REGRESSÃO LINEAR: ABORDAGEM TRADICIONAL E ESPACIAL EM UM ESTUDO DE CASO
Em vários experimentos deseja-se averiguar como uma mudança ocorrida em uma ou mais variáveis, ditas explicativas, afetam outra variável denominada variável resposta. Essa relação funcional entre as variáveis pode ser obtida por uma técnica estatística, muito utilizada ultimamente, denominada análise de regressão. Neste trabalho utilizou-se uma das divisões desta técnica que é análise de regressão linear, que por sua vez é subdividida em linear simples, com apenas uma variável explicativa, e linear múltipla, com duas ou mais variáveis explicativas. Porém, muitas vezes as variáveis possuem uma dependência espacial que é ignorada pela regressão linear clássica. Sendo assim, modelos de regressão espacial podem e devem ser ajustados. Modelos do tipo CAR e do tipo SAR foram estudados. Os dados são referentes aos setores censitários da cidade de Presidente Epitácio – SP; um modelo para explicar a renda dos moradores da cidade, atráves das variáveis explicativas instrução e idade, foi ajustado.
O ENSINO SOBRE A CONCEPÇÃO FREQUENTISTA DE PROBABILIDADE ESTRUTURADO NA SIMULAÇÃO COMPUTACIONAL
O texto trata sobre uma implementação computacional, que pode ser utilizada como ferramenta no ensino de probabilidade frequentista, fazendo uma simulação é possível estabelecer relação entre prática e teoria, melhorando o entendimento sobre a ocorrência natural dos eventos.
Range Control Charts Revisited : Simpler Tippett-like Formulae , It's Practical Implementation and the Study of False Alarm
This paper presents simpler alternative formulae and procedures of implementation to deal with the relative range statistic used in the construction of range control charts for process dispersion monitoring . The Tippett's integral formulae are revisited and simpler alternative expressions are proposed together with an easy computational implementation procedure based on it's relation with the Tukey maximum studentized range statistic . Also , these methods are applied in the assessment of the range chart performance considering false alarm comparison between exact control limits charts versus normal approximated versions , which show the serious drawbacks of such misplaced control limits . These tools introduced here , we believe , will permit the presentation of R control charts more transparently and without unrealistic normal approximations or blind dependence on tables , avoiding the serious limitations of such "ad hoc" practice .
Avaliar o método de Shannon e sua aplicação no processamento de imagens funcionais por ressonância magnética.
Este trabalho tem como objetivo avaliar as funcionalidades do método de Shannon e sua aplicação no processamento de imagens funcionais por ressonância magnética (FMRI), Já que, este método trabalha com análise de sinais, baseada em uma medida de informação dependente do tempo, já o Modelo Linear Geral (General Linear Model), em FMRI, modela as variações das séries temporais em termos da combinação linear de matrizes referência. A partir dessa abordagem, analisam-se os resultados desses métodos, no qual serão comparados, e verificar-se-á, dentre os quais, a importância de cada método (entropia de Shannon e GLM) no processo de FMRI, para ajudar na interpretação visual das imagens.