Estatística Computacional
R é confiável para estatística computacional?
Este trabalho avalia a precisão numérica da plataforma R em duas arquiteturas de processador (i386 e amd386), rodando sistemas operacionais Microsoft Windows 7, GNU/Linux Ubuntu 9.10 e MAC OS X Leopard (este último apenas em i386).
A avaliação consiste em calcular os valores da média, do desvio padrão, da correlação de primeira ordem e o estatístico F de ANOVA, empregando conjuntos de dados com comportamento conhecidamente problemático.
Os valores reportados por R são contrastados com outros certificados, e o número de dígitos significativos corretos é informado para cada situação.
Com excepção de uma situação onde R é incapaz de produzir resultados aceitáveis, esta plataforma se mostra precisa e portável, duas propriedades essenciais em estatística computacional.
Reconstrução de sinais em Redes de Sensores sem Fios com técnicas de geoestatística
As Redes de Sensores sem Fios (RSsF) são conjuntos de dispositivos que obtêm amostras de fenômenos ambientais, sejam eles naturais (como, por exemplo, temperatura, pressão atmosférica, intensidade de iluminação, concentração de substâncias em cursos d’água) ou antrópicos (qualidade do ar em sinais de trânsito, pressão ao longo de um oleoduto). Esses dispositivos têm despertado muito interesse, tanto pelas suas potenciais aplicações quanto pelos desafios teóricos e tecnológicos que seu uso otimizado oferece. O objetivo deste trabalho trata da análise da reconstrução de sinais nessas redes, com base em técnicas de geoestatística. Analizam-se três processos de kriging: simples (três variantes), ordinário e bayesiano (duas variantes). Leva-se em consideração o processo de agrupamento dos nós sensores, com simulações sem agrupamento e com os sensores agrupados pelos algoritmos LEACH e SKATER. O algoritmo de kriging bayesiano apresenta os melhores resultados qualitativos na maioria dos casos, mas se torna inviável para sistemas que necessitem de respostas rápidas. Nesses casos, recomenda-se o algoritmo de kriging ordinário.
Autenticação Pessoal Baseada na Análise da Dinâmica da Digitação por Métodos Estatísticos
Este trabalho apresenta resultados de autenticação biométrica via Dinâmica da Digitação na Web, onde pretende-se identificar uma pessoa pelo seu ritmo habitual de digitar uma senha em um teclado convencional usando métodos estatísticos. Os resultados mostram que o uso da Dinâmica da Digitação é simples e eficiente para autenticação pessoal, obtendo melhores resultados usando quinze amostras por Modelo com taxas de falsa rejeição de 4,26% e de falsa aceitação de 1,80%. Estas taxas de erros são aceitáveis, visto que um usuário impostor que conheça a informação alvo de um usuário autêntico terá acesso às informações como: contas bancárias, cartões de créditos, e aplicações industriais, dentre outras.
Modelo multidimensional de resposta ao item: estimação bayesiana e MCMC
Este trabalho tem como propósito a obtenção das estimativas dos parâmetros dos itens e dos factores latentes do modelo da Teoria de Resposta ao Item multidimensional logístico de dois parâmetros conjugando a estimação bayesiana com o uso de métodos de simulação Markov Chain Monte Carlo. Em particular, usa-se o algoritmo de Metropolis-Hastings com passos de Gibbs. Todas as etapas do algoritmo e respectiva fundamentação matemática apresentam-se e ilustram-se com recurso a computação desenvolvida em Matlab. Para testar o algoritmo proposto utilizam-se dados simulados, considerando que o factor latente afere 2 e 3 dimensões. Usa-se o critério de informação AIC para identificar o número de factores que melhor se ajusta aos dados. Para comparar as estimativas dos parâmetros obtidas pela aplicação do modelo com os valores verdadeiros utilizam-se as estatísticas: correlação de Pearson, Erro Absoluto Médio e Erro Quadrático Médio.
Uso do Teste de Aleatorização na Análise das Séries Temporais
Muitas vezes o pesquisador tem interesse em saber se existe tendência em uma série temporal. Uma maneira de verificar essa tendência é através dos mínimos quadrados, mas nem sempre os dados apresentam os pressupostos para utilizar esta técnica. Quando os pressupostos não são atendidos, uma alternativa é verificar a tendência através do teste de aleatorização, que indica se existe ou não algum padrão nos os dados. Para rejeitar a hipótese nula usamos o p-valor que é calculado a partir da proporção de vezes que a estatística de teste após a aleatorização é maior que a estatística obtida com os dados originais. Se o p-valor for menor que o nível de significância, rejeita-se a hipótese nula. Para ilustrar este teste foi feito um experimento ao longo de um mês com o objetivo de verificar se existe tendência no crescimento da planta. Após 10.000 aleatorizações, verificou-se que p-valor=0,023, logo, rejeita-se a hipótese nula, portanto, existe tendência na série.
Uso do teste de aleatorização para comparar dois grupos considerando teste não paramétrico
Muitas vezes o pesquisador está interessado em comparar médias ou a forma da distribuição de dois grupos. Uma maneira para compará-los seria aplicando testes paramétricos, tais como o Teste T ou Teste Z (no caso de duas amostras independentes) ou o Teste T pareado. Porém, tais testes apresentam certas exigências que freqüentemente podem não ser atendidas. Neste caso, é indicada a utilização de testes não paramétricos ou o teste de aleatorização. Este teste é baseado na suposição de que, se a hipótese nula é verdadeira, todas as possíveis ordens dos dados são igualmente prováveis. O teste de aleatorização é um procedimento em que se comparam valores de uma estatística observada para os dados no arranjo original com os valores desta estatística após a aleatorização das observações. A regra de decisão é baseada no p-valor - proporção de vezes em que a estatística de teste com os aleatorizados é maior ou igual a estatística de teste com os dados do arranjo original. Se o p-valor for menor que o nível de significância, rejeita-se Ho. É importante escolher adequadamente a estatística de teste e como neste estudo foram comparadas as médias de duas amostras independentes e pequenas e as exigências para o uso de testes paramétricos não foram atendidas, a estatística utilizada foi a do teste não paramétrico Wilcoxon-Mann-Whitney. Dentre as vantagens em se utilizar o teste de aleatorização, destaca-se o uso em amostras não aleatórias e/ou amostras pequenas, porém seu resultado não pode ser generalizado para a população. Observa-se ainda que o teste de aleatorização não apresenta tantas exigências quanto os métodos convencionais. Para ilustração deste teste foi utilizado um conjunto de dados de plantas de milho, em que as variáveis estudadas foram as alturas da plantas. Essas alturas foram medidas no vigésimo dia após sua germinação. Foram cultivadas quatro plantas à sombra e cinco ao sol e o objetivo foi verificar se o ambiente à sombra ou ao sol influencia em seu crescimento. Após a aplicação do teste de aleatorização considerando a estatística do teste de Wilcoxon-Mann-Whitney e 10.000 aleatorizações obteve-se p-valor=0,9666. Como este valor é maior que o nível de significância (alfa=0,05), então não há evidências suficientes para rejeitar Ho, ou seja, as amostras são provenientes da mesma população, o que equivale a afirmar que há evidencias de que o ambiente não influencia no crescimento das plantas.
APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS
O princípio de qualidade e desenvolvimento de qualquer instituição está intrinsecamente ligado à prática constante de avaliação da mesma e tomada de decisões diante dos resultados obtidos. Considerando especialmente Instituições de Ensino Superior, geradoras nacionais de conhecimento, a prática da avaliação deve ser prioridade a fim de garantir a formação de profissionais qualificados. Nesse contexto, e considerando a carência de metodologias desenvolvidas para a avaliação interna das instituições, esse trabalho tem por objetivo aperfeiçoar a metodologia do Sistema online de Avaliação (Louzada-Neto & Ara-Souza, 2010) ao apresentar uma forma de implantação de relatórios de análise em formato PDF. A maior vantagem no que diz respeito a esse formato está em garantir a integridade e em evitar a manipulação das informações apresentadas. Além disso, as estatísticas realizadas poderão ser expostas de forma rápida, íntegra e contínua em qualquer navegador ou sistema operacional. É primordial a escolha de sistemas operacionais de fácil acesso e baixo custo, garantindo sua implantação em qualquer Instituição de Ensino e a acessibilidade da metodologia sistemática de autoavaliação proposta.
Estimação de máxima verossimilhança do modelo de regressão Poisson Generalizado Inflacionado de Zeros
O modelo de regressão Poisson Generalizado foi proposto por Famoye et al. (2004) para ajustar dados em que a variância amostral é maior (ou menor) que a média amostral e o modelo de regressão Poisson Generalizado Inflacionado de zeros (ZIGP), abordado em
Famoye & Singh (2006) e Czado et al. (2007), foi proposto para ajustar dados com superdispersão (ou subdispersão) e inflacionados de zeros, ou seja dados com ocorrência
de zeros maior que o esperado no modelo Poisson Generalizado.
Como a distribuição ZIGP não pertence à família exponencial, o modelo de regressão não é um modelo linear generalizado (MLG). Portanto, os resultados assintóticos válidos para um MLG não se aplicam para a regressão ZIGP. Através de simulações vamos verificar que o estimador de máxima verossimilhança no modelo ZIGP é assintoticamente normal.
A regra dos três números para o cálculo de uma medida de correlação robusta
Um dos problemas mais comuns na Estatística é o cálculo de uma medida de correlação robusta, isto é, uma medida que não seja influenciada por pontos discrepantes (outliers) presentes no conjunto de dados. Neste trabalho é apresentado um método, baseado na técnica de leave one out da teoria de discriminadores lineares, que ataca este problema e define uma regra, chamada aqui de regra dos três números, que usa a informação do mínimo, da média (ou mediana) e do máximo entre n valores de correlação linear de Pearson, onde n é o número de observações da amostra, para estimar um valor de correlação robusto.
CRITÉRIOS DE INFORMAÇÃO DE AKAIKE VERSUS BAYESIANO: ANÁLISE COMPARATIVA
Um modelo é a representação simplificada de algum problema ou situação da vida real destinado
a ilustrar certos aspectos do problema sem se ater a todos os detalhes. Não raro, mais de
um modelo pode descrever um mesmo fenômeno, haja vista que cada pesquisador tem a liberdade
de modelar o fenômeno seguindo a metodologia que julgar mais adequada. Aqui a seleção do
“melhor” modelo torna-se então evidente.
Burnham e Anderson (2004), enfatizam a importância de selecionar modelos baseando-se em
princípios científicos. Dentre as diversas metodologias utilizadas para este fim, neste trabalho realizamos
uma análise comparativa dos critérios de informação de Akaike (AIC), Akaike Corrigido
(AICc) e Bayesiano (BIC), quanto a sua performance na seleção de modelos. Tais critérios são
comparados via simulação em modelos normais e em modelos de séries temporais.