Estatística Computacional

Estatística Básica via MySQL para Pesquisas On-Line

Autor(es) e Instituição: 
Gabriel Ramos Guerreiro (UFSCar)
Anderson Luiz Ara-Souza (UFSCar)
Francisco Louzada Neto (UFSCar)
Apresentador: 
Gabriel Ramos Guerreiro

A Internet tem se tornado cada vez mais acessível aos usuários empresariais e domésticos, crescendo a uma taxa de 14% ao ano, atingindo 1 bilhão de usuários em 2005. Além disso, a Avaliação Institucional é uma questão em evidência no Brasil desde 1977, quando o Ensino Superior começou a ser avaliado pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) no âmbito de pós-graduação. Desde então, vem passando por diversas reformulações como, por exemplo, a criação do Sistema Nacional de Avaliação da Educação Superior (SINAES) em 2003. Nesse contexto, desenvolvemos um Sistema computacional on-line inédito e aplicado a Avaliação Institucional (Louzada-Neto e Ara-Souza, 2010). A metodologia aplicada no sistema apresenta algumas características importantes como rapidez, praticidade, menor custo operacional, segurança e garantia total de anonimato dos respondentes.

An Empirical Comparison of EM Initialization Methods and Model Choice Criteria for Mixtures of Skew-Normal Distributions

Autor(es) e Instituição: 
José Raimundo Gomes Pereira
Celso Rômulo Barbosa Cabral
Leyne Abuim de Vasconcelos Marques
José Mir Justino da Costa
Apresentador: 
José Raimundo Gomes Pereira

We investigate, via simulation study, the performance of the EM algorithm for maximum likelihood estimation in finite mixtures of skew-normal distributions with component specific parameters. The study takes into account the initialization method, the number of iterations needed to attain a fixed stopping rule and the ability of some classical model choice criteria to estimate the correct number of mixture components. The results show that the algorithm produces quite reasonable estimates when using the method of moments to
obtain the starting points and that, combining them with the AIC, BIC, ICL or EDC criteria, represents a good alternative to estimate the number of components of the mixture. Exceptions occur in the estimation of the skewness parameters, notably when the sample size is relatively small, and in some classical problematic cases, as when the mixture components are poorly separated.
Key Words: EM algorithm; Skew-normal distribution; Finite mixture of distributions.

Resumo estendido: 

Eficiência das Redes Bayesianas KDB para classificação binária

Autor(es) e Instituição: 
Anderson Luiz Ara-Souza (UFSCar)
Francisco Louzada Neto (UFSCar)
Luis Aparecido Milan (UFSCar)
Apresentador: 
Anderson Luiz Ara-Souza

Redes Bayesianas são grafos acíclicos e direcionados que permitem a representação gráfica da distribuição de probabilidade conjunta de um conjunto de variáveis aleatórias. Neste enredo, as Redes Bayesianas podem ser utilizadas em problemas de classificação e são conhecidas como Classificadores Bayesianos. Porém, no contexto de classificação binária, podem ser utilizados outros diversos métodos, dentre eles temos modelos probito, logito, análise discriminante, redes neurais entre outros. Portanto, o objetivo principal deste trabalho é investigar a capacidade de um classificador bayesiano particular, denominado k-dependence Bayesian classifier (KDB), em relação aos métodos: regressão logística, regressão probito, análise discriminante e redes neurais. A investigação baseia-se em calcular sistematicamente medidas de capacidade preditiva entre os métodos através de replicações de um conjunto de dados gerados.

Método Scan Espaço-Temporal: uma avaliação dos modelos Poisson e Permutação Espaço-Tempo

Autor(es) e Instituição: 
Sadraque Enéas de Figueirêdo Lucena
Ronei Marcos de Moraes
Apresentador: 
Sadraque Enéas de Figueirêdo Lucena

O método Scan tem sido amplamente usado em estudos de análise espacial. Entretanto, muitas vezes é relevante introduzir o carácter temporal dos dados para melhor compreender um fenômeno em estudo. No presente estudo foi avaliado o desempenho do método Scan espaço-temporal utilizando os modelos Poisson e Permutação Espaço-Tempo por meio de simulações para uma região hipotética. Após análise dos resultados foi perceptível a maior sensibilidade do modelo Poisson, que identificou e persistência de conglomerados em alguns períodos consecutivos.

Resumo estendido: 

Aproximações Determinísticas para Distribuições a Posteriori Marginais

Apresentador/Autor: 
Thiago Guerrera Martins
Resumo: 

Um dos grandes desafios em estatística Bayesiana é obter, quando não há solução analítica disponível, aproximações para distribuições a posteriori marginais de forma precisa e eficiente. Nessa dissertação é feita uma revisão na literatura de métodos determinísticos para este fim em um contexto geral, e mostra-se que ainda há modelos de importância atual que são melhor estimados ao utilizar estes métodos em vez dos baseados em simulação. O método Integrated Nested Laplace Approximations (INLA), aplicado na importante classe de modelos que envolvem Campos Aleatórios Markovianos Gaussianos (CAMG), é descrito e, através de exemplificação, uma discussão qualitativa sobre o método é apresentada. Foi proposta a utilização do INLA para realização de inferência em modelos dinâmicos Bayesianos para processos pontuais espaço-temporais ao invés da abordagem usual que utiliza Markov Chain Monte Carlo (MCMC). Por fim, é apresentada uma importante extensão do INLA, onde a dependência entre o conjunto de dados e o campo latente, da forma como apresentada na descrição do INLA, é generalizada.

Método bootstrap aplicado à modelos lineares generalizados em experimentação agronômica

Autor(es) e Instituição: 
Rubem Kaipper Ceratti, Universidade de Brasília / EMBRAPA CENARGEN
Afrânio Márcio Corrêa Vieira, Universidade de Brasília
Joseane Padilha da Silva, EMBRAPA CENARGEN
Cássio Costa da Silva Curi, EMBRAPA CENARGEN
Apresentador: 
Rubem Kaipper Ceratti

Neste trabalho, explora-se o método bootstrap aplicado a um modelo linear generalizado com a finalidade de estimar o erro padrão das estimativas dos parâmetros do modelo. Numa aplicação de um experimento de conservação de sementes, são comparados os resultados obtidos via bootstrap com aqueles produzidos pela teoria clássica.

Resumo estendido: 

Uma Nova Abordagem Para Análise De Dependência Bivariada

Autor(es) e Instituição: 
Vitor Alex Alves de Marchi
Francisco Louzada Neto
Francisco Antonio Rojas Rojas
Apresentador: 
Vitor Alex Alves de Marchi

Nesta dissertação descrevemos e implementamos procedimentos para estimação não paramétrica da cópula e da função de Sibuya, e também procedimentos para análise de dependência bivariada baseado no comportamento de suas curvas de nível. Além disso, descrevemos e implementamos o procedimento chi-plot assim como um procedimento para a análise de dependência bivariada com presença de censura na amostra. Particularmente, propomos uma maneira de usá-lo em uma análise de correlação local. O desempenho dos procedimentos propostos são ilustrados e avaliados em casos de estruturas de correlação simples, mas também em esquemas de correlação mais complexa.

Aproximação de Monte Carlo para a Verossimilhança de um Modelo Linear Generalizado Misto

Autor(es) e Instituição: 
Bernardo Borba de Andrade, Univ de Brasilia
Charles James Geyer, Univ of Minnesota
Apresentador: 
Bernardo Borba de Andrade

Apresentamos um algoritmo para simulação da verossimilhança de um modelo linear generalizado misto (MLGM). O algoritmo se baseia no método de umbrella sampling via MCMC. Versões de Monte Carlo para o EMV e outras estatísticas baseadas na verossimilhança simulada são apresentados. A principal motivação é a dificuldade em se obter a verossimilhança exata para MLGMs devido a necessidade de integração multidimensional. Outros métodos computacionalmente intensivos, como aproximação estocástica e MCEM, são brevemente discutidos.

Trabalho completo: 

Mineração de Informações em Dados Não Regulares

Autor(es) e Instituição: 
Josmar Mazucheli
Apresentador: 
Josmar Mazucheli

Por mais simples que seja a análise de dados, sua viabilidade e sucesso depende não só da habilidade do estatístico mas também, em muito, dos recursos computacionais disponíveis. Muitos métodos importantes de análise só tiveram sucesso --- tornaram-se populares --- graças ao advento destes recursos. Dentre estes pode-se citar os métodos de reamostragem (Bootstrap, Jackknife, Cross-validation, Permutation tests), MCMC, redes neurais, Data Mining dentre outros. Nos últimos 20 anos uma infinidade de softwares tornaram-se disponíveis para o processamento e análises de dados - Lisp Perl , Python, Ox, R, SAS, S-Plus etc. Com o surgimento destes softwares, com linguagens próprias de programação, dados antes na condição de não analizáveis passaram a ser analisados. Como exemplo, considere a tarefa de obter informação, de qualidade e relevância, a partir de textos ou de dados não estruturados, semi-estruturados ou ainda não regulares. Este trabalho surgiu de uma aplicação real onde o objetivo era a extração de informações de uma base de dados formada por anúncios - classificados - de vendas de imóveis na cidade de Maringá. Informações extraídas da base de anúncios tais como valor anunciado do imóvel, localização, metragem, número de cômodos etc., foram utilizadas para traçar o perfil do mercado imobiliário da cidade. Outras informações pertinentes a base foram usadas para se criar um possível modelo de precificação. A mineração em texto utilizou o que se chama em computação de expressões regulares.

Divulgar conteúdo