Ciências Exatas e da Terra
Distribuição Beta Log-normal
For the first time, we introduce the beta log-normal distribution for which the log-normal distribution is a special case. Various properties of the new distribution are discussed. Expansions for the cumulative distribution and density functions that do not involve complicated functions are derived. We obtain expressions for its moments and for the moments of order statistics. The estimation of parameters is approached by the method of maximum likelihood and the expected information matrix is derived. The new model is quite flexible in analyzing positive data as an important alternative to the gamma, Weibull, generalized exponential, beta exponential and Birnbaum-Saunders distributions. The flexibility of the new distribution is illustrated in an application to a real data set.
Modelos espaço-temporais bayesianos para respostas na família exponencial: uma aplicação a dados de chuva na Austrália
Dados provenientes de diversas áreas tais como ciências ambientais, epidemiologia, agricultura, sociologia, etc. são caracterizados pela variabilidade no espaço e no tempo. Em particular, processos ambientais são, em sua maioria, contínuos no tempo e no espaço, variando assim de forma suave em ambas as dimensões. Em geral, é assumido que as observações são normalmente distribuídas, o que na prática raramente ocorre. Neste trabalho, a suposição de normalidade é relaxada e são propostos modelos espaço-temporais para respostas na família exponencial, levando em consideração a dependência tempo e espaço. Considere um conjunto de períodos de tempo discreto, t = 1,...,T, em que para cada t observa-se a variável aleatória Y em um conjunto de N locais no espaço. Suponha que Y tenha distribuição f(.) pertencente à família exponencial com uma determinada média. Suponha também que uma função dessa média possa ser modelada através de uma equação de regressão, em que os coeficientes da regressão são dinâmicos no tempo e variam suavemente no espaço seguindo um processo gaussiano. Essa metodologia é aplicada para modelar as quantidades trimestrais de chuva de 1900 a 2002 ao longo de 34 estações pluviométricas na Austrália. O interesse é não apenas estimar os parâmetros do modelo, mas também fazer previsões no tempo e interpolação no espaço. O procedimento de inferência é feito sob o enfoque bayesiano e o interesse é desenvolver uma metodologia de estimação através dos métodos de Monte Carlo via cadeias de Markov. Em uma primeira etapa, dados simulados a partir dos modelos propostos foram utilizados para a validação do algoritmo.
Modelo Longitudinal Multinível com estrutura Hankel para a Teoria da Resposta ao Item
A Teoria da Resposta ao Item (TRI) é um conjunto de modelos que visam mensurar características latentes de indivíduos através de instrumentos de medida adequados para esse fim. Tal mensuração é feita através da probabilidade dos indivíduos obterem algum escore em cada um dos itens (questões) que compões o instrumento de medida. Uma situação bastante comum consiste em acompanhar estudantes ao longo dos anos (séries escolares) a fim de medir a evolução do conhecimento dos mesmos em alguma área de interesse, por exemplo, em Matemática. Isto pode ser feito, por exemplo, aplicando-se uma prova ao final de cada ano letivo. Tal estrutura caracteriza um estudo longitudinal no contexto da TRI. Neste caso, espera-se que os traços latentes dos mesmos indivíduos apresentem alguma estrutura de dependência (correlação) entre si. O principal objetivo do presente trabalho é o de propor um modelo da TRI que incorpore tal estrutura longitudinal através de uma abordagem multinível. Neste caso, consideramos que as medidas (provas) feitas nos mesmos indivíduos estão encaixadas (agrupadas) em cada um destes. Assim, através de um modelo multinível, contemplamos possíveis estruturas de dependência. Mais especificamente, exploramos a estrutura de covariância de Hankel heterocedástica sob normalidade dos traços latentes. A estrutura Hankel permite não só termos variâncias diferentes como também correlações diferentes entre os traços latentes. Á única restrição dessa estrutura é a de que as covariâncias são as mesmas. A abordagem desenvolvida permitiu a implementação de um algoritmo de Gibbs para a estimação bayesiana dos parâmetros do modelo. Estudos de simulação indicaram que o método de estimação proposto recupera apropriadamente os parâmetros do modelo. Além disso, a metodologia proposta foi utilizada na análise de um conjunto de dados longitudinais reais na área da educação. Os resultados indicaram a existência de correlações positivas entre os traços latentes dos estudantes.
Eficiência das Redes Bayesianas KDB para classificação binária
Redes Bayesianas são grafos acíclicos e direcionados que permitem a representação gráfica da distribuição de probabilidade conjunta de um conjunto de variáveis aleatórias. Neste enredo, as Redes Bayesianas podem ser utilizadas em problemas de classificação e são conhecidas como Classificadores Bayesianos. Porém, no contexto de classificação binária, podem ser utilizados outros diversos métodos, dentre eles temos modelos probito, logito, análise discriminante, redes neurais entre outros. Portanto, o objetivo principal deste trabalho é investigar a capacidade de um classificador bayesiano particular, denominado k-dependence Bayesian classifier (KDB), em relação aos métodos: regressão logística, regressão probito, análise discriminante e redes neurais. A investigação baseia-se em calcular sistematicamente medidas de capacidade preditiva entre os métodos através de replicações de um conjunto de dados gerados.
REDES BAYESIANAS: UMA INTRODUÇÃO APLICADA A CREDIT SCORING
A Inteligência Artificial, segundo Tafner et al. (1995), é uma área catalisadora do desejo humano de reproduzir inteligência em mecanismos não-biológicos; constitui-se em um conjunto de técnicas de programação para resolver problemas. Ela procura imitar as formas de resolução de problemas do mesmo modo que o homem o faz. Além disso, a Inteligência Artificial é uma área interdisciplinar dentro das Ciências Exatas, sendo explorada com maior intensidade pelas áreas de Ciências da Computação e Engenharia Elétrica, com o auxílio de metodologia e pensamento estatístico. Segundo Mitchel, citado por Rezende (2004, p.93), entre os métodos estatísticos, destaca-se o aprendizado Bayesiano, que utiliza um modelo probabilístico baseado no conhecimento prévio do problema, o qual é combinado com exemplos de treinamento para determinar a probabilidade final de uma hipótese. Assim, as Redes Bayesianas são uma abordagem interpretativa e analítica para o raciocínio probabilista e tem sido utilizada recentemente em diversas áreas como, por exemplo, estimação de risco operacional, diagnóstico médico, credit scoring, projeto de jogos computacionais, imputação de dados, entre outras. Desta forma, a técnica de Redes Bayesianas é um método de modelagem e de decisão, sendo alternativo às técnicas comumente utilizadas como, por exemplo, Regressão Logística e Análise Discriminante. Esse trabalho de conclusão de curso, desenvolvido de julho a dezembro de 2008, tem a finalidade de apresentar de forma clara e objetiva fundamentos básicos da técnica de Redes Bayesianas, realizar sua aplicação em exemplos, alguns deles envolvendo dados reais, e apresentar os resultados de um estudo de simulação que compara a capacidade preditiva das Redes Bayesianas com um procedimento padrão, comumente utilizado na modelagem de dados com respostas dicotômicas.
Método Scan Espaço-Temporal: uma avaliação dos modelos Poisson e Permutação Espaço-Tempo
O método Scan tem sido amplamente usado em estudos de análise espacial. Entretanto, muitas vezes é relevante introduzir o carácter temporal dos dados para melhor compreender um fenômeno em estudo. No presente estudo foi avaliado o desempenho do método Scan espaço-temporal utilizando os modelos Poisson e Permutação Espaço-Tempo por meio de simulações para uma região hipotética. Após análise dos resultados foi perceptível a maior sensibilidade do modelo Poisson, que identificou e persistência de conglomerados em alguns períodos consecutivos.
Modelos de Regressão para Dados Longitudinais: Comparações Transnacionais a Partir de Dados do Painel Domiciliar da Comunidade Européia
Pesquisa longitudinal diz respeito à coleta e posterior análise de dados coletados ao longo do tempo. O principal objetivo deste trabalho é a compreensão das potencialidades das pesquisas longitudinais como fontes de dados para o estudo de mudanças demográficas e sócio-econômicas, dentre outras, através da utilização de modelos de regressão. São utilizados dados provenientes da Pesquisa Painel Domiciliar da Comunidade Européia. Buscou-se evidenciar as vantagens dos modelos para dados longitudinais em relação aos modelos para dados transversais. Os coeficientes estimados para o modelo longitudinal possibilitam o estudo da relação entre cada uma das covariáveis com a variável dependente ao longo do tempo de maneira mais eficiente do que o ajuste de modelos transversais separados para cada um dos anos.
CreditRisk+: Implementação da Modelagem Estatística de Risco de Crédito e Cálculos Alternativos Através da Tranformada Rápida de Fourier no R.
Este trabalho concentra-se na busca na introdução de cálculos alternativos para o risco de crédito, utilizando a metodologia do CreditRisk+, e sua implementação no R.
Alguns processos relacionados a modelos de fluxo de tráfego
No presente trabalho, estudamos alguns sistemas de partículas interagentes que podem ser vistos como modelos simples de fluxo de tráfego, a saber: O Processo de Hammersley-Aldous-Diaconis e o Processo de Exclusão. Exploramos suas representações como modelos de crescimento no plano. Ênfase é dada à casos em que há mais de um tipo de partícula, aos processos multiclasses e às suas relações com modelos de filas. Analogia entre os modelos é usada para provar os resultados. Por fim, damos uma nova prova para o cálculo da variância assintótica rescalonada do fluxo de partículas de segunda classe no processo de Hammersley multiclasse em equilíbrio.
ANÁLISE MULTIVARIADA APLICADA NO ESTUDO DE OCORRÊNCIAS DE VIOLÊNCIA SEXUAL SOFRIDA POR CRIANÇAS
Este trabalho tem como objetivo utilizar técnicas estatísticas multivariadas para estudar as ocorrências de violência sexual sofridas por crianças, na Região Metropolitana de Belém, no período de 2003 a 2007. Duas técnicas estatísticas distintas foram utilizadas: Análise de Componentes Principais, Análise de Correspondência. A partir da Análise de Correspondência pode-se verificar que na segunda-feira há grande probabilidade do delito ocorrer no turno da madrugada, já na terça-feira existe grande probabilidade do delito ocorrer no turno da manhã. Na Análise de Componentes Principais, pode-se observar que, o local residência é o que apresenta o maior percentual das ocorrências.