Campos Aleatórios de Markov e Distribuições Especificadas Através das Densidades Condicionais
O processo de Markov e, em particular, a cadeia de Markov, é um dos tipos de modelos mais populares para representar dados dependentes no tempo. A estrutura uni-dimensional do tempo simplifica tremendamente os cálculos e propriedades desses modelos. Os campos aleatórios de Markov são uma generalização das cadeias de Markov substituindo o espaço-índice unidimensional do tempo por um espaço-índice mais genérico, tal como o espaço geográfico ou uma posição num grafo de vizinhança. O estudo dos campos aleatórios de Markov levou a um problema teórico em probabilidade. A propriedade de Markov está associada com distribuições condicionais. Sabemos que dada a distribuição conjunta de n variáveis aleatórias, podemos deduzir as distribuições marginais de cada uma das variáveis. Podemos também obter as distribuições condicionais de cada variável dados os valores das demais variáveis. Algumas vezes, é possível obter o resultado reverso. Isto é, podemos especificar a distribuição condicional de cada variável dados os valores das demais variáveis e, a partir disso, obter a distribuição conjunta. Não é simples determinar quando este resultado é válido, nem saber como obter a conjunta a partir das distribuições condicionais. Este problema teórico perturbou os estatísticos por vários anos, pois ele era importante para a modelagem de alguns fenômenos aleatórios. Por exemplo, em estatística espacial, uma abordagem natural é a especificação de qual é a distribuição condicional de uma área dado todo o restante do mapa. A propriedade de Markov implicaria que esta distribuição dependeria apenas dos valores de suas áreas vizinhas, e não dos valores de áreas mais distantes. Outras aplicações recentes envolvem a modelagem de dados aleatórios em grafos tais como o tráfego na internet, onde cada página da web é vista como um nó conectado a outras páginas por meio dos links, que fazem o papel de arestas. A principal solução para o problema de determinar se existe e qual é a distribuição conjunta associada com as distribuições condicionais foi encontrada na década de 70 por Hammersley e Clifford. Eles descobriram uma ligação fundamental entre o problema teórico da especificação de uma distribuição via suas condicionais e os campos aleatórios de Markov. Faz parte da historia da estatística o fato de que, incomodados com uma hipótese em sua demonstração, Hammersley e Clifford nunca publicaram a prova de seu teorema. Em 1974, num dos artigos mais citados de estatística e que deu origem a uma imensa quantidade de pesquisa teórica e aplicada, Julian Besag apresentou uma prova do teorema de Hammersley-Clifford que não exigia conhecimentos avançados de probabilidade e matemática. Esta demonstração faz parte dos clássicos da estatística e esse artigo é um dos artigos da coleção Breakthrougs in Statistics. Este minicurso vai fazer uma revisão da pesquisa desenvolvida nesta área. Vamos começar apresentando os conceitos básicos da teoria de grafos necessários para entender o problema e a demonstração. Em seguida, apresentamos o teorema de Hammersley-Clifford com a prova detalhada devida a Besag. Vamos apresentar os principais modelos que podem ser construídos dentro da classe de distribuições exponenciais, incluindo os auto-modelos. Na parte final do minicurso, vamos focar no caso particular de distribuições normais e em modelos de análise geográfica. O modelo mais usado como distribuição a priori na análise de dados espaciais é um modelo autoregressivo condicional (CAR). Vamos estudar este modelo em detalhes, apresentando suas principais propriedades. Além disso, mostraremos que a estrutura de autovalores e autovetores da matriz de adjacência espacial determina a maior parte do comportamento estocástico dos dados. Indicação do nível do curso: Mestrado e Doutorado.
OBS: Este minicurso sera ministrado no mesmo horario do minicurso 1. Analise Estatistica de Simuladores.
Introdução à Análise de Dados Funcionais
Com o desenvolvimento de tecnologias mais modernas, dados funcionais tem sido observados com frequência cada vez maior em diversos campos. Em muitos casos, o interesse esta na estimação não somente das curvas mas também de outros funcionais como por exemplo, derivadas e integrais destas curvas. Considere o seguinte problema: no estudo de crescimento de criança pode-se estar interessado em, além de estimar a curva de crescimento, simultaneamente estimar a velocidade de crescimento ou aceleração como função do tempo para cada indivíduo. Desenvolveu-se, portanto, uma nova metodologia, chamada Análise de Dados Funcionais (Functional Data Analysis) para contemplar este tipo de problema. Aqui, o termo funcional se refere a estrutura dos dados e não a sua forma explicita, pois na prática os dados são observados de maneira discreta. Parte substancial das técnicas desenvolvidas para a análise de dados funcionais foi iniciada por Ramsay e Dalzell (1991) e Ramsay e Silverman (1997). As técnicas não paramétricas são particularmente apropriadas para a modelagem de dados funcionais. No caso de estimação pontual de curvas médias pode-se utilizar diversas metodologias entre elas métodos baseados em kernel tais como Ferraty e Vieu (2004), Fan e Zhang (2000) e splines; Nielson, (1974), Guo (2004) e Ramsay e Dalzell (1991). No caso de estimação pontual de curvas médias e resumo de informação, uma técnica adaptativa é proposta em Anselmo, Dias e Garcia (2005). Assim como metodologias mais avançadas em estimação para dados funcionais agregados podem ser encontradas em Dias, Garcia e Martarelli (2009).
Embora esta área seja cativante, de crescente desenvolvimento e de grande interesse pela comunidade estatística internacional, ainda esta incipiente no Brasil, com poucos autores nacionais. O objetivo deste trabalho é expor a comunidade estatística brasileira a uma introdução de algumas técnicas de Análise de Dados Funcionais, que por nós são consideradas como fundamentais para o entendimento de metodologias mais avançadas nessa área.
OBS: Este minicurso sera ministrado no mesmo horario do minicurso 2. Tamanho da Amostra em Ensaios Clinicos e Bioequivalencia.
Tamanho da Amostra em Ensaios Clínicos e Bioequivalência
As áreas de Pesquisa Clinica e Bioequivalência tem apresentado desenvolvimento crescente no Brasil, após a regulamentação da produção de produtos genéricos pelas indústrias farmacêuticas pelo governo Federal, em 1999. Portanto, trata-se de uma área de pesquisa recente e que merece atenção dos estatísticos aplicados. A área de Pesquisa Clínica visa principalmente verificar a eficácia e/ou segurança de um produto farmacêutico e para isso, hipóteses de não inferioridade, superioridade e equivalência tem sido desenvolvidos no contexto de estudos paralelos ou cruzados. Estas hipóteses possuem uma especificação, que é a margem clinicamente importante para diferença (δ) de médias ou proporções, que necessita ser determinada por considerações clínicas e estatísticas. O tamanho da amostra depende do valor desta margem clinicamente importante (δ), além de outros requesitos usuais do cálculo do n. A área de biodisponibilidade/bioequivalência trata do desenvolvimento de produtos genéricos ou similares. Esses estudos utilizam planejamento cruzado, e utilizam testes de equivalência, aqui chamados de testes de bioequivalência. O objetivo do mini-curso é cálculo do tamanho da amostra de estudos das áreas citadas acima, e para isso, foram introduzidos os objetivos das áreas, as medidas estudadas, as hipóteses estatísticas, e para o desenvolvimento do cálculo do n, especificamente, os testes de hipóteses de diferenças de médias, no contexto de estudos paralelos e para biooequivalência, no contexto de estudos cruzados. Aplicações de cálculo de n são discutidos, em situações reais de pesquisa clinica e bioequivalência.
OBS: Este minicurso sera ministrado no mesmo horario do minicurso 3. Introducao a Analise de Dados Funcionais.
Análise Estatística de Simuladores
O objetivo desse mini-curso é apresentar um tutorial sobre análise estatística para simuladores. Simuladores são funções matemáticas complexas usadas para representar um sistema físico. Um experimento computacional envolve rodar o simulador para diferentes valores de entrada (inputs) com o objetivo de aprender sobre o sistema físico. Apesar dos desafios estatísticos derivados dos experimentos físicos serem bem conhecidos, os desafios derivados dos experimentos computacionais são, de certa forma, diferentes e somente recentemente começaram a ser estudados por estatísticos. Métodos para quantificar, analisar e reduzir incerteza na aplicação de experimentos computacionais têm atraído a atenção de usuários de simulação, e nesse curso nós iremos descrever os desafios enfrentados, e introduzir algumas das metodologias para lidar com essas questões.
Uma das principais idéias consideradas nesse curso é a meta-análise. Se podemos construir uma representação estatística do simulador que é rápida de rodar, conhecida como emulador, então nós podemos usar o emulador no lugar do simulador para a análise. Processos gaussianos são a principal ferramenta usada para meta-análise. Num contexto bayesiano, esses processos fornecem um exível método semi-paramétrico para representar nossos julgamentos sobre as saídas do simulador (outputs). Condicional num conjunto de rodadas do simulador, nós construímos um processo gaussiano que pode ser usado como um substituto do simulador.
O conteúdo do curso será dividido ao longo dos três dias da seguinte forma: no primeiro dia, nós iremos introduzir a área de experimentos computacionais e descrever como construir emuladores baseados em processos gaussianos; no segundo dia, nós iremos lidar com alguns desafios estatísticos incluindo análise de sensibilidade, planejamento de experimentos, e calibração; e no último dia, nós iremos apresentar alguns trabalhos em desenvolvimento nesta área, incluindo a área de computação bayesiana aproximada.
OBS: Este minicurso sera ministrado no mesmo horario do minicurso 4. Campos Aleatorios de Markov e Distribuicoes especificadas atraves das densidades condicionais.