Sessões Temáticas

"Análise de Dados Espaciais/Temporais" 

Coordenador: Paulo Justiniano Ribeiro (UFPR)
Participantes: Marina Silva Paez (UFRJ) - resumo, Thaís C.O. Fonseca (University of Warwik) - resumo.

 Análise de Dados Funcionais

Coordenador: Aluísio Pinheiro (UNICAMP) - resumo
Participantes: James Ramsay (McGill Univ., Canada) - resumo, Ronaldo Dias (UNICAMP) - resumo. Brani Vidakovic (GaTech /  Emory University School of  Medicine) - resumo.

 Data Mining e Análise Inferencial para Grandes Bancos de Dados 

Coordenador: Francisco Louzada-Neto (UFSCar) - resumo
Participantes: Pranab K. Sen (UNC-Chapel Hill, USA) - resumo, Basílio Bragança Pereira (UFRJ) - resumo.

Graphical Models/Statistical Learning

Coordenador: Alejandro Frery (UFAL)
Participantes: Eduardo Antônio B. da Silva (UFRJ) - resumo, Ronny Vallejos (Univ. Tecnica Federico Santa María) - resumo.

 Probabilidade. Teoria e Aplicações

Coordenador: Nancy Lopes Garcia (UNICAMP)
Participantes: Maria Eulália Vares (CBPF) - resumo, Cristian Coletti (UFABC) - resumo, Renato J. Cintra (UFPE) - resumo. 

 Estatística em Esporte

Coordenador: Sergio Wechsler (IME-USP)
Participantes: David Brillinger (Univ. of California, USA) - resumo, Francisco Louzada-Neto (UFSCar) - resumo e Laércio Vendite (UNICAMP) - resumo.

  

 

"Análise de Dados Espaciais/Temporais"

Modelos com coeficientes dinâmicos variando no espaço para dados da família exponencial

Marina S. Paez, Dani Gamerman, Esther Salazar, Flávia Landim, Nícia Hansen (UFRJ)

Este trabalho tem como objetivo principal propor uma classe de modelos hierárquicos para dados observados em tempo discreto e espaço contínuo, em que os coeficientes de regressão podem variar suavemente no tempo e no espaço. Para dados com distribuição normal, propomos modelos hierárquicos multivariados Gaussianos, que incorporam uma estrutura de correlação temporal e ou espacial na média (condicional aos processos explicativos) da variável resposta, e nos casos onde existe considerável heterogeneidade espacial no efeito de processos explicativos, incorporam também uma estrutura de correlação no tempo/espaço nos coeficientes relativos a esses processos. A variação temporal é modelada através de modelos dinâmicos lineares e a variação espacial é modelada através de processos Gaussianos com matrizes de covariância estruturadas espacialmente. A partir dessa modelagem pode-se desenvolver modelos bem estruturados no espaço e no tempo, contemplando inclusive interações entre essas duas dimensões. Esse modelo permite fazer previsão de dados para tempos futuros e interpolação das variáveis de interesse para qualquer ponto no espaço. Aplicamos essa modelagem para modelar conjuntamente os poluentes CO2 e NO3 coletados na costa Leste dos EUA. Consideramos também uma extensão desse modelo em que a hipótese de normalidade das observações é relaxada, e supõe-se que estas vem da família exponencial. A idéia é especificar uma função de ligação, como nos Modelos Lineares Generalizados, para ligar o preditor linear à média da função da distribuição. Estudos com dados simulados foram feitos para estimar e fazer previsão temporal sob estes modelos. Fizemos também um estudo preliminar para modelar a quantidade média anual de chuva em 15 estações de monitoramento na Austrália do ano de 1900 a 1994. Para esse conjunto de dados, supomos que a variável resposta tem distribuição gama.

Topo da página

A General Class of Nonseparable Space-time Covariance Models

Thais C.O. Fonseca, Mark F.J. Steel (Department of Statistics, University of Warwick) 

The aim of this work is to construct nonseparable, stationary covariance functions for processes that vary continuously in space and time. Stochastic modelling of phenomena over space and time is important in many areas of application. But choice of an appropriate model can be difficult as we need to ensure that we use valid covariance structures. A common choice for the process is a product of purely spatial and temporal random processes. In this case, the resulting process possesses a separable covariance function. Although these models are guaranteed to be valid, they are severely limited, since they do not allow space-time interactions. We propose a general and flexible class of valid nonseparable covariance functions based on the mixture of separable covariance functions. The proposed model allows for different degrees of smoothness across space and time and long-range dependence in time. Moreover, the proposed class has as particular cases several covariance models proposed in the literature such as the Matérn and the Cauchy Class. The proposed model easily allows for extensions e.g. to include a nugget effect and asymmetries as we illustrate in the modeling of the Irish wind data.

Key words: Bayesian Inference; Irish wind data; Mixtures; Spatiotemporal modelling.

Topo da página

 

“Análise de Dados Funcionais”

Estimating the Quantile Function

Jim Ramsay (McGill University), Giles Hooker (Cornell University), Jason Niesen (Carleton University)

The quantile function Q(u) is the inverse of the probability density function F(x); that is, Q[F(x)] = x and F[Q(u)] = u. John Tukey championed its use, point out that ordinary folks often present us with a probability u and want to know the event x that is associated with it, rather than with an event whose probability they don’t know. Our particular interest is providing helpful information about rainfall on the Canadian prairies, and we want to be able to tell a producer about extremes of precipitation that they will only see, for example, once in a century. We will review the quantile function and its many interesting properties. Emanuel Parzen and many others have discussed the problem of estimating Q from a sample of data. The definition of a strictly monotone function developed by Ramsay (JRSS-B, 1996) leads to an especially neat formulation of this estimation problem, and to some new approaches. In particular, we are working on the problem of estimating a distributed quantile function Q(u,t,r) where t indexes time and r indexes space. This generalizes the usual data smoothing problem, which only attempts to estimate the expectation of x; as well as quantile regression, which estimates a single quantile value.

Topo da página

A Functional Data Analysis approach to chemiometrics

Ronaldo Dias (UNICAMP)

A área que se refere à aplicação de métodos estatísticos e matemáticos a problemasde origem química é chamada de quimiometria. Devido à grande evolução dos microcomputadores, as análises instrumentais estão em crescente evolução fazendo-se necessário o tratamento mais complexo, do ponto de vista estatístico e matemático, de dados de origem química com o objetivo de se relacionar os sinais obtidos (espectros, por exemplo) com os resultados desejados (concentrações). As técnicas mais utilizadas no momento são de estatística multivariada, como por exemplo PLS (Mínimos Quadrados Parciais) e PCR (Regressão por Componentes Principais), calibração com os quais se pode medir simultaneamente várias variáveis de interesse ao se analisar uma amostra. Estes métodos têm dificuldades em tratar dados com características funcionais devido, em geral, à alta dimensão das matrizes de dados. Para resolver o problema de calibração multivariada, utilizamos a idéia da lei de Beer-Lambert e propomos o tratamento do conjunto de dados coletados, que são curvas (espectros), utilizando análise não-paramétrica de dados funcionais. Esta metodologianão apresenta os problemas teóricos com a dimensão dos dados e além disso, devido à natureza funcional, acreditamos que modelos que levem em conta esta característica terão bons resultados.

Topo da página

Functional Data Analysis Via Quasi U-Statistics

Aluísio Pinheiro (UNICAMP), P. K. Sen  (Univ. of North Carolina at Chapel Hill)

In standard statistical practice the observations are usually numbers or vectors. However, in many real life situations, observed data are continuous curves, images, vectors of images or even vectors of multi-dimensional continuous data. Some examples are growth curves, responses in biological, chemometric and geophysical practice. We develop estimation and test procedures for functional data analysis via quasi U-statistics theory (Pinheiro et. al, 2009). In this setup we are able to equip the estimation (test) statistics with powerful asymptotic properties.

Topo da página

Functional EDA by Wavelets: Waveletized Andrews Plots.

Brani Vidakovic (GaTech /  Emory University School of  Medicine)

Andrews plots proposed in 1972 help in visualizing multivariate data by converting data to functions.  The original proposal sets the multivariate components as Fourier coefficients and defines the periodic function as a representative of a single multivariate datum. We propose using wavelets in place of Fourier bases. The key metric properties of Andrews plots are preserved while the wavelets bring several new insights in exploratory data-analysis tasks. The proposed methodology is easily implemented. We illustrate the ``waveletized''Andrews plots on several multivariate data sets including the data set involving eight measurements on the permanent first lower premolar in humans and apes (Ashton et al., 1957), originally used by Andrews. 

Topo da página

 

Data Mining e Análise Inferencial para Grandes Bancos de Dados”

Bagging K-Dependence Bayesian Classifiers for Classification Modeling On Large Datasets

Francisco Louzada-Neto (UFSCAR)

In large datasets, classification modeling comprises one of the leading formal tools for supporting the decision making. For instance, in industrial studies a component should be detected for defect. In biomedical studies it is important to determining if a patient is committed with a disease. In financial studies the core objective consists on the generation of a score by means of which potential clients can be listed in order of the probability of default. Several techniques might be used in order to accommodate such situations. They goes from conventional techniques such as, discriminant analysis, probit analysis and logistic regression, up to the most flexible neural networks, such as probabilistic neural nets and multi-layer feed-forward nets, and probabilistic networks, such as naive Bayes structures and k-dependence Bayesian classifiers. In this talk we present a bagging framework for characterizing Bayesian classification binary methods. This framework is based on considering probabilistic dependences through a k-dependence arc applied into a Bayesian structure with a Dirichlet multinomial conjugated family. The basic idea is, given the abundance of data, to generate multiple classifiers by obtaining the predicted values from several k-dependence Bayesian classifiers fitted to several replicated datasets and then combining them into a single predictive classification in order to improve the classification accuracy. Generally, the best technique for all data sets does not exist but we can compare a set of methods using some statistical criterions. Therefore, we compute a systematic confrontation between our approach and several conventional techniques through simulation and some real benchmark data. The results lead to an indication that the bagging k-dependence Bayesian classifier approach may promote improvement on the modeling performance measures.

The work is co-authored by Luis A. Milan (UFSCar), Anderson L. Ara-Souza (UFSCar) and Osvaldo Anacleto Jr (Open University).

Topo da página


Data Mining And Statistical Perspectives In HDLSS Models

Pranab K. Sen (University of North Carolina at Chapel Hill

The ongoing evolution of genomics and bioinformatics has generated massive datasets in enormously large dimensions and in incredible pace. Due to excessive cost of data collection, the sample size is generally disproportionately small, thus leading to the so called high-dimension low sample size (HDLSS) models (K > > n). There are other complications due to arbitrary standardization procedures which often distort the simplicity of adaptable statistical models and thereby invalidate the use of conventional statistical tools for drawing conclusions from acquired data sets. The advent of information technology has permitted the development of statistical learning or knowledge discovery and data mining (KDDM) algorithms which are most commonly used in such HDLSS setups. While it may be impossible to have a precise statistical formulation, in the KDDM contexts, often the heuristics are not close to have any valid statistical support. On the other hand, such HDLSS statistical formulations can not be properly accomplished without due considerations of massive computational undercurrents. Faced with this dilemma, statisticians often use simple parametric models with KDDM adjunction but without adequate statistical motivation. This scenario is appraised in the context of microarray gene expression models, for genome-wise association assessments, and it is shown how nonparametric methods can overcome these impasses to a greater extent. In the absence of any universal optimality criterion, model robustness considerations highlight the present study.

 

Topo da página

Data Mining em Medicina

Basílio de Bragança Pereira (UFRJ)

Nesta palestra serão consideradas abordagens estatísticas em Medicina: baseada em modelos e a algorítmica. A visão de Sackett da estatística baseada em modelos para o clínico. Exemplos da abordagem algorítmica de Breiman: árvores de classificação, árvores de sobrevida, redes neurais feedfoward, redes neurais probabilísticas, redes de Kohonen, support vector machine, modelos log-lineares e grafos, e visualização de dados. Aplicações serão direcionadas à cardiologia, transplante de fígado, doença de chagas, otorrinolaringologia, câncer Pulmonar, depressão Pós- AVC, infecção Hospitalar e ensaio clinico.

Topo da página


 

Modelos Gráficos e Aprendizagem Estatística”


Compressive Sensing

Eduardo A. B. da Silva (UFRJ)

When one wants to perform digital processing of a signal, it must be sampled.  Classically one samples a continuous signal using the Nyquist theorem, that states that the sampling rate of a signal must be at least twice the largest frequency present in it. However, most signals are compressive, that is, their digital version can be alternatively represented with a much smaller number of bits than its original version, with very little information loss. This implies, in general, that they can be represented sparsely using some orthogonal bases. Typical examples of sparse signals are images, that have a very sparse representation using a discrete cosine transform or wavelet basis. This work deals with a new paradigm referred to as compressive sensing. It shows that it is possible to perform sparse signal acquisition using only a number of measurements of the order of the sparsity of the signal, that, in general, tend to be much smaller than the Nyquist rate. The signal recovery from these measurements uses in general optimization algorithms aiming at the minimization of the l1-norm of the signal. We will introduce the compressive sensing problem, presenting the main results underlying its theory. We will also give examples and signal processing applications.

Topo da página

A Mispractice in Spatial Statistics: Sample Sizes must be carefully determined

Ronny Vallejos (Universidad Técnica Federico Santa María)
 
A common practice in applied statistics is to determine the sample size under independence. When the available data have an obvious correlation structure the problem is how to determine  the decrease of sample size as a function of correlation. This problem is relevant when a pilot study has been carried out in a certain region and it is of interest to study a regionalized variable in the same area. Recently, some attention has been devoted in the literature to the determination of  geographical sample sizes (Griffith, 2005). In this talk several proposals for the effective sample size (ESS) are introduced. We do an exploration for patterned correlation matrices which arise under regular grids. Some preliminary theoretical results will be discussed.

Topo da página


 

 Probabilidade. Teoria e Aplicações”

Invariant Measures and Decay of Correlations for a Class of Ergodic Probabilistic Cellular Automata

Cristian Coletti (UFABC)

Using an extended version of the duality concept between two stochastic processes, we give ergodicity conditions for two states probabilistic cellular automata (PCA) of any dimensions and any radius. Under these assumptions, in the one dimensional case, we study some properties of the unique invariant measure and show that it is shift mixing. Also, the decay of correlation is studied in detail.

Topo da página

An Arithmetic Method for the Discrete Cosine Transform

R. J. Cintra and V. S. Dimitrov

The introduction of the arithmetic Fourier transform (AFT) in 1988
has unveiled many interesting number-theoretic features of the
classical Fourier transform. The relationship between the AFT and the
Dirichlet convolution, which requires additions and subtractions only,
has many attractive computational properties. However, one of the most
serious drawbacks of the existing AFT techniques is that they tend not
to work for short blocklengths. In this paper we introduce a new class
of transforms — arithmetic cosine transforms (ACT). By making use of
ACT, we overcome this major shortcoming. The new approach works for
any blocklength when exact interpolation is used.

Topo da página

Modelos unidimensionais com interação de longo alcance: percolação e transição de fase

Maria Eulalia Vares (CBPF)

Pretendo fazer uma revisão geral do tema e discutir alguns resultados recentes, baseados principalmente em trabalhos em colaboração com M. Cassandro, I. Merola, D. Marchetti, V. Sidoravicius e S. Friedli.

Topo da página


 “Estatística em Esporte”

A Bayesian Approach for Predicting Match Outcomes: The 2006 Football World Cup

Francisco Louzada-Neto, José Galvão Leite, Luis Ernesto Bueno Salasar, Adriano Kamimura Suzuki e Anderson L. Ara-Sousa (UFSCar)

In this paper we propose a Bayesian methodology for predicting match outcomes. The methodology is illustrated on the 2006 Soccer World Cup. As prior information we make use of the specialists' opinions and the FIFA ratings. The method is applied to calculate the win, draw and loss probabilities at each match and also to simulate the whole competition in order to estimate classification probabilities in group stage and winning tournament chances for each team. The prediction capability of the proposed methodology is determined by the DeFinetti measure and by the percentage of correct forecasts.

Topo da página

A Review of Statistical Modelling and Data Analyses for Soccer/World Football

David R. Brillinger (University of California)

Today there exist many data sets, models, and results of model fitting for futebol. This talk will present a survey of these. The sections of the talk are:

1. DATA COLLECTION AND DESCRIPTIVE ANALYSES

2. STOCHASTIC MODELLING

3. RANKING

4. TOURNAMENTS AND SCHEDULING

5. GAME THEORY

6. ECONOMICS AND MANAGEMENT

7. DISCUSSION

 There are many Brazilian connections.

Topo da página

 Estatística no Esporte: Uma aplicação no futebol

Laércio Vendite(IMECC-UNICAMP)

 A necessidade de registro e de análises das ações individuais técnico-tática foi apresentada pela primeira vez em 1936, onde foi proposto que em cada jogo seria necessário fixar a quantidade de passes e outras técnicas de jogo, bem como a efetividade dessas técnicas na evolução das ações de ataque e defesa. Nos Estados Unidos e em alguns países da Europa não há somente uma equipe de vôlei ou de basquete que não faça um mapeamento técnico, ou seja, o serviço de apoio de profissionais, que tem como finalidade fazer uma descrição completa e circunstanciada, de todas as situações de jogo que ocorrem numa determinada partida. No futebol, principalmente no Brasil, esse tipo de trabalho é recente. O valor de dados estatísticos na prática desportiva, sempre foi colocado por especialistas como um grande avanço de qualidade no esporte dos últimos anos. Inicialmente presenciávamos a apresentação de dados fortuitos no decorrer de algumas partidas de futebol, normalmente elencados por observadores que indicavam algum procedimento ou comportamento de jogador distinto, ou mesmo de uma equipe, porém sem tecer qualquer análise mais profunda sobre a questão. É o que poderíamos exemplificar com a marcação de gols durante um dos tempos da partida, indicação do tempo decorrido, sem maiores considerações. Os dados de investigações cientificas têm demonstrado que, quando os mesmos são aplicados ao treinamento desportivo pela comissão técnica, todos os aspectos da preparação do futebolista são aperfeiçoados. Para os especialistas em Matemática e Estatística, essa análise tem outra vertente e as condições para a existência do gol são observadas em todos os aspectos de fundamentos do futebol, mostrando da melhor maneira possível como aperfeiçoar as técnicas em uma partida de futebol que podem ser bem aproveitados pelos treinadores e outros integrantes da Comissão Técnica. Quando se faz uma leitura acurada podemos mostrar todo o perfil de um time de futebol, coletivamente ou individualmente, e em mãos adequadas eles podem ser reveladores da forma de proceder de todo o time no decorrer de uma competição.

Topo da página