Análise Multivariada

“Raio de Influência”: um método de agrupamento alternativo para Análise de Cluster.

Autor(es) e Instituição: 
Bruno Monte de Castro, DEMA, UFC
Silvia Maria de Freitas, DEMA, UFC
Bruno de Athayde Prata, UNIFOR
George Leitão Evangelista, DEMA, UFC
Apresentador: 
Bruno Monte de Castro

A análise multivariada, de uma maneira geral, refere-se a todos os métodos estatísticos que, de forma simultânea, analisam múltiplas variáveis em relação aos objetos em investigação. Dentre esses métodos, destaca-se a análise de cluster ou agrupamento, que se aplica em diversas áreas. As técnicas de análise de cluster têm a função de organizar, em grupos disjuntos, os objetos em estudo, de forma que os mesmos apresentem semelhanças entre si – dentro de cada grupo. Essas técnicas dividem-se em hierárquicas e não-hierárquicas, sendo que não existe uma técnica “ótima”, pois ambas apresentam vantagens e desvantagens. Com o interesse em suprir essa falha, é proposto nesse trabalho uma nova abordagem para agrupamentos, unindo-se as características das duas técnicas na forma de um algoritmo híbrido chamado de Raio de Influência. Um exemplo clássico usado na literatura foi testado, verificando-se e comparando-se os seus resultados com os outros métodos já conhecidos. As comparações feitas são expostas na forma de um gráfico, chamado Dendograma que mostra o layout do agrupamento.

Resumo estendido: 

Análise de Correspondência de Pacientes com HIV/AIDS, Internados no Hospital Universitário João de Barros Barreto (HUJBB), da Região Metropolitana de Belém, Estado do Pará

Autor(es) e Instituição: 
Gilzibene Marques da Silva; Universidade Federal do Pará
Adrilayne dos Reis Araújo; Universidade Federal do Pará
Apresentador: 
Adrilayne dos Reis Araújo

Este estudo apresenta uma abordagem de pacientes com HIV/AIDS internados no Hospital Universitário João de Barros Barreto, uma contextualização e conceitos de análise correspondência, suas principais características e aplicação da técnica. Durante a aplicação da técnica estatística observou-se uma boa relação entre as variáveis faixa etária versus estado civil e faixa etária versus tempo de estudo, pois as categorias das mesmas apresentaram um nível de confiança maior ou igual a 70% que é considerável satisfatório para a aplicação da técnica. As possíveis associações entre as categorias das variáveis estudadas, tais como, o Estado Civil Solteiro que está associado à Faixa Etária de 24 a 30 anos de idade; Casado está associado as faixas etárias de 42 a 48 anos, 54 a 60 anos e 60 ou mais anos; Viúvo está associado a faixas de 48 a 54 anos; Divorciado está associado as faixas de 42 a 48 anos e 48 a 54 anos. Além disso, quem não estudou nenhum ano se associa a faixa menor que 1 ano, de 1 a 12 anos; quem estudou de 1 a 3 anos está associado a faixa etária de 54 a 60 anos de idade; quem estudou de 4 a 7 anos associa-se a faixa etária de 12 a 18 anos de idade; quem estudou de 8 a 11 anos está associado a faixa etária de 24 a 30 anos de idade e por fim quem estudou acima de doze anos associa-se a faixa etária de 60 anos ou mais.

Os métodos Biplot em Escalonamento multidimensional

Autor(es) e Instituição: 
Édila Cristina de Souza (UFMT)
Carlos Tadeu dos Santos Dias (ESALQ)
Francisco Bezerra Neto (UNIFERSA)
Glauber Henrique Sousa Nunes (UNIFERSA)
Apresentador: 
Édila Cristina de Souza

O objetivo deste trabalho foi avaliar os métodos estatísticos de análise da interação de genótipos com ambientes (G x A), enfatizando a adaptabilidade e a estabilidade fenotípica. A variável estudada foi produção do melão do tipo Gália, testando 9 genótipos em 12 ambientes. O experimento foi conduzido no delineamento aleatorizado em blocos com 3 repetições, realizado no Pólo Agroindustrial Mossoró-Assu no Rio Grande do Norte. Como proposta, utilizou-se a metodologia MDS (Multidimensional Scaling) para verificar as similaridades e dissimilaridades entre os ambientes, através de uma matriz de distâncias, representando geometricamente os dados no espaço bidimensional (Biplot).

Resumo estendido: 

An Improved |S| Control Chart for Multivariate Process Variability Monitoring based on Cornish-Fisher Correction

Autor(es) e Instituição: 
Emanuel Pimentel Barbosa - Imecc/ Unicamp
Mario Antonio Gneri - Imecc/ Unicamp
Ariane Meneguetti - Imecc/ Unicamp
Apresentador: 
Ariane Meneguetti

This paper presents an improved version of the generalized variance |S| control chart for multivariate process dispersion monitoring, based on the Cornish-Fisher formula for non-normality correction of the usual normal based 3-sigma limits chart. The exact sample distribution of |S| doesn't have a simple known form for dimension p>2, and we show here that the information from its 3rd and 4th order moments or cumulants are sufficient for a satisfactory approximation. The performance of this corrected control chart is compared (in terms of false alarm risk) with the original normal based chart and the exact distribution based chart (for p=2 and p=3) where in the last case (p=3), the exact distribution is obtained by simulation methods. This study shows that the control limits corrections do remove the drawback of excess of false alarm associated with the traditional normal based |S| control chart. Finally, the proposed new chart is illustrated with a numerical example of application with real data.

ESTIMATIVA DA PERFILAGEM EM POÇOS DE PÉTROLEO UTILIZANDO A ESTATÍSTICA MULTIVARIADA

Autor(es) e Instituição: 
Evelyn Souza Chagas / Universidade Federal de Sergipe
Dra. Suzana Leitão Russo / Universidade Federal de Sergipe
Msc. Vitor Hugo Simon / PETROBRAS
Apresentador: 
Evelyn Souza Chagas

O perfil sônico é utilizado, principalmente em poços pioneiros, que recebem maiores investimentos para aquisição de dados, pois esses poços servem como referência para analisar o potencial petrolífero da área. Para poços considerados de explotação, normalmente não são corridas as ferramentas sônicas por motivos econômicos, principalmente nos tempos de preço de petróleo baixo. Como não é viável economicamente fazer uma aquisição do perfil sônico, na grande maioria dos poços antigos, principalmente em decorrência da parada da produção do óleo, deve-se recorrer a outros meios para solucionar o problema. Uma das maneiras é utilizar métodos estatísticos que gerem um perfil sônico, dito sintético, para estabelecer estimativas das velocidades sísmicas das rochas ao longo dos poços. Assim, esse trabalho visa determinar um modelo que gere perfis sônicos sintéticos em poços de petróleo perfurados nas unidades geológicas pertencentes a Bacia Sedimentar Sergipe-Alagoas e que estejam dentro dos padrões de qualidade necessários. Este trabalho tem o apoio financeiro da FAPITEC.

Resumo estendido: 

APLICAÇÃO DA ANÁLISE DE COMPONENTES PRINCIPAIS NA SELEÇÃO DE CARACTERÍSTICAS DE SOLO

Autor(es) e Instituição: 
Marina Rodrigues Maestre - ESALQ/USP
Simone Daniela Sartorio - ESALQ/USP
Cláudio Roberto Marciano - UENF/CCTA
Fernando Carvalho Oliveira - Biossolo Agricultura & Ambiente Ltda
Sônia Maria De Stefano Piedade - ESALQ/USP
César Gonçalves de Lima - FZEA/USP
Apresentador: 
Marina Rodrigues Maestre

Em estudos agronômicos, a caracterização do solo é de grande importância, para prever produções, fertilidade e erosão. O objetivo deste trabalho foi utilizar a técnica de análise de componentes principais no intuito de reduzir a dimensionalidade dos dados que caracterizam o solo, eliminando as informações redundantes. Um conjunto de 6 variáveis respostas foi considerado inicialmente, que apresentou multicolinearidade e esta foi resolvida retirando-se a variável porcentagem de argila. A análise prosseguiu considerando apenas as variáveis: porcentagem de areia; porcentagem de silte; densidade da partícula; porosidade; e concentração de carbono orgânico. Com base nos resultados, concluiu-se que 50% das variáveis analisadas foram consideradas redundantes e que a dimensão dos dados pode ser reduzida a três por meio do método das componentes principais.

Uma Análise Comparativa de Modelos para Classificação e Previsão de Sobrevivência ou Óbito de Crianças Nascidas no Rio de Janeiro em 2006 no Primeiro Ano de Vida

Autor(es) e Instituição: 
Mariana Pereira Nunes, ENCE/IBGE
Daniel Takata Gomes, ENCE/IBGE
Apresentador: 
Daniel Takata Gomes

A Taxa de Mortalidade Infantil (TMI) é muito importante para avaliar a qualidade de vida de uma população. A partir das informações do Ministério da Saúde (MS) provenientes do Sistema de Informação de Nascidos Vivos (SINASC) e do Sistema de Informações de Mortalidade (SIM) foi possível verificar como diversos fatores, como biológicos, socioeconômicos e assistenciais, estão relacionados à mortalidade de crianças no primeiro ano de vida. Assim, técnicas de Análise Multivariada e Redes Neurais foram utilizadas com o objetivo de prever o óbito (ou não) da criança no primeiro ano de vida a partir da Declaração de Nascido Vivo (DN). Em seguida essas duas metodologias foram comparadas quanto à sua eficácia na previsão dos óbitos.

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Resumo estendido: 

Comparação de Técnicas de Classificação utilizando a Distância de Mahalanobis amostral com técnicas de detecção de outliers

Autor(es) e Instituição: 
Manoel Raimundo de Sena Junior
Abraão David Costa do Nascimento
Apresentador: 
Manoel Raimundo de Sena Junior

As técnicas de classificação que utilizam a distância de Mahalanobis amostral partem do princípio que as observações seguem uma distribuição normal p-variada, e associam uma área pequena da distribuição quando essa distância é grande. Portanto, se a distância de uma observação ao centro da distribuição é grande é indicativo de que essa observação não deve pertencer a esse grupo (ou população). O problema é definir limites para que essa distância seja considerada grande (ou pequena). O que é feito, em geral, é estabelecer um quantil da distribuição dessa distância e associar com a área (pequena) da distribuição. Gnanadesikan and Kettenring (1972), mostraram que a estatística b(xi)=(n/(n-1)2)di, tem distribuição beta[(p/2),(n-p-1)/2], onde di representa i-ésima distância de Mahalanobis amostral, sendo cada xi um vetor de observações e Sena-Jr (1997) mostrou que F(x0) = [(n-p)/(p(n-1))][(n/(n+1)]d0 tem distribuição F(p,n-p), onde d0 também representa a distância de Mahalanobis amostral da nova observação. A diferença entre as duas estatísticas está no fato que a b(.) calcula todas as distâncias, incluindo a que desejamos classificar, enquanto a F(.) calcula apenas a nova observação, isto é a b(.) inclui a nova observação no conjunto e observa se a sua distância é compatível com as demais, enquanto a F(.) verifica apenas uma única vez. Por outro lado técnicas de detecção de observações aberrantes ou de detecção de outliers, pode ser usada com alternativa a essa aproximação, já que a suposição de normalidade não pode ser violada na construção das distancia b(xi) e F(xi), embora algumas técnicas de detecção de outliers também inclua essa suposição.

Resumo estendido: 

Escores Ponderados a partir da Solução HOMALS

Autor(es) e Instituição: 
Márcio Luis Moreira de Souza, UFJF
Ronaldo Rocha Bastos, UFJF
Marcel de Toledo Vieira, UFJF
Apresentador: 
Márcio Luis Moreira de Souza

A partir da utilização da análise multivariada de dados, especificamente da Análise de Homogeneidade, conhecida na literatura pela sigla HOMALS, este trabalho propõe uma nova maneira de calcular os escores ponderados a partir de um conjunto de dados categóricos. A técnica de HOMALS, também citada como Análise de Correspondência Múltipla, é bastante abrangente, sendo utilizadas nas mais diversas áreas de conhecimento principalmente por permitir uma rica e detalhada análise gráfica das inter-relações (correspondências) entre um grande contingente de variáveis categóricas. A principal proposta deste trabalho é propor uma metodologia para o cálculo de escores ponderados a partir de um conjunto de dados categóricos considerando a média ponderada dos valores numéricos das categorias às quais o respondente pertence, dadas todas as variáveis analisadas por meio da técnica de HOMALS.

Resumo estendido: 

Análise de Correspondência para Dados Longitudinais sobre Atitudes

Autor(es) e Instituição: 
Laura Leal Nunes, UFJF
Bruno Caetano Vidigal, UFJF
Márcio Luís Moreira de Souza, UFJF
Ronaldo Rocha Bastos, UFJF
Apresentador: 
Laura Leal Nunes

A Análise de Correspondência (AC) é uma das diversas técnicas de análise bivariada e multivariada desenvolvida para o estudo da relação entre variáveis categorizadas em tabelas de contingência. Permite a visualização das linhas e colunas como pontos em espaços vetoriais de dimensões reduzidas em um novo sistema de eixos ortogonais. Para tabelas multidimensionais a metodologia é conhecida por Análise de Correspondência Múltipla (ACM). Uma aplicação de ACM a dados longitudinais da BHPS (British Household Panel Survey), que realiza pesquisas domiciliares do tipo painel com indivíduos da Grã-Bretanha coletando dados sócio-demográficos, econômicos, de satisfação e de atitudes, dentre outros, é apresentada. Após as análises dos resultados observou-se a consistência das perguntas e da escala ordinal adotada, confirmada pela disposição dos pontos na solução gráfica.
A partir da análise gráfica, pode-se perceber que, independente dos momentos e das variáveis utilizadas, não houve mudanças drásticas nas atitudes das mulheres estudadas ao longo do tempo. As opiniões mais conservadoras, bem como as mais liberais se aglutinam em posições opostas para todos os momentos considerados na primeira dimensão - eixo que explica a maior parte da inércia - da solução gráfica.

Palavras-chave: análise de correspondência; análise multivariada; atitudes, dados longitudinais

Resumo estendido: 
Divulgar conteúdo