Comparação de Técnicas de Classificação utilizando a Distância de Mahalanobis amostral com técnicas de detecção de outliers

Autor(es) e Instituição: 
Manoel Raimundo de Sena Junior
Abraão David Costa do Nascimento
Apresentador: 
Manoel Raimundo de Sena Junior

As técnicas de classificação que utilizam a distância de Mahalanobis amostral partem do princípio que as observações seguem uma distribuição normal p-variada, e associam uma área pequena da distribuição quando essa distância é grande. Portanto, se a distância de uma observação ao centro da distribuição é grande é indicativo de que essa observação não deve pertencer a esse grupo (ou população). O problema é definir limites para que essa distância seja considerada grande (ou pequena). O que é feito, em geral, é estabelecer um quantil da distribuição dessa distância e associar com a área (pequena) da distribuição. Gnanadesikan and Kettenring (1972), mostraram que a estatística b(xi)=(n/(n-1)2)di, tem distribuição beta[(p/2),(n-p-1)/2], onde di representa i-ésima distância de Mahalanobis amostral, sendo cada xi um vetor de observações e Sena-Jr (1997) mostrou que F(x0) = [(n-p)/(p(n-1))][(n/(n+1)]d0 tem distribuição F(p,n-p), onde d0 também representa a distância de Mahalanobis amostral da nova observação. A diferença entre as duas estatísticas está no fato que a b(.) calcula todas as distâncias, incluindo a que desejamos classificar, enquanto a F(.) calcula apenas a nova observação, isto é a b(.) inclui a nova observação no conjunto e observa se a sua distância é compatível com as demais, enquanto a F(.) verifica apenas uma única vez. Por outro lado técnicas de detecção de observações aberrantes ou de detecção de outliers, pode ser usada com alternativa a essa aproximação, já que a suposição de normalidade não pode ser violada na construção das distancia b(xi) e F(xi), embora algumas técnicas de detecção de outliers também inclua essa suposição.

Resumo estendido: