Efeito de diferentes pontos de corte no pareamento probabilístico de domicílios do Censo Experimental e da Pesquisa de Avaliação da Cobertura da Coleta do Censo Experimental de Rio Claro, SP

Autor(es) e Instituição: 
Thiago Silva Soares - Fundação Instituto Brasileiro de Geografia e Estatística (IBGE)
Apresentador: 
Thiago Silva Soares

Para subsidiar cálculos das estimativas das taxas de cobertura da coleta do Censo Demográfico de 2010, a Pesquisa de Avaliação da Cobertura da Coleta pretende utilizar métodos de pareamento probabilístico para comparar os registros coletados no Censo com os de outra pesquisa independente em uma amostra de Setores Censitários. O objetivo deste estudo foi comparar diferentes pontos de corte quanto à sua eficiência e qualidade. Foram confrontados dados de quatro setores urbanos de Rio Claro. Os arquivos possuem 1405 registros do Censo Experimental 1467 registros da PA Experimental. O programa usado no pareamento foi o FEBRL versão 0.4.1 e para o tratamento dos arquivos de saída foram usados o SAS e o Excel. Para este teste, o Setor Censitário foi a variável geográfica natural de blocagem. As métricas de comparação foram escolhidas conforme características das variáveis e o cálculo dos parâmetros foi feito usando metodologia descrita no Manual de Integração de Dados do Instituto de Estatística da Nova Zelândia. O método de classificação foi o de Fellegi e Sunter. Os resultados para os diferentes pontos de corte, em número de pares formados e quantidade de falsos positivos foram: 17.49: 361 e 0, 13.49: 600 e 0, 8.99: 702 e 0 e 5.99: 449 e 3. Conclui-se que, para as finalidades a que se destina a esta Pesquisa, o melhor ponto de corte foi 8.99. A avaliação da eficiência do modelo utilizando o melhor ponto de corte revelou a viabilidade do método para economizar recursos e tempo, mas demonstrou não ser possível descartar a necessidade de pareamento assistido posterior.

Resumo estendido: