Censos e Levantamentos Amostrais

Análise de Correspondência Simples e Múltipla para Dados Amostrais Complexos

Autor(es) e Instituição: 
Augusto Carvalho Souza, UFMG
Ronaldo Rocha Bastos, UFJF
Marcel de Toledo Vieira, UFJF
Apresentador: 
Marcel de Toledo Vieira

Neste trabalho é apresentado um estudo sobre o efeito de planos amostrais complexos em alguns resultados de Análise de Correspondência Simples e Múltipla. Resultados indicam que tais métodos de análise exploratória de dados multivariados podem ser seriamente afetados pela estrutura do desenho adotado para a seleção da amostra estudada. A principal contribuição deste trabalho é uma proposta de uma metodologia que permitir a consideração do plano amostral na Análise de Correspondência Múltipla.

Resumo estendido: 

Amostragem na coleta de dados do Censo Demográfico 2010

Autor(es) e Instituição: 
Sonia Albieri - IBGE, Coordenação de Métodos e Qualidade
Marcos Paulo Soares de Freitas - IBGE, Coordenação de Métodos e Qualidade
Apresentador: 
Sonia Albieri

O Censo Demográfico 2010 vai adotar o mesmo modelo de investigação de características usado nos censos anteriores, qual seja, a utilização de dois questionários, aqui entendidos como dois conjuntos diferentes de quesitos para a mensuração de características de interesse: um questionário grande para ser aplicado em uma amostra de domicílios (e cada um de seus moradores) e outro, pequeno, para ser aplicado aos domicílios (e cada um de seus moradores) não selecionados para a amostra.
Esse modelo permite formar o que chamamos de conjunto universo, junção de todos os domicílios com as variáveis comuns aos dois questionários, que permite a obtenção de dados para 100% dos domicílios e da população brasileira. Adicionalmente, os domicílios e pessoas que respondem ao questionário da amostra formam o denominado conjunto amostra, a partir do qual são feitas as estimativas das características de interesse, nos níveis geográficos definidos pelo método de estimação, as áreas de ponderação, que não devem ser maiores do que um município.
Este documento apresenta as definições relacionadas com o plano amostral definido para a seleção das unidades a serem pesquisadas por meio do questionário grande, abordando as questões de tamanho da amostra, refletidas nas frações amostrais a serem aplicadas, e o algoritmo de seleção definido como alternativa à seleção sistemática simples em cada setor censitário, que foi usado até então nos censos brasileiros.

Standard Error Estimation for Measures of Population Change

Autor(es) e Instituição: 
Yves BERGER, University of Southampton, UK
Rodolphe PRIAM, University of Southampton, UK
Pedro SILVA, IBGE - Escola Nacional de Ciências Estatísticas
Apresentador: 
Pedro SILVA, IBGE - Escola Nacional de Ciências Estatísticas

A medição acurada de variações ao longo do tempo é problema de grande interesse em estatísticas públicas. Inferência sobre variações depende também da estimação acurada da precisão de estimativas de variações. Neste trabalho comparamos uma série de métodos propostos para estimar erros padrões de estimativas de variação entre totais, médias e razões, no caso de pesquisas amostrais repetidas com alguma sobreposição amostral planejada. Dados das pesquisas inglesa e brasileira de força de trabalho são empregados para motivar as simulações e ilustrações dos métodos analisados.

Tamanho de amostra para a pesquisa especial sobre tabagismo - PETab

Autor(es) e Instituição: 
Marcos Paulo Soares de Freitas
Giuseppe de Abreu Antonaci
Maurício Franca Lila
Sonia Albieri
Apresentador: 
Sonia Albieri

A Pesquisa Especial de Tabagismo – PETab foi uma pesquisa suplementar da PNAD 2008, utilizando toda a estrutura amostral dessa pesquisa. Uma característica restritiva importante dessa investigação foi a necessidade de entrevistar a própria pessoa selecionada para a pesquisa, em contraposição à forma usual da PNAD, que admite que as informações sejam fornecidas por outra pessoa moradora no domicílio.
Em função dessa restrição, a PETab foi realizada em uma subamostra da amostra de domicílios da PNAD e, em cada domicílio dessa subamostra, foi selecionado um morador de 15 anos ou mais de idade para responder às questões sobre tabagismo.
Dessa forma, a amostra da PETab foi uma amostra probabilística de pessoas de 15 anos ou mais de idade, obtida em quatro estágios de seleção, que toma por base a amostra da PNAD nos três primeiros estágios.
Os fatores de expansão ou pesos amostrais, para a PETab foram calculados em três etapas, considerando: a probabilidade de seleção; os ajustes pela não-resposta e os ajustes para calibração dos totais estimados pelas estimativas provenientes da PNAD.
Para cada célula das tabelas com as estimativas da PETab foi estimado o cv, e a média desses cvs ficou em 7,8%. Também foi efetuada uma avaliação da qualidade do plano tabular com o auxílio do programa Índice de Qualidade de Tabelas – ou IQT – que avalia a qualidade mediante fatores calculados a partir da precisão de suas estimativas. O resultado desta avaliação é uma nota que varia de 0 a 10, quanto maior a nota, melhor a precisão das estimativas. A nota final para o plano tabular da PETab foi de 9,6.
Este trabalho descreve os estudos realizados para dimensionamento da amostra para a pesquisa que investigou o tema tabagismo e o plano amostral escolhido.

Efeito de alocação de amostra em planos amostrais em dois estágios com estratificação

Autor(es) e Instituição: 
Natalia Raquel de Souza Pires
Cristiano Ferraz
José Plácido da Silva Jr.
Apresentador: 
Natalia Raquel de Souza Pires

O plano de amostragem em dois estágios é freqüentemente utilizado em levantamentos amostrais cujos cadastros listam apenas conglomerados. Em um primeiro estágio, conglomerados são selecionados como unidades amostrais primárias. No segundo estágio, listam-se previamente as unidades amostrais secundárias que compõem os conglomerados selecionados e, em seguida, uma amostra é retirada, observando-se as propriedades de independência e invariância (Särndal, Swensson and Wretmann, 1992, pág. 134). Uma das implicações desse plano é que a variância do estimador da média de uma variável de interesse, por exemplo, é composta pela soma de dois componentes: um devido ao primeiro e outro devido ao segundo estágio. Numa etapa de planejamento, é preciso identificar qual a melhor estratégia de alocação de tamanho de amostra: selecionar muitos conglomerados e poucos elementos dentro deles, ou, selecionar poucos conglomerados e muitos elementos dentro deles. Um plano de amostragem estratificado requer a disponibilidade de informação que defina os estratos antes da realização do levantamento. Uma vez definidos os estratos, ainda na etapa de planejamento, é necessário identificar uma estratégia de alocação de amostra para cada estrato. Várias dessas estratégias são descritas na literatura (Bolfarine e Bussab, 2005). Em muitas situações, planos amostrais complexos, com estratificação e múltiplos estágios são empregados. O exemplo de aplicação que motiva o presente trabalho é o da pesquisa realizada recentemente pela Comissão Pastoral da Terra (CPT) em Pernambuco, cujo plano amostral é estratificado em dois estágios. O objetivo deste trabalho é realizar um estudo de simulação computacional para investigar diversas estratégias de alocação de amostras (entre estratos e entre estágios), a fim de identificar qual delas seria a mais eficiente, no sentido de aumentar a precisão das estimativas de interesse. Os resultados, além de servir de base para recomendações de planos amostrais para futuras pesquisas da CPT, permitirão uma forma didática de compreensão do efeito que diversas estratégias de alocação amostral tem na qualidade das estimativas geradas.

Misspecification Effects in the Analysis of Longitudinal Survey Data

Autor(es) e Instituição: 
Marcel de Toledo Vieira, UFJF
M. Fátima Salgueiro, ISCTE
Peter W. F. Smith, University of Southampton
Apresentador: 
Marcel de Toledo Vieira

Misspecification effects (meffs) measure the inflation of the sampling variance of an estimator as a result of the use of complex sampling schemes. Many longitudinal social survey designs employ multi-stage sampling, leading to some clustering of the sample and to meffs greater than one. For a model for panel data we consider methods for estimating parameters which allow for complex schemes. An empirical study using longitudinal data from the British Household Panel Survey is conducted, and a simulation study is performed.

A tendência de evolução do indicador de aprovação: uma análise comparativa dos anos de 1982 e 2006

Autor(es) e Instituição: 
Victor Basílio Faria (Caed/UFJF)
Thiago Otoni Matos (Caed/UFJF)
Karine Fernandes de Carvalho (Caed/UFJF)
Apresentador: 
Victor Basílio Faria

Resumo:

O objetivo do trabalho proposto é analisar a evolução das proporções de aprovados no sistema educacional brasileiro entre os anos de 1982 e 2006 e citação da modelagem das curvas através do modelo Profluxo, ambos ilustrados com gráficos. Os dados brutos das PNADs de 1982 e 2006 foram o objeto do nosso estudo.
De início foi apresentado o referencial teórico que nos motivou a estudar estes dados, que nos mostra uma breve introdução aos paradigmas do Sistema de Ensino brasileiro que começou a ser discutido na década de 40 e teve seu ápice de novas propostas na década de 80 e vem sendo amplamente discutido até os dias atuais.
A partir dos dados brutos foram gerados gráficos de proporção de aprovados por idades, primeiro individualmente para cada ano para que se tivesse uma idéia da tendência de cada ano, como a tendência de conglomerados para 1982 ( primário e ginásio). Posteriormente foi comparado as curvas da 1° série do Ensino Fundamental para cada ano, para que se tivesse uma idéia da grande evolução da proporção de aprovados.
Por fim citamos o modelo do Profluxo proposto na década de 80, que é utilizado para modelagem das curvas de proporção de ingressos e de aprovados, assim como a influência de cada parâmetro no comportamento das curvas.
Concluímos que houve um grande crescimento no percentual de aprovados no Sistema de Ensino brasileiro nas últimas duas décadas e que o modelo proposto mostra isso de forma muito satisfatória.

Resumo estendido: 

Inovações no sistema de pareamento de domicílios e pessoas para a Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010

Autor(es) e Instituição: 
Andréa Diniz da Silva - IBGE
Álvaro de Moraes Frota - IBGE
Flavia Pinto da Silva - IBGE
Otavio Sant’Ana Martins Romeo - IBGE
Thiago Silva Soares - IBGE
Apresentador: 
Andréa Diniz da Silva

Em um país de dimensões continentais como o Brasil, com relativa complexidade na disposição dos domicílios nos logradouros e, sobretudo, com reais dificuldades de acesso a determinadas localidades, a realização de um Censo está sujeita a diferentes tipos de erros que podem resultar em falha de cobertura da coleta. Considerando a necessidade de se medir a qualidade da cobertura da operação censitária, a Pesquisa de Avaliação da Cobertura da Coleta - PA é parte integrante do Censo brasileiro desde 1970. A Pesquisa é realizada por amostragem e compreende uma segunda coleta em setores probabilisticamente selecionados em cada uma das unidades da Federação. As informações provenientes de ambas as coletas são confrontadas e utilizadas na estimação das taxas de cobertura da coleta do Censo. Até o ano de 2000, o confronto das informações coletadas pelo Censo com aquelas coletadas na PA era feito comparando-se os questionários de ambas as coletas. O desenvolvimento de métodos computacionais para a realização do pareamento possibilita o uso de técnicas de Record Linkage no confronto das informações provenientes do Censo e da PA. A automatização do sistema de pareamento gera ganho de qualidade em relação ao pareamento não-automático pois permite o estabelecimento de critérios objetivos e padronizados, além de não estar sujeita à perda de qualidade inerente aos processos baseados em ações repetitivas. Este trabalho apresenta o sistema de pareamento automático da PA 2010 e seus aspectos metodológicos, os quais se fundamentam nos autores mais relevantes na bibliografia como: Jaro, Winkler, Fellegi e Sunter, Gill etc. Além disso, serão apresentados os softwares que estão sendo testados para a implementação das diferentes etapas do processo de pareamento.

Estimação em Pequenas Áreas do Número de Domícilios em Situação de Pobreza na Inglaterra e País de Gales

Autor(es) e Instituição: 
Nargis Rahman, Philip Clarke and Kevin McGrath – ONS-UK
Denise Britz do N. Silva - IBGE
Apresentador: 
Denise Britz do Nascimento Silva

Os institutos nacionais de estatística enfrentam o desafio de produzir informações abrangentes, precisas e confiáveis sob constante restrições finaceiras e de tempo. A pressão para reduzir os tamanhos de amostra e o ônus dos entrevistados torna necessário o desenvolvimento de métodos para produzir estatísticas utilizando-se uma combinação de fontes de dados. Os procedimentos de estimação em pequenas áreas abrangem uma variedade de métodos utilizados para obter estimativas para áreas geográficas ou domínios de estudo nos quais os tamanhos de amostra são demasiado pequenos para fornecer estimativas diretas confiáveis.

O Office for National Statistics (ONS-UK) já utiliza modelos para estimação em pequenas áreas para produzir estatísticas sobre renda e mercado de trabalho. No caso de estatísticas relacionadas com a variável renda, o ONS publica, para pequenas áreas, apenas estimativas de renda média. Existe todavia a demanda por estatísticas relacionadas às medidas de pobreza, tal como a proporção de pobres que é calculada considerado-se uma linha de pobreza cujo valor corresponde a 60% da renda mediana nacional.

Este artigo descreve o método de estimação em pequenas áreas utilizado para estimar a proporção de domicílios abaixo da linha de pobreza na Inglaterra e País de Gales e apresenta os resultados correspondentes. O método baseia-se na formulação de um modelo logístico com efeito aleatório de área. O modelo em questão permite explicar 89.5% da variabilidade entre áreas e também distinguir 24% das áreas com maior pobreza daquelas com pobreza mais acentuada.

Trabalho completo: 

Efeito de diferentes pontos de corte no pareamento probabilístico de domicílios do Censo Experimental e da Pesquisa de Avaliação da Cobertura da Coleta do Censo Experimental de Rio Claro, SP

Autor(es) e Instituição: 
Thiago Silva Soares - Fundação Instituto Brasileiro de Geografia e Estatística (IBGE)
Apresentador: 
Thiago Silva Soares

Para subsidiar cálculos das estimativas das taxas de cobertura da coleta do Censo Demográfico de 2010, a Pesquisa de Avaliação da Cobertura da Coleta pretende utilizar métodos de pareamento probabilístico para comparar os registros coletados no Censo com os de outra pesquisa independente em uma amostra de Setores Censitários. O objetivo deste estudo foi comparar diferentes pontos de corte quanto à sua eficiência e qualidade. Foram confrontados dados de quatro setores urbanos de Rio Claro. Os arquivos possuem 1405 registros do Censo Experimental 1467 registros da PA Experimental. O programa usado no pareamento foi o FEBRL versão 0.4.1 e para o tratamento dos arquivos de saída foram usados o SAS e o Excel. Para este teste, o Setor Censitário foi a variável geográfica natural de blocagem. As métricas de comparação foram escolhidas conforme características das variáveis e o cálculo dos parâmetros foi feito usando metodologia descrita no Manual de Integração de Dados do Instituto de Estatística da Nova Zelândia. O método de classificação foi o de Fellegi e Sunter. Os resultados para os diferentes pontos de corte, em número de pares formados e quantidade de falsos positivos foram: 17.49: 361 e 0, 13.49: 600 e 0, 8.99: 702 e 0 e 5.99: 449 e 3. Conclui-se que, para as finalidades a que se destina a esta Pesquisa, o melhor ponto de corte foi 8.99. A avaliação da eficiência do modelo utilizando o melhor ponto de corte revelou a viabilidade do método para economizar recursos e tempo, mas demonstrou não ser possível descartar a necessidade de pareamento assistido posterior.

Resumo estendido: 
Divulgar conteúdo