Um alerta sobre o uso de amostras pequenas na regressão logística.

Apresentador: 
Rodrigo Coster

A regressão logística está cada dia mais presente nas pesquisas, porém, sabe-se que seus estimadores só possuem boas propriedades se o tamanho de amostra for grande. Entretanto, nem sempre o tamanho amostral utilizado nos estudos é o ideal. Uma regra de bolso para o tamanho amostral amplamente conhecida é de que se deve ter pelo menos dez eventos (sucessos ou fracassos, dependo do que for mais raro) para cada variável independente do modelo. Entretanto, o estudo de simulação a partir do qual esta regra foi elaborada, bem como todos os estudos de simulação encontrados em levantamento bibliográfico realizado, verificou o desempenho da regressão logística apenas para estimar os coeficientes do modelo e não as razões de chances. Através de um estudo simulado de três cenários, mostramos o quão perigoso é usar amostras pequenas para estimar a razão de chance, além de alternativas para o cálculo do tamanho de amostra mínimo para cada caso. Concluímos que as regras utilizadas levando em conta a estimação dos coeficientes não garantem boas propriedades na estimação das razões de chances. Em nossas simulações, encontramos vícios maiores na estimação da razão de chance do que do respectivo coeficiente do modelo. Também entre as conclusões, chamamos atenção para os casos de separação e destacamos que variáveis contínuas são preferíveis à variáveis categóricas.

Resumo estendido: