Estatística Não-Paramétrica
Comparação de funções de regressão com abordagem não paramétrica
A comparação de duas ou mais funções de regressão é um assunto bastante discutido. Os métodos clássicos utilizam modelos paramétricos para a função de regressão e comparam os parâmetros resultantes dos modelos. A desvantagem desta abordagem e que ela exige a especificação de um modelo matemático, que nem sempre e possível obter. Em estudos recentes têm sido propostos vários testes para igualdade de funções de regressão usando método do Núcleo Estimador. O nosso trabalho e baseado no método proposto por Dette e Neumeyer (2001), no qual os autores desenvolveram um teste bootstrap baseado na diferença entre um estimador não paramétrico de variância na amostra combinada, e uma combinação convexa dos estimadores não paramétricos das variâncias das amostras individuais. Porém a escolha da janela, h, é um ponto fundamental para se obter uma boa estimativa da função de regressão de interesse. A opção por valores inadequados podem obscurecer a relação das variáveis do modelo e, consequentemente prejudicar a qualidade do ajuste. Assim, o objetivo principal deste trabalho e testar o efeito da escolha da janela na comparação de funções de regressão. A motivação para este trabalho se situa no fato de que, ao estudarmos a literatura sobre a comparação de curvas de regressão, não encontramos um método automático para a seleção do parâmetro de suavização. Para ilustrar o impacto da escola do parâmetro de suavização utilizamos dados de homicídios de algumas cidades da região metropolitana de Belo Horizonte.
Ensino da Correlação de Postos no Ensino Médio
Dentre os procedimentos estatísticos, um dos mais populares é a correlação linear, em que são estudadas duas variáveis medidas em um único indivíduo concomitantemente. Tal popularidade se justifica em função do possível relacionamento existente entre características num mesmo indivíduo. Entretanto, o coeficiente de correlação linear de Pearson, que é o procedimento mais conhecido para a obtenção desse tipo de relacionamento, nem sempre é adequado, especialmente quando uma ou ambas as variáveis são medidas em escala ordinal. Nessas situações, o coeficiente de correlação de Spearman é mais adequado por levar em consideração a ordem dos dados e não o seu valor intrínseco. Ainda, quando os dados obtidos das variáveis não aderem à distribuição normal devido, por exemplo, à presença de valores discrepantes (outliers), o coeficiente de correlação de Spearman é um bom substituto para a verificação do inter-relacionamento das variáveis consideradas. O coeficiente de correlação de Spearman é simples de calcular e de fácil compreensão, especialmente quando o número de pares de dados (ou indivíduos) é pequeno. Neste trabalho busca-se incentivar a introdução de novas metodologias estatísticas no ensino médio, especificamente do coeficiente de correlação de Spearman, fortalecendo e enriquecendo o conhecimento dos alunos e professores do ensino médio e trazendo, ainda que de forma incipiente, um pouco da realidade cotidiana para a sala de aula.
Preenchimento de Falhas em Dados Espaciais Binários de Precipitação Utilizando Máquinas de Vetor de Suporte (Support Vector Machines)
Falhas em dados observacionais é um problema frequente em estatística, aparecendo na análise de dados de diversas áreas do conhecimento e exigindo muitas vezes modelos complexos para preenchimento dessas falhas. No campo de hidro-climatologia, é comum observar falhas (ausências) em dados históricos de precipitação obtidos de estações pluviométricas. Com a crescente demanda pela água e sinais de esgotamento global desse recurso, torna-se necessário o preenchimento dessas falhas para um melhor entendimento dos padrões espaço-temporais de oferta hídrica e para que se possa prever com melhor confiabilidade e menor incerteza o comportamento futuro desse recurso natural. Dessa forma, é apresentado neste trabalho um modelo estatístico baseado em máquinas de vetor de suporte (SVM) para o preenchimento de falhas em dados de chuva diária de diversas estações pluviométricas. Os dados utilizados são binários, sendo que 0 representa um dia sem chuva ou estado seco, e 1 representa um dia chuvoso, ou estado úmido. A título de comparação, utilizou-se também o método dos vizinhos (knn) e regressão logística para o problema analisado. Os modelos foram testados a partir dos dados de chuva diária de 504 estações pluviométricas localizadas no Nordeste Brasileiro, que é uma região caracterizada por um complexo padrão espaço-temporal de chuva. As taxas de acerto obtidas a partir de validação cruzada mostram uma melhor performance do método SVM para preenchimento de falhas em dados binários de chuva. Assim, identificam-se novos caminhos para a disseminação e uso de técnicas inovadoras como SVM na análise de dados hidro-climatológicos.
Uso do teste de aleatorização para comparar dois grupos considerando teste não paramétrico
Muitas vezes o pesquisador está interessado em comparar médias ou a forma da distribuição de dois grupos. Uma maneira para compará-los seria aplicando testes paramétricos, tais como o Teste T ou Teste Z (no caso de duas amostras independentes) ou o Teste T pareado. Porém, tais testes apresentam certas exigências que freqüentemente podem não ser atendidas. Neste caso, é indicada a utilização de testes não paramétricos ou o teste de aleatorização. Este teste é baseado na suposição de que, se a hipótese nula é verdadeira, todas as possíveis ordens dos dados são igualmente prováveis. O teste de aleatorização é um procedimento em que se comparam valores de uma estatística observada para os dados no arranjo original com os valores desta estatística após a aleatorização das observações. A regra de decisão é baseada no p-valor - proporção de vezes em que a estatística de teste com os aleatorizados é maior ou igual a estatística de teste com os dados do arranjo original. Se o p-valor for menor que o nível de significância, rejeita-se Ho. É importante escolher adequadamente a estatística de teste e como neste estudo foram comparadas as médias de duas amostras independentes e pequenas e as exigências para o uso de testes paramétricos não foram atendidas, a estatística utilizada foi a do teste não paramétrico Wilcoxon-Mann-Whitney. Dentre as vantagens em se utilizar o teste de aleatorização, destaca-se o uso em amostras não aleatórias e/ou amostras pequenas, porém seu resultado não pode ser generalizado para a população. Observa-se ainda que o teste de aleatorização não apresenta tantas exigências quanto os métodos convencionais. Para ilustração deste teste foi utilizado um conjunto de dados de plantas de milho, em que as variáveis estudadas foram as alturas da plantas. Essas alturas foram medidas no vigésimo dia após sua germinação. Foram cultivadas quatro plantas à sombra e cinco ao sol e o objetivo foi verificar se o ambiente à sombra ou ao sol influencia em seu crescimento. Após a aplicação do teste de aleatorização considerando a estatística do teste de Wilcoxon-Mann-Whitney e 10.000 aleatorizações obteve-se p-valor=0,9666. Como este valor é maior que o nível de significância (alfa=0,05), então não há evidências suficientes para rejeitar Ho, ou seja, as amostras são provenientes da mesma população, o que equivale a afirmar que há evidencias de que o ambiente não influencia no crescimento das plantas.
Análise Não-Paramétrica de Dados Funcionais: Uma Aplicação à Quimiometria
Devido à grande evolução dos computadores tornou-se comum coletar dados de alta dimensão. A quimiometria, que é a aplicação de métodos estatísticos e matemáticos à dados de origem química, pode ser citada como exemplo, pois nestes casos os dados são espectros que geralmente são observados em vários comprimentos de onda. O problema de como combinar estes espectros de forma ótima com o objetivo de aproximar medidas de concentrações é um problema de calibração multivariada. Em geral, esta calibração é feita com técnicas de estatística multivariada, que por sua vez, apresentam sérias dificuldades em lidar com a alta dimensão dos dados. Neste trabalho propomos um modelo que considere as características funcionais intrínsecas deste tipo de problema, uma vez que as técnicas de estatística multivariada não consideram tais características.
Algumas das técnicas de estatística multivariada mais utilizadas são de regressão linear múltipla multivariada (MLR) e regressão por mínimos quadrados parciais (PLS). Estas técnicas resumem a informação da matriz de dados, seja por escolha de quem está modelando, seja por análise de componentes principais e isto pode ocasionar perda de informações importantes para as análises. Devido a estas dificuldades propomos um modelo que considera o dado como ele é, uma função, e não como um dado multivariado e propomos também um modelo funcional para a estrutura de covariância. Ambos os modelos propostos utilizam a análise de dados funcionais (ADF) e por isso não apresentam as dificuldades comuns dos métodos de estatística multivariada, uma vez que a alta dimensão dos dados não é tao restritiva quanto nas técnicas multivariadas.
A Capacidade de Autocuidado dos Idosos Usuários do Programa de Enfermagem Gerontogeriátrica da Universidade Federal Fluminense
Este trabalho apresenta um estudo exploratório para a determinação de escalas relacionadas às capacidades de autocuidado de idosos. A amostra consistiu em idosos inscritos no programa “A Enfermagem na Assistência à Saúde do Idoso e seus Cuidadores” da Universidade Federal Fluminense - EASIC/UFF. A pesquisa, iniciada em agosto de 2008, teve duração de um ano e foi feita por meio de entrevistas com perguntas fechadas contidas na Escala de Autocuidado de ASA-A, validada por Silva [1]. O instrumento foi aplicado no momento da consulta agendada para os 48 idosos saudáveis e/ou portadores de doenças crônicas degenerativas (exceto demências). Cada um dos 24 itens deste questionário admite respostas em uma escala Likert. Estes dizem respeito à: disponibilidade, vontade e condições dos idosos em modificarem as suas vidas, e ainda permitem avaliar os cuidados com a alimentação, higiene e peso, além de outras características. Para melhor caracterização dos idosos, também foram incluídas informações sobre gênero, idade, escolaridade e estado civil.
Comparação de Métodos para Definição de Linhas de Corte para Testes baseados em Critérios.
O estabelecimento da linha de corte de um teste refere-se ao processo pelo qual uma nota para a aprovação dos examinados é determinada. No caso de testes baseados em norma, i.e., quando se deseja comparar os examinados e selecionar os melhores, a linha de corte é usualmente definida como o número de vagas, como por exemplo, vestibular ou concurso. Por outro lado, quando se está trabalhando com testes baseados em critérios, i.e, quando se deseja, por exemplo, conhecer o desempenho individual dos examinados, como certificação ocupacional ou habilitação para dirigir, há na literatura uma gama de métodos. Se essa nota de aprovação for definida sem que o teste propriamente dito seja a referência, um teste fácil poderá produzir um número substancialmente maior de aprovados, em detrimento dos examinados minimamente qualificados; e um teste difícil poderá ter o efeito oposto, reprovando examinados injustamente que teriam méritos para aprovação. Esse estudo tem o objetivo de descrever e comparar três métodos existentes na literatura para a definição de linhas de corte, Holístico, Nedelsky e Angoff. O método Nedelsky apresentou resultados mais discrepantes em relação aos outros métodos.
A robust rank test for location under asymmetry
We propose a winsorized adaptative signed rank test for the location alternative for samples coming from asymmetric distributions. We give conditions under which the proposed test can have either greater or smaller acceptance breakdown, than the acceptance breakdown of a recently appeared adaptative rank test for location under asymmetry. Moreover, when symmetry of the sampled distribution can be justified the proposed test has greater acceptance breakdown than the winsorized signed rank test.
COMPARAÇÃO DE FUNÇÕES DE REGRESSÃO COM ABORDAGEM NÃO PARAMÉTRICA
A comparação de duas ou mais funções de regressão é um assunto bastante discutido. Os métodos clássicos utilizam modelos paramétricos para a função de regressão e comparam os parâmetros resultantes dos modelos. A desvantagem desta abordagem e que ela exige a especificação de um modelo matemático, que nem sempre e possível obter. Em estudos recentes têm sido propostos vários testes para igualdade de funções de regressão usando método do Núcleo Estimador. O nosso trabalho e baseado no método proposto por Dette e Neumeyer (2001), no qual os autores desenvolveram um teste bootstrap baseado na diferença entre um estimador não paramétrico de variância na amostra combinada, e uma combinação convexa dos estimadores não paramétricos das variâncias das amostras individuais. Porém a escolha da janela, h, é um ponto fundamental para se obter uma boa estimativa da função de regressão de interesse. A opção por valores inadequados podem obscurecer a relação das variáveis do modelo e, consequentemente prejudicar a qualidade do ajuste. Assim, o objetivo principal deste trabalho e testar o efeito da escolha da janela na comparação de funções de regressão. A motivação para este trabalho se situa no fato de que, ao estudarmos a literatura sobre a comparação de curvas de regressão, não encontramos um método automático para a seleção do parâmetro de suavização. Para ilustrar o impacto da escola do parâmetro de suavização utilizamos dados de homicídios de algumas cidades da região metropolitana de Belo Horizonte.
Pruebas de rachas recortadas para simetría
Se utiliza el número de rachas que quedan después de recortar una sucesión dicotomizada para construir pruebas de rachas para la hipótesis de simetría. Las pruebas propuestas se comparan en términos de su potencia con algunas de las pruebas aparecidas recientemente para dicho problema en tamaños de muestra $n=10(1)25$, $n=30$, $n=50(50)250$ y $n=500$. Para la comparación se utilizaron métodos de Monte Carlo y las muestras fueron generadas de nueve distribuciones obtenidas desde la familia lambda generalizada. Las simulaciones indican que para las alternativas asimétricas estudiadas, las pruebas propuestas son más potentes que varias pruebas existentes en la literatura.