Mini tutorial de R
Usando
dados de uma planilha
Objetivos:
abrir o programa; abrir uma tela de script, onde serão escritos e rodados os
comandos.
Figura 1: abrindo o R (no menu Iniciar,
por exemplo)
No menu superior aparecem as opções Arquivo,
Editar, Visualizar etc.
Ao clicar em Arquivo, obtemos:
Escolher a opção Novo script
Na nova tela em branco, é possível escrever e rodar as linhas de
comando, e salvar o programa.
Esta sequência de comandos permite ler dados diretamente de uma
planilha, do excel, por exemplo. Abra a planilha e
selecione todas as colunas que deseja analisar. Clique ctrl^C,
como se fosse copiar a planilha em outro arquivo.
Neste exemplo, temos uma planilha com duas colunas; a primeira
corresponde ao ano de ingresso e a segunda, ao coeficiente de rendimento (CR)
de alunos de um curso da Unicamp.
Volte ao programa R. Dica: Para os que preferem o teclado ao mouse, as
teclas Alt+Tab fazem a transição entre os programas
abertos.
Abra o script do programa clicando aqui
e copie o texto na janela de script. Em qualquer momento, a tela de script pode
ser salva em um arquivo, clicando ctrl^S.
Você verá linhas começando com o símbolo #. Estes são comentários para o
usuário que o programa não lê.
As linhas de comando são rodadas, por exemplo, colocando o cursor na
linha desejada e clicando ctrl^R. Outra opção é
colocar o cursor na linha desejada e clicar em Editar, Executar linha ou seleção.
O primeiro comando, read.table, lê as colunas selecionadas na planilha.
A linha executada aparecerá em vermelho na tela Console, embaixo da tela
de script.
Exercício.
Abra uma
planilha com dados de seu interesse. O R consegue ler planilhas de diversos
tamanhos; as colunas não precisam ter o mesmo número de linhas válidas; as
variáveis podem ser quantitativas ou qualitativas; se houver dados faltantes, o
R entenderá isso, lendo NA na célula correspondente.
Os comandos seguintes mostram os dados que o R leu. Às vezes o programa
adiciona colunas ou linhas desnecessariamente: é bom saber com que planilha o R
está trabalhando antes de começar a analisar os dados...
O comando head
mostra as seis primeiras linhas da planilha lida; e o comando tail, as seis
últimas.
Observe que o R mostra corretamente duas colunas, ANOING e CR; no
entanto, o programa leu uma linha adicional no fim. Podemos apagar esta linha
desnecessária com o seguinte comando.
Às vezes o R interpreta erroneamente o tipo de variável. Tipicamente
isto acontece quando copiamos uma planilha em português (decimais separados por
vírgula, por exemplo). Para saber o tipo de variável lido pelo R, rodamos o
comando str,
que mostra a estrutura dos dados.
Veja que CR foi identificado como Factor, ou seja, como uma
variável qualitativa. Para trocar o tipo de variável de CR para variável
numérica, aplicamos o comando a seguir.
Exercício.
Faça a
“limpeza” dos dados de sua planilha. Se tiver dúvidas com algum comando, digite
help(nome do
comando) na janela Console.
Alguns dos tipos de variável usados no R são: “logical",
"integer", "double",
"complex", "raw",
"character", "list",
"expression", "name",
"symbol" e "function".
R Core Team. R: A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing: Vienna, Austria, 2015.