R – Um ambiente de trabalho gratuito para análise e visualização de dados

O R é um ambiente de trabalho para a realização de análises de dados e estatísticas, além de permitir também a preparação de gráficos.

Além de ser gratuito, outra vantagem do R é a ampla base de usuários, o que resulta em grande quantidade de informação disponível na internet para ajudar no uso e no aprendizado da linguagem. Além disso, vários pacotes disponíveis em repositórios podem ser facilmente carregados e novos pacotes podem ser criados pelo usuário para o uso eficiente desse ambiente de trabalho.

A curva de aprendizado pode ser um pouco íngreme no início, principalmente para os que não têm familiaridade com outras linguagens ou com a utilização de linhas de comandos para a realização das operações. No entanto, essa linguagem é muito usada em diversas áreas e vale à pena experimentá-la.

O objetivo deste artigo não é ensinar a usar o R, mas oferecer um pequeno “aperitivo” do que pode ser feito com essa ferramenta. Existem livros inteiros dedicados a essa linguagem e a aspectos práticos como a manipulação de dados, realização de análises estatísticas e preparação de gráficos. Veja algumas recomendações no final do artigo.

Instalação

O R pode ser utilizado através de um programa disponível gratuitamente em várias plataformas (e.g. Linux, Mac OS X e Windows) neste site:

http://cran.r-project.org

Sugerimos, no entanto, a utilização também do RStudio, um ambiente de trabalho gratuito que facilita a utilização do R. Depois de instalar o R, o R Studio para Desktop pode ser baixado também para várias plataformas no site:

http://www.rstudio.com

A interface do RStudio

A interface do RStudio está organizada em quatro áreas, como mostra a Fig. 1. A área principal está indicada na janela 2: a área de trabalho. Nessa área podemos digitar comandos que são executados ao pressionar ENTER.

Na área 1 podemos editar e executar scripts no R – sequências de comandos que podem ser gravados como arquivo para serem repetidas automaticamente, por exemplo, para a análise repetitiva de dados. Comandos nessa janela podem ser executados digitando CTRL + ENTER.

Na área 3 o programa mostra dados definidos e o histórico dos comandos anteriores utilizados.

Na área 4 o programa mostra gráficos, lista de outros pacotes carregados ou que estão disponíveis, ajuda, etc.

Fig. 1. Interface do RStudio

Fig. 1. Interface do RStudio

Como exemplo bastante trivial, clique na janela 2 e digite as linhas abaixo, clicando ENTER no final de cada linha, mas antes leia as dicas abaixo:

exemplo <- rnorm(n = 1000, mean = 56, sd = 4)
hist(exemplo)
  • O símbolo “<-” (ou também “=”) atribui os valores criados pela função rnorm à variável “exemplo”. O símbolo pode ser digitado normalmente como “<” (símbolo de menor) e “-” (símbolo de menos), mas existem atalhos para colocá-lo automaticamente (Option + “-” no Mac e Alt + “-” no Windows; veja os atalhos aqui).
  • A função rnorm cria números aleatórios com distribuição normal. Como digitado acima, a função cria 1000 valores com distribuição normal de média 56 e desvio padrão 4.
  • Não é preciso digitar “n =”, “mean = “, etc., basta clicar a tecla TAB depois de digitar “(“. As opções disponíveis vão aparecer automaticamente.
  • Note que depois de clicar ENTER na primeira linha, a variável “exemplo” aparece listada na janela 3.
  • A função hist cria um histograma com os valores na variável “exemplo”.

O gráfico obtido está mostrado abaixo.

Fig. 2. Exemplo de histograma.

Fig. 2. Exemplo de histograma.

Outros exemplos de gráficos

Para demonstrar dois exemplos básicos de gráficos com o R, vamos utilizar dados já incluídos no pacote. Os dados poder ser carregados digitando na interface:

data(Orange)

Para ver informações sobre os dados, use o ponto de interrogação:

?Orange

O ponto de interrogação também poder ser usado para obter ajuda sobre outras funções disponíveis no program. Experimente, por exemplo:

?plot

Os dados “Orange” têm três colunas: o número da árvore (Tree), a idade da árvore na época da medição (age) e a circunferência da árvore na época da medição (circumference). Para ver os dados ou apenas o começo dos dados, digite:

Orange
head(Orange)

Para fazer um gráfico da circunferência em função da idade para a árvore 1, digite:

plot(circumference ~ age, Orange, subset = Tree==3)

O comando plota a circunferência em função da idade usando os dados em “dados” para a árvore (subset) número 3.

Exemplo de gráfico no R

Fig. 3. Exemplo de gráfico no R

Esse é só um exemplo muito inicial do que pode ser feito. Um outro exemplo utiliza o pacote chamado “Lattice”, que produz gráficos mais sofisticados.

Para carregar o pacote, digite:

library(lattice)

E para plotar o mesmo gráfico, mas agora para todas as árvores, digite:

xyplot(circumference ~ age | Tree, Orange)
Exemplo de gráfico do pacote "Lattice"

Fig. 4. Exemplo de gráfico do pacote “Lattice”

Um outro exemplo, mostrado abaixo, pode ser ainda obtido digitando:

xyplot(circumference ~ age, Orange, groups = Tree)
Outro exemplo com o Lattice

Fig. 5. Outro exemplo com o Lattice

Outras possibilidades

Obviamente dados do usuário podem ser importados e exportados, assim com os gráficos podem ser salvos em vários formatos (jpeg, pdf, etc.).

A linguagem também dispõe de funções de programação como forwhile loops. Uma das maiores vantagens, no entanto, é a possibilidade de definir funções que podem ser usadas em outras partes do programa para automatizar algumas análises ou operações. Essas funções podem ser agrupadas em pacotes que podem ser disponibilizados para outros usuários.

Existem também inúmeras funções e pacotes para análise de dados. Apenas como simples exemplo, digite o seguinte para obter algumas informações estatísticas sobre os dados criados e armazenados na variável “exemplo’:

quantile(exemplo)

Como exemplo final, vamos olhar dados sobre o efeito de duas drogas soporíferas no número de horas de sono de 10 pacientes. Os dados podem ser carregados e visualizados digitando:

data(sleep)
sleep

Os dados podem também ser visualizados simplesmente clicando no ícone à direita de “sleep” na janela 3.

Os dados mostram o número de horas a mais de sono para cada paciente (ID) dependendo da droga utilizada (group). Para ver a média das horas de sono extra (extra) em função da droga (group), digite:

aggregate(extra ~ group, sleep, mean)

Para outras funções, veja as sugestões de leitura abaixo.

Referências

Alguns manuais podem ser baixados gratuitamente do site do R.

Lista de comandos e funções úteis podem ser encontrados nesses arquivos. O último link apresenta uma coleção dessas listas para diferentes áreas.

Atalhos do RStudio podem ser encontrados aqui:

Alguns livros úteis para o R estão listados abaixo. Note que esses livros estão disponíveis em formato digital através de bibliotecas – cheque se a sua universidade permite o acesso gratuito à versão eletrônica desses livros.

  • Phil Spector. Data Manipulation with R. Springer, 2008.
  • Deepayan Sarkar. Lattice – Multivariate Data Visualization with R. Springer, 2008.
  • John M. Chambers. Software for Data Analysis – Programming with R. Springer, 2008.
  • Sarah Stowell. Using R for Statistics. Apress.

Outras referências na internet:

Colocaremos alguns dos links úteis no menu ao lado direito do “Ciência Prática”.

Divirta-se!

Sobre Eduardo Yukihara

Pesquisador | Professor | Autor
Galeria | Esse post foi publicado em Prática e ferramentas e marcado , , , . Guardar link permanente.

Uma resposta para R – Um ambiente de trabalho gratuito para análise e visualização de dados

  1. Rafael disse:

    Sabe de outros livros em portugues ou alguem que ministre aulas? Comecei o Curso no Coursera mas tenho duvidas em alguams coisas.

    Curtir

Dê também a sua contribuição ou sugestão.

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s