Feedback dos trabalhos do R para Ciência de Dados (Parte II): Dicas para Gráficos

Olá!

Este post é uma continuação do post onde apresentamos os trabalhos premiados no curso R para Ciência de Dados I, e baseado nos feedbacks que enviamos para as pessoas alunas, escrevemos algumas dicas de formatação de tabelas. Neste post, apresentaremos algumas dicas para elaborar gráficos com o pacote ggplot2! Gráficos são representações visuais dos dados. Se bem construído, a informação nele é absorvida mais rapidamente. Além disso, funcionam como pausas, deixando a leitura de um relatório menos cansativa.

Ilustração sobre o pacote ggplot2, criada por <a href='https://github.com/allisonhorst/stats-illustrations'>Allison Horst</a>.

Figura 1: Ilustração sobre o pacote ggplot2, criada por Allison Horst.

Dicas para formatar melhor seus gráficos

Primeiro vamos carregar o pacote tidyverse:

library(tidyverse)

O próximo passo é carregar a base que utilizaremos como exemplo: a base de filmes do IMDB.

imdb <-
  read_delim(
    "https://raw.githubusercontent.com/curso-r/202010-r4ds-1/master/dados/imdb2.csv",
    ";",
    escape_double = FALSE,
    trim_ws = TRUE
  )

Exemplo: Diretores de sucesso!

Preparar a base de dados

Neste exemplo, vamos criar um gráfico que apresente o lucro médio dos filmes segundo o diretor, para identificar pessoas diretoras de sucesso! Primeiro precisaremos obter as informações necessárias para criar o gráfico.

A base imdb apresenta 3713 linhas, sendo que cada linha possui informação de um filme. Dentre as variáveis presentes na base são o orçamento e a receita dos filmes. Com essas variáveis, é possível calcular o lucro de cada filme. Porém, antes vamos remover os filmes das quais não temos as informações de orçamento e/ou receita (ou seja, NA). Existem diversas formas de remover os valores faltantes - NA - de uma base, então utilizaremos a função drop_na(), do pacote tidyr, indicando como argumento as colunas em que desejamos remover os NA. Depois, utilizando a função mutate(), criaremos uma nova coluna que apresenta o valor do lucro de cada filme:

imdb_lucro <- imdb %>%
  drop_na(orcamento, receita) %>%
  mutate(lucro = receita - orcamento)

Para obter a média do lucro por diretor, podemos utilizar as funções group_by() para agrupar por diretor, e summarise() para fazer as sumarizações necessárias: neste caso calcularemos a média (com a função mean()), e também o número de filmes por diretor (com a função n() - que conta o número de linhas, sendo que cada linha representa um filme).

imdb_lucro_diretores <- imdb_lucro %>%
  group_by(diretor) %>%
  summarise(media_lucro = mean(lucro),
            numero_filmes = n())


head(imdb_lucro_diretores)

## # A tibble: 6 x 3
##   diretor         media_lucro numero_filmes
##   <chr>                 <dbl>         <int>
## 1 Aaron Schneider     1676553             1
## 2 Aaron Seltzer      28546578             1
## 3 Abel Ferrara      -11272676             1
## 4 Adam Carolla       -1394057             1
## 5 Adam Goldberg      -1647420             1
## 6 Adam Marcus        13435068             1

Porém não podemos apresentar todas as 1419 pessoas diretoras no mesmo gráfico, pois não seria legível! Precisamos definir alguns critérios para selecionar as pessoas diretoras que aparecerão no gráfico.

O primeiro critério escolhido é ter dirigido mais que um filme! Com a função filter(condicao), esse critério é possível de ser satisfeito. Depois, ordenaremos a base de forma decrescente segundo o lucro médio, assim teremos nas primeiras linhas as pessoas diretoras com os maiores lucros médios. Isso é possível de ser feito com as funções arrange(desc(variavel)). Com a função slice(), podemos ‘cortar’ a base: utilizando como argumento 1:10, estamos solicitando apenas as linhas 1 até 10.

Neste caso, o resultado destes critérios será uma base com as 10 pessoas diretoras com maior lucro médio e que tenham dirigido mais de um filme.

imdb_top_diretores <- imdb_lucro_diretores %>% 
  filter(numero_filmes > 1) %>% 
  arrange(desc(media_lucro)) %>% 
  slice(1:10)

imdb_top_diretores

## # A tibble: 10 x 3
##    diretor          media_lucro numero_filmes
##    <chr>                  <dbl>         <int>
##  1 George Lucas      277328296              5
##  2 Colin Trevorrow   252717532.             2
##  3 Pierre Coffin     237275640              2
##  4 Joss Whedon       199202360.             3
##  5 James Cameron     194620985              6
##  6 Roger Allers      188543668.             2
##  7 Pete Docter       158113780.             3
##  8 Francis Lawrence  151100394.             5
##  9 Peter Jackson     132967515              5
## 10 Andrew Adamson    130611730              4

Criar o gráfico

Agora podemos começar a criar o gráfico (e apresentar algumas dicas!).

O código abaixo apresenta um gráfico de barras (geom_col()) simples, criado com o pacote ggplot2, e vamos melhorá-lo por etapas!

imdb_top_diretores %>% 
  ggplot() + 
  geom_col(aes(x = diretor, y = media_lucro))

A primeira dica é: quando os nomes no eixo x estiverem se sobrepondo (no caso deste gráfico, o nome dos diretores), podemos inverter os eixos. Uma forma de fazer isso é utilizando a função coord_flip():

imdb_top_diretores %>% 
  ggplot() + 
  geom_col(aes(x = diretor, y = media_lucro)) +
  coord_flip()

Agora está muito mais fácil de ler os nomes dos diretores!

Quando trabalhamos com variáveis que representam dinheiro (como no caso da variável lucro), podemos formatar os valores para que fiquem formatados como dinheiro, utilizando a função scales::dollar() :

imdb_top_diretores %>% 
  ggplot() + 
  geom_col(aes(x = diretor, y = media_lucro)) +
  scale_y_continuous(labels = scales::dollar) +
  coord_flip()

Agora que os eixos estão bem formatados, podemos formatar a legenda para ficar claro o que cada eixo significa! A função labs() permite escrever o que desejamos que apareça como legenda em cada elemento (por exemplo: labs(x = "Legenda do eixo X", y = "Legenda do eixo Y") .

imdb_top_diretores %>% 
  ggplot() + 
  geom_col(aes(x = diretor, y = media_lucro)) +
  scale_y_continuous(labels = scales::dollar) +
  labs(x = "Pessoas diretoras", y = "Lucro médio") +
  coord_flip()

É interessante também ordenar as barras do gráfico de barras, pois facilita a comparação das categorias (neste caso, as pessoas diretoras).

Para isso, podemos tratar a variável diretor como um fator (factor) ¹, e ordenar os níveis (levels) de diretores segundo a variável media_lucro. A função fct_reorder() do pacote forcats pode ser utilizada para isso, pois ela ordena os níveis de um fator utilizando a ordem de outra variável.

imdb_top_diretores %>%
  mutate(diretor = forcats::fct_reorder(diretor, media_lucro)) %>%
  ggplot() +
  geom_col(aes(x = diretor, y = media_lucro)) +
  scale_y_continuous(labels = scales::dollar) +
  coord_flip() +
  labs(x = "Pessoas diretoras", y = "Lucro médio")

Por último (mas também importante) é uma dica estética, porém tem o poder de deixar o gráfico muito mais atrativo! Existem várias funções no pacote ggplot2 com temas para os gráficos, e elas usam o prefixo theme_ (por exemplo, theme_light()). Além disso, existem pacotes que oferecem mais temas, como o ggthemr e o ggthemes!

O exemplo abaixo utiliza o tema theme_light():

imdb_top_diretores %>%
  mutate(diretor = forcats::fct_reorder(diretor, media_lucro)) %>%
  ggplot() +
  geom_col(aes(x = diretor, y = media_lucro)) +
  scale_y_continuous(labels = scales::dollar) +
  labs(x = "Pessoas diretoras", y = "Lucro médio") +
  coord_flip()  +
  theme_bw()

O exemplo abaixo utiliza o tema flat do pacote ggthemr:

imdb_top_diretores %>%
  mutate(diretor = forcats::fct_reorder(diretor, media_lucro)) %>%
  ggplot() +
  geom_col(aes(x = diretor, y = media_lucro)) +
  scale_y_continuous(labels = scales::dollar) +
  coord_flip() +
  labs(x = "Pessoas diretoras", y = "Lucro médio") +
  ggthemr::ggthemr("flat")$theme

Conclusões

Depois dessas dicas, o resultado é um gráfico mais atraente e informativo do que a versão básica que fizemos com o ggplot2 no começo do post!

Existem infinitas possibilidades para criar visualizações de dados com R. Neste post apresentamos algumas dicas simples para formatar melhor nossos gráficos, e no próximo post apresentaremos mais algumas dicas sobre relatórios com o pacote R Markdown.

E caso você tenha interesse em saber mais sobre os cursos, a página de cursos foi atualizada, e as incrições para os cursos de 2021 já estão abertas!

Falamos um pouco sobre fatores no post anterior.↩︎

Feedback dos trabalhos do R para Ciência de Dados (Parte II): Dicas para Gráficos

Dicas para formatar melhor seus gráficos

Exemplo: Diretores de sucesso!

Preparar a base de dados

Criar o gráfico

Conclusões

POSTS MAIS RECENTES

Explorando o pacote dplyr: lag/lead

Submódulos no Git

Indexando listas no R

LEIA MAIS SOBRE