Manipulação de dados em R
Para trabalhar os dados em R utilizam-se comandos que permitem criar, filtrar, transformar e limpar dataframes. A maior parte do trabalho prático centra-se em preparar os dados antes da análise.
Criar variáveis
A criação de uma variável faz-se com o operador de atribuição <-:
a <- 5
nome <- "João"
ativo <- TRUE
Aceder a campos de um dataframe
Os dados importados criam habitualmente um dataframe. Cada coluna é acedida com $:
df$idade # acede à coluna "idade"
df$nome[1] # primeiro valor da coluna "nome"
Filtrar linhas
Para remover linhas com base numa condição — por exemplo, excluir todas as linhas com morada em Lisboa:
df_limpa <- df[!(df$morada == "Lisboa"), ]
Com dplyr a sintaxe fica mais legível:
library(dplyr)
df_limpa <- df |> filter(morada != "Lisboa")
Remover duplicados
library(dplyr)
df_unicas <- distinct(df)
# Remover duplicados apenas com base numa coluna:
df_unicas <- distinct(df, id, .keep_all = TRUE)
Selecionar e renomear colunas
library(dplyr)
# Selecionar só algumas colunas
df2 <- df |> select(id, idade, grupo)
# Renomear colunas
df2 <- df |> rename(identificador = id, anos = idade)
Criar e transformar variáveis
library(dplyr)
df <- df |> mutate(
idade_anos = idade / 12,
grupo_fator = as.factor(grupo),
log_score = log(score)
)
Lidar com valores em falta (NA)
# Verificar quantos NA existem por coluna
colSums(is.na(df))
# Remover linhas com qualquer NA
df_sem_na <- na.omit(df)
# Substituir NA por 0 numa coluna
df$score[is.na(df$score)] <- 0