Glossário de Estatística
Definições de termos técnicos usados em estatística, metodologia de investigação e análise de dados. Útil para teses, dissertações e artigos científicos.
A
Alpha de Cronbach Metodologia
Medida de consistência interna de uma escala com múltiplos itens (Likert). Varia entre 0 e 1; valores ≥ 0.70 são considerados aceitáveis em ciências sociais. Avalia até que ponto os itens medem o mesmo constructo.
Como interpretar ≥ 0.90 → excelente · 0.80–0.89 → bom · 0.70–0.79 → aceitável · 0.60–0.69 → questionável · < 0.60 → problemático
ANOVA (Análise de Variância) Inferencial
Teste estatístico que compara as médias de três ou mais grupos. Usa a razão F para determinar se a variabilidade entre grupos é superior à variabilidade dentro dos grupos. A ANOVA de um fator é a extensão do teste t para mais de 2 grupos.
Ver também: Teste t, Kruskal-Wallis
Como interpretar p < .05 → pelo menos um par de grupos difere → realizar post-hoc (Tukey, Bonferroni) · p ≥ .05 → sem diferença significativa entre grupos
APA 7 Metodologia
7.ª edição do manual de estilo da American Psychological Association. Define o formato de citações, referências bibliográficas e relato de resultados estatísticos (ex: t(28) = 3.45, p = .002, d = 0.82). Amplamente exigido em ciências sociais, saúde e educação.
Assimetria (Skewness) Descritiva
Medida que indica o grau de desvio de uma distribuição em relação à simetria. Valor 0 = distribuição simétrica. Positivo = cauda à direita (maioria dos valores à esquerda). Negativo = cauda à esquerda. |assimetria| > 1 → fortemente assimétrica.
Como interpretar −0.5 a +0.5 → aproximadamente simétrica · ±0.5 a ±1 → moderadamente assimétrica · > ±1 → fortemente assimétrica → considerar testes não paramétricos
B
Boxplot (Diagrama de Caixa / Caixa de Bigodes) Descritiva
Gráfico que representa a distribuição de uma variável através de 5 valores: mínimo, Q1, mediana, Q3 e máximo (excluindo outliers). A "caixa" mostra o IQR (Q1 a Q3); a linha central é a mediana. Pontos fora dos bigodes são outliers possíveis.
Ver também: IQR, Mediana, Quartis
C
Cluster (Análise de) Metodologia
Técnica exploratória que agrupa observações em grupos homogéneos com base na similaridade das suas variáveis. Métodos comuns: k-means (número fixo de grupos) e hierárquico (dendrograma). Usada em segmentação de mercado, tipologias de pacientes, perfis de alunos.
Coeficiente de Correlação de Pearson (r) Inferencial
Mede a força e direção da relação linear entre duas variáveis contínuas. Varia entre −1 e +1. Interpretação usual: |r| < 0.30 fraco, 0.30–0.49 moderado, 0.50–0.69 forte, ≥ 0.70 muito forte. Não implica causalidade.
Como interpretar |r| ≥ 0.70 → muito forte · 0.50–0.69 → forte · 0.30–0.49 → moderado · 0.10–0.29 → fraco · < 0.10 → negligenciável
Ver também: Spearman, R², Multicolinearidade
Coeficiente de Determinação (R²) Inferencial
Proporção da variabilidade da variável dependente que é explicada pelo modelo de regressão. R² = 0.65 significa que 65% da variabilidade de Y é explicada pelas variáveis independentes. Nunca decresce ao adicionar preditores (usar R² ajustado em modelos múltiplos).
Como interpretar ≥ 0.26 → efeito grande · 0.13–0.25 → médio · 0.02–0.12 → pequeno (Cohen, 1988) · Em ciências sociais R² 0.10–0.30 é comum
V de Cramér Inferencial
Medida do tamanho do efeito para o qui-quadrado de independência. Varia entre 0 e 1. Interpretação (para gl=1): Complementa o p-valor indicando a força da associação.
Como interpretar (gl = 1) · ≥ 0.50 → grande · 0.30–0.49 → médio · 0.10–0.29 → pequeno · < 0.10 → negligenciável
Ver também: Qui-quadrado, Tamanho do Efeito
Curtose (Kurtosis) Descritiva
Mede o "achatamento" de uma distribuição em relação à normal. Curtose = 0 (normal). Positiva = distribuição mais estreita e com caudas mais pesadas (leptocúrtica). Negativa = mais achatada (platocúrtica). Relevante para verificar normalidade.
Como interpretar −1 a +1 → aprox. normal · > +1 → leptocúrtica (caudas pesadas) · < −1 → platicúrtica (achatada)
D
Desvio Padrão (DP / SD) Descritiva
Medida de dispersão que indica, em média, quanto os valores se afastam da média. Calculado como a raiz quadrada da variância. DP baixo = valores concentrados; DP alto = maior variabilidade. Em APA 7: relata-se como M = X.XX, DP = X.XX.
Ver também: Variância, Erro Padrão
Distribuição Normal (Gaussiana) Descritiva
Distribuição em forma de sino, simétrica em torno da média, onde a média = mediana = moda. Fundamental em estatística inferencial: muitos testes paramétricos pressupõem normalidade. Cerca de 68% dos dados estão a 1 DP da média, 95% a 2 DP.
E
Erro Padrão (SE) Inferencial
Desvio padrão da distribuição amostral de um estimador (ex: a média). Mede a precisão da estimativa: quanto maior a amostra, menor o erro padrão. SE = DP / √n. Usado para construir intervalos de confiança e em testes de hipótese.
Erro Tipo I e Tipo II Inferencial
Tipo I (α): rejeitar H₀ quando ela é verdadeira (falso positivo). Controlado pelo nível de significância (habitualmente α = .05). Tipo II (β): não rejeitar H₀ quando ela é falsa (falso negativo). A probabilidade de detetar um efeito real é a potência = 1 − β.
Ver também: Power Analysis, Nível de Significância
G
Graus de Liberdade (gl / df) Inferencial
Número de valores que podem variar livremente num cálculo estatístico. Em geral, gl = n − k (n = observações, k = parâmetros estimados). Afeta a forma da distribuição t, F e χ². Em APA 7 reportam-se dentro de parênteses: t(28) = 3.45.
H
Hipótese Nula (H₀) e Alternativa (H₁) Inferencial
H₀: afirmação de ausência de efeito ou diferença (ex: "as médias são iguais"). H₁: afirmação alternativa (ex: "as médias são diferentes"). O teste estatístico calcula a probabilidade dos dados observados se H₀ for verdadeira. Se p < α, rejeita-se H₀.
Ver também: p-valor, Nível de Significância
Histograma Descritiva
Gráfico de barras contíguas que representa a distribuição de frequências de uma variável contínua. As barras cobrem intervalos (bins) de valores; a altura representa a frequência. Permite visualizar forma da distribuição, assimetria, outliers e bimodalidade.
I
Intervalo de Confiança (IC) Inferencial
Intervalo que, com uma determinada probabilidade (ex: 95%), contém o verdadeiro valor do parâmetro populacional. IC 95% significa que, em 95% de amostras repetidas, o intervalo incluirá o valor verdadeiro. Não significa que há 95% de probabilidade de o parâmetro estar nesse intervalo específico.
Como interpretar IC não inclui 0 (diferença) ou 1 (OR) → resultado significativo a α = .05 · IC mais estreito → estimativa mais precisa
IQR (Amplitude Interquartil) Descritiva
Diferença entre o terceiro (Q3) e o primeiro (Q1) quartil: IQR = Q3 − Q1. Representa os 50% centrais dos dados. Medida robusta de dispersão, menos afetada por outliers que o desvio padrão. Usada para detetar outliers: valores fora de Q1 − 1.5×IQR ou Q3 + 1.5×IQR.
K
Kruskal-Wallis Inferencial
Alternativa não paramétrica à ANOVA de um fator. Compara as medianas de três ou mais grupos independentes usando postos (ranks) em vez dos valores originais. Adequado quando a distribuição não é normal ou a escala é ordinal.
Como interpretar p < .05 → pelo menos um grupo difere → realizar post-hoc (Dunn) · p ≥ .05 → sem diferença significativa
Ver também: Mann-Whitney, ANOVA
M
Mann-Whitney U (Wilcoxon) Inferencial
Teste não paramétrico para comparar dois grupos independentes. Alternativa ao teste t quando a normalidade não está garantida ou a escala é ordinal. Compara as distribuições (mediana) dos dois grupos usando a ordem dos valores.
Como interpretar p < .05 → distribuições diferem significativamente · reportar r = Z / √N como tamanho do efeito: 0.10 peq. · 0.30 méd. · 0.50 grande
Ver também: Teste t, Kruskal-Wallis
Média (Aritmética) Descritiva
Soma dos valores dividida pelo número de observações. Medida de tendência central mais usada, mas sensível a outliers. Em distribuições assimétricas, a mediana pode ser mais representativa. Em APA 7: M = X.XX.
Mediana Descritiva
Valor que divide a distribuição ordenada a meio: 50% dos valores estão abaixo e 50% acima. Menos sensível a outliers que a média. Preferida quando a distribuição é assimétrica ou na presença de valores extremos (ex: rendimentos, tempo de resposta).
Meta-análise Metodologia
Método quantitativo que combina os resultados de múltiplos estudos independentes para obter uma estimativa global do efeito. Produz uma estimativa "pooled" com maior poder e menor erro. Requer codificação rigorosa dos estudos e análise de heterogeneidade (I²).
Como interpretar I² 0–25% → heterogeneidade baixa · 25–75% → moderada · > 75% → elevada (resultados inconsistentes entre estudos)
Multicolinearidade Metodologia
Situação em que dois ou mais preditores num modelo de regressão estão fortemente correlacionados entre si. Dificulta a interpretação dos coeficientes e inflaciona os erros padrão. Diagnosticada pelo VIF (Variance Inflation Factor): VIF > 5–10 indica problema.
Ver também: VIF, Regressão Múltipla
N
Nível de Significância (α) Inferencial
Limiar de probabilidade abaixo do qual se rejeita H₀. O valor convencional é α = .05 (5% de probabilidade de cometer Erro Tipo I). Em contextos de maior rigor (medicina, ensaios clínicos) usa-se α = .01 ou .001. Deve ser definido antes da análise.
Normalidade Metodologia
Pressuposto de que os dados (ou resíduos) seguem uma distribuição normal. Testada com Shapiro-Wilk (n < 50) ou Kolmogorov-Smirnov (n grande). Em amostras grandes (>30), o Teorema do Limite Central reduz a importância deste pressuposto para a média.
Como interpretar (Shapiro-Wilk / K-S) p > .05 → normalidade não rejeitada → testes paramétricos · p ≤ .05 → normalidade rejeitada → testes não paramétricos ou transformação
O
Odds Ratio (OR) Inferencial
Razão entre a probabilidade de um evento ocorrer vs. não ocorrer, comparando dois grupos. OR = 1: sem diferença. OR > 1: maior probabilidade no grupo de exposição. OR < 1: menor probabilidade. Comum em epidemiologia e regressão logística.
Como interpretar OR = 1 → sem efeito · OR > 1 → maior probabilidade no grupo exposto · OR < 1 → menor probabilidade · IC 95% não inclui 1 → estatisticamente significativo
Outlier (Valor Extremo) Descritiva
Observação que se afasta significativamente das restantes. Pode ser erro de medição ou valor genuinamente incomum. Detetado pelo critério IQR (fora de Q1 ± 1.5×IQR) ou por z-scores (|z| > 3). Pode influenciar fortemente a média, regressão e correlação.
P
p-valor (p-value) Inferencial
Probabilidade de obter resultados tão extremos (ou mais) do que os observados, assumindo que H₀ é verdadeira. Não é a probabilidade de H₀ ser falsa nem a probabilidade do resultado ser devido ao acaso.
Como interpretar p < .001 → altamente significativo · .001–.01 → muito significativo · .01–.05 → significativo · p ≥ .05 → não significativo
PLS-SEM (Partial Least Squares SEM) Metodologia
Variante do SEM orientada para a previsão, adequada a amostras menores e modelos com muitos construtores. Ao contrário do CB-SEM, não requer normalidade multivariada. Muito usado em gestão, marketing e sistemas de informação. Software: SmartPLS, R (plspm).
Ver também: SEM
Power Analysis (Análise de Potência) Metodologia
Cálculo que determina o tamanho de amostra necessário para detetar um efeito de determinada magnitude com uma potência específica (habitualmente 80% ou 95%). Envolve 4 elementos: α, 1-β (potência), tamanho do efeito e n. Software: G*Power (gratuito).
Como interpretar potência ≥ 0.95 → elevada · ≥ 0.80 → adequada (padrão mínimo) · < 0.80 → estudo subdimensionado (risco elevado de Erro Tipo II)
Q
Quartis (Q1, Q2, Q3) Descritiva
Valores que dividem a distribuição ordenada em quartos. Q1 = 25.º percentil, Q2 = mediana (50.º), Q3 = 75.º percentil. O IQR = Q3 − Q1 representa os 50% centrais. Usados nos boxplots e na deteção de outliers.
Qui-quadrado (χ²) Inferencial
Teste que avalia a associação entre duas variáveis categóricas (nominais ou ordinais). Compara as frequências observadas com as esperadas sob independência. Pressuposto: frequências esperadas ≥ 5 em pelo menos 80% das células.
Como interpretar p < .05 → existe associação estatisticamente significativa · complementar com V de Cramér para quantificar a força da associação
R
Regressão Linear Inferencial
Modelo que estima a relação entre uma variável dependente (Y) e uma ou mais variáveis independentes (X). Simples: 1 preditor. Múltipla: vários preditores. Os coeficientes (β) indicam a variação em Y por cada unidade de X, mantendo os restantes constantes.
Regressão Logística Inferencial
Modelo de regressão usado quando a variável dependente é binária (0/1). Estima a probabilidade de ocorrência de um evento. Os coeficientes interpretam-se como log-odds, frequentemente convertidos em odds ratios.
Ver também: Odds Ratio
S
SEM (Structural Equation Modeling) Metodologia
Técnica que combina análise factorial confirmatória (CFA) com regressão, permitindo modelar variáveis latentes e relações entre construtores teóricos. Avalia simultaneamente o modelo de medição e o modelo estrutural. Software: R (lavaan), Amos, Mplus.
Índices de ajustamento CFI / TLI ≥ 0.95 → bom · ≥ 0.90 → aceitável · RMSEA ≤ .05 → bom · ≤ .08 → aceitável · SRMR ≤ .08 → bom
Spearman (Correlação de) Inferencial
Versão não paramétrica da correlação de Pearson, baseada nos postos (ranks) dos valores. Adequada para variáveis ordinais ou quando a relação não é linear. O coeficiente ρ (rho) interpreta-se da mesma forma que r.
Como interpretar ρ |ρ| ≥ 0.70 → muito forte · 0.50–0.69 → forte · 0.30–0.49 → moderado · 0.10–0.29 → fraco · < 0.10 → negligenciável
Ver também: Pearson
T
Tabela de Contingência Descritiva
Tabela que cruza duas variáveis categóricas mostrando as frequências conjuntas de cada combinação de categorias. Base do teste qui-quadrado de independência. Inclui totais por linha e coluna (margens).
Tamanho do Efeito (Effect Size) Inferencial
Medida da magnitude prática de um efeito, independente do tamanho da amostra. Complementa o p-valor. Medidas comuns: d de Cohen (diferença entre médias, em DP): 0.2=peq., 0.5=méd., 0.8=grande. Complementa sempre o p-valor.
d de Cohen 0.20 peq. · 0.50 méd. · 0.80 grande · r 0.10 peq. · 0.30 méd. · 0.50 grande · η² 0.01 peq. · 0.06 méd. · 0.14 grande
Teste t Inferencial
Teste paramétrico para comparar médias. t para 1 amostra: compara com um valor conhecido. t para amostras independentes: compara dois grupos. t para amostras emparelhadas: compara medidas antes/depois. Pressuposto: normalidade (ou n grande).
Como interpretar p < .05 → diferença significativa entre médias · complementar com d de Cohen: 0.20 peq. · 0.50 méd. · 0.80 grande
Transformação Logarítmica Metodologia
Aplicação de log(x) a uma variável fortemente assimétrica positiva para aproximar a sua distribuição da normal. Útil quando a assimetria é > 1 e se pretende usar testes paramétricos. Outros exemplos: raiz quadrada (assimetria moderada), inverso (assimetria severa).
V
Variância Descritiva
Média dos quadrados dos desvios em relação à média. A raiz quadrada da variância é o desvio padrão. A variância é a métrica base de muitas técnicas (ANOVA, regressão, ACP), mas está em unidades ao quadrado, o que dificulta a interpretação direta.
Variável Dependente / Independente Metodologia
Dependente (Y): variável que se pretende explicar ou prever (outcome). Independente (X): variável preditora ou explicativa. Em estudos experimentais, X é manipulada e Y é medida. Em estudos observacionais, a distinção é teórica.
Tipos de Variável Metodologia
Nominal: categorias sem ordem (sexo, grupo). Ordinal: categorias com ordem (Likert, grau de satisfação). Contínua (intervalo/rácio): valores numéricos com distâncias iguais (idade, peso, nota). O tipo de variável determina o teste estatístico adequado.
VIF (Variance Inflation Factor) Metodologia
Medida do grau de multicolinearidade num modelo de regressão múltipla. VIF = 1: sem correlação com outros preditores. Solução: remover um dos preditores correlacionados, combinar em índice ou usar regressão ridge.
Como interpretar VIF = 1 → sem colinearidade · 1–5 → aceitável · 5–10 → preocupante · > 10 → grave
Ver também: Multicolinearidade
Z
Z-score (Valor Estandardizado) Descritiva
Medida que indica quantos desvios padrão um valor está afastado da média: z = (x − μ) / σ. Permite comparar valores de distribuições diferentes e calcular probabilidades usando a distribuição normal padrão. |z| > 3 → possível outlier.
Como interpretar |z| < 1.96 → dentro do IC 95% · |z| > 1.96 → fora do IC 95% (sig. a α = .05) · |z| > 3 → possível outlier
Não sabes se algum destes conceitos se aplica ao teu estudo? Fala comigo →