Explicações de Estatística
Marcar Sessão

Glossário de Estatística

Definições de termos técnicos usados em estatística, metodologia de investigação e análise de dados. Útil para teses, dissertações e artigos científicos.

A

Alpha de Cronbach Metodologia

Medida de consistência interna de uma escala com múltiplos itens (Likert). Varia entre 0 e 1; valores ≥ 0.70 são considerados aceitáveis em ciências sociais. Avalia até que ponto os itens medem o mesmo constructo.

Como interpretar ≥ 0.90 → excelente  ·  0.80–0.89 → bom  ·  0.70–0.79 → aceitável  ·  0.60–0.69 → questionável  ·  < 0.60 → problemático

ANOVA (Análise de Variância) Inferencial

Teste estatístico que compara as médias de três ou mais grupos. Usa a razão F para determinar se a variabilidade entre grupos é superior à variabilidade dentro dos grupos. A ANOVA de um fator é a extensão do teste t para mais de 2 grupos.

Ver também: Teste t, Kruskal-Wallis

Como interpretar p < .05 → pelo menos um par de grupos difere → realizar post-hoc (Tukey, Bonferroni)  ·  p ≥ .05 → sem diferença significativa entre grupos

APA 7 Metodologia

7.ª edição do manual de estilo da American Psychological Association. Define o formato de citações, referências bibliográficas e relato de resultados estatísticos (ex: t(28) = 3.45, p = .002, d = 0.82). Amplamente exigido em ciências sociais, saúde e educação.

Assimetria (Skewness) Descritiva

Medida que indica o grau de desvio de uma distribuição em relação à simetria. Valor 0 = distribuição simétrica. Positivo = cauda à direita (maioria dos valores à esquerda). Negativo = cauda à esquerda. |assimetria| > 1 → fortemente assimétrica.

Como interpretar −0.5 a +0.5 → aproximadamente simétrica  ·  ±0.5 a ±1 → moderadamente assimétrica  ·  > ±1 → fortemente assimétrica → considerar testes não paramétricos

B

Boxplot (Diagrama de Caixa / Caixa de Bigodes) Descritiva

Gráfico que representa a distribuição de uma variável através de 5 valores: mínimo, Q1, mediana, Q3 e máximo (excluindo outliers). A "caixa" mostra o IQR (Q1 a Q3); a linha central é a mediana. Pontos fora dos bigodes são outliers possíveis.

Ver também: IQR, Mediana, Quartis

C

Cluster (Análise de) Metodologia

Técnica exploratória que agrupa observações em grupos homogéneos com base na similaridade das suas variáveis. Métodos comuns: k-means (número fixo de grupos) e hierárquico (dendrograma). Usada em segmentação de mercado, tipologias de pacientes, perfis de alunos.

Coeficiente de Correlação de Pearson (r) Inferencial

Mede a força e direção da relação linear entre duas variáveis contínuas. Varia entre −1 e +1. Interpretação usual: |r| < 0.30 fraco, 0.30–0.49 moderado, 0.50–0.69 forte, ≥ 0.70 muito forte. Não implica causalidade.

Como interpretar |r| ≥ 0.70 → muito forte  ·  0.50–0.69 → forte  ·  0.30–0.49 → moderado  ·  0.10–0.29 → fraco  ·  < 0.10 → negligenciável

Ver também: Spearman, , Multicolinearidade

Coeficiente de Determinação (R²) Inferencial

Proporção da variabilidade da variável dependente que é explicada pelo modelo de regressão. R² = 0.65 significa que 65% da variabilidade de Y é explicada pelas variáveis independentes. Nunca decresce ao adicionar preditores (usar R² ajustado em modelos múltiplos).

Como interpretar ≥ 0.26 → efeito grande  ·  0.13–0.25 → médio  ·  0.02–0.12 → pequeno (Cohen, 1988)  ·  Em ciências sociais R² 0.10–0.30 é comum

V de Cramér Inferencial

Medida do tamanho do efeito para o qui-quadrado de independência. Varia entre 0 e 1. Interpretação (para gl=1): Complementa o p-valor indicando a força da associação.

Como interpretar (gl = 1)  ·  ≥ 0.50 → grande  ·  0.30–0.49 → médio  ·  0.10–0.29 → pequeno  ·  < 0.10 → negligenciável

Ver também: Qui-quadrado, Tamanho do Efeito

Curtose (Kurtosis) Descritiva

Mede o "achatamento" de uma distribuição em relação à normal. Curtose = 0 (normal). Positiva = distribuição mais estreita e com caudas mais pesadas (leptocúrtica). Negativa = mais achatada (platocúrtica). Relevante para verificar normalidade.

Como interpretar −1 a +1 → aprox. normal  ·  > +1 → leptocúrtica (caudas pesadas)  ·  < −1 → platicúrtica (achatada)

D

Desvio Padrão (DP / SD) Descritiva

Medida de dispersão que indica, em média, quanto os valores se afastam da média. Calculado como a raiz quadrada da variância. DP baixo = valores concentrados; DP alto = maior variabilidade. Em APA 7: relata-se como M = X.XX, DP = X.XX.

Ver também: Variância, Erro Padrão

Distribuição Normal (Gaussiana) Descritiva

Distribuição em forma de sino, simétrica em torno da média, onde a média = mediana = moda. Fundamental em estatística inferencial: muitos testes paramétricos pressupõem normalidade. Cerca de 68% dos dados estão a 1 DP da média, 95% a 2 DP.

E

Erro Padrão (SE) Inferencial

Desvio padrão da distribuição amostral de um estimador (ex: a média). Mede a precisão da estimativa: quanto maior a amostra, menor o erro padrão. SE = DP / √n. Usado para construir intervalos de confiança e em testes de hipótese.

Erro Tipo I e Tipo II Inferencial

Tipo I (α): rejeitar H₀ quando ela é verdadeira (falso positivo). Controlado pelo nível de significância (habitualmente α = .05). Tipo II (β): não rejeitar H₀ quando ela é falsa (falso negativo). A probabilidade de detetar um efeito real é a potência = 1 − β.

Ver também: Power Analysis, Nível de Significância

G

Graus de Liberdade (gl / df) Inferencial

Número de valores que podem variar livremente num cálculo estatístico. Em geral, gl = n − k (n = observações, k = parâmetros estimados). Afeta a forma da distribuição t, F e χ². Em APA 7 reportam-se dentro de parênteses: t(28) = 3.45.

H

Hipótese Nula (H₀) e Alternativa (H₁) Inferencial

H₀: afirmação de ausência de efeito ou diferença (ex: "as médias são iguais"). H₁: afirmação alternativa (ex: "as médias são diferentes"). O teste estatístico calcula a probabilidade dos dados observados se H₀ for verdadeira. Se p < α, rejeita-se H₀.

Ver também: p-valor, Nível de Significância

Histograma Descritiva

Gráfico de barras contíguas que representa a distribuição de frequências de uma variável contínua. As barras cobrem intervalos (bins) de valores; a altura representa a frequência. Permite visualizar forma da distribuição, assimetria, outliers e bimodalidade.

I

Intervalo de Confiança (IC) Inferencial

Intervalo que, com uma determinada probabilidade (ex: 95%), contém o verdadeiro valor do parâmetro populacional. IC 95% significa que, em 95% de amostras repetidas, o intervalo incluirá o valor verdadeiro. Não significa que há 95% de probabilidade de o parâmetro estar nesse intervalo específico.

Como interpretar IC não inclui 0 (diferença) ou 1 (OR) → resultado significativo a α = .05  ·  IC mais estreito → estimativa mais precisa

IQR (Amplitude Interquartil) Descritiva

Diferença entre o terceiro (Q3) e o primeiro (Q1) quartil: IQR = Q3 − Q1. Representa os 50% centrais dos dados. Medida robusta de dispersão, menos afetada por outliers que o desvio padrão. Usada para detetar outliers: valores fora de Q1 − 1.5×IQR ou Q3 + 1.5×IQR.

K

Kruskal-Wallis Inferencial

Alternativa não paramétrica à ANOVA de um fator. Compara as medianas de três ou mais grupos independentes usando postos (ranks) em vez dos valores originais. Adequado quando a distribuição não é normal ou a escala é ordinal.

Como interpretar p < .05 → pelo menos um grupo difere → realizar post-hoc (Dunn)  ·  p ≥ .05 → sem diferença significativa

Ver também: Mann-Whitney, ANOVA

M

Mann-Whitney U (Wilcoxon) Inferencial

Teste não paramétrico para comparar dois grupos independentes. Alternativa ao teste t quando a normalidade não está garantida ou a escala é ordinal. Compara as distribuições (mediana) dos dois grupos usando a ordem dos valores.

Como interpretar p < .05 → distribuições diferem significativamente  ·  reportar r = Z / √N como tamanho do efeito: 0.10 peq. · 0.30 méd. · 0.50 grande

Ver também: Teste t, Kruskal-Wallis

Média (Aritmética) Descritiva

Soma dos valores dividida pelo número de observações. Medida de tendência central mais usada, mas sensível a outliers. Em distribuições assimétricas, a mediana pode ser mais representativa. Em APA 7: M = X.XX.

Mediana Descritiva

Valor que divide a distribuição ordenada a meio: 50% dos valores estão abaixo e 50% acima. Menos sensível a outliers que a média. Preferida quando a distribuição é assimétrica ou na presença de valores extremos (ex: rendimentos, tempo de resposta).

Meta-análise Metodologia

Método quantitativo que combina os resultados de múltiplos estudos independentes para obter uma estimativa global do efeito. Produz uma estimativa "pooled" com maior poder e menor erro. Requer codificação rigorosa dos estudos e análise de heterogeneidade (I²).

Como interpretar I² 0–25% → heterogeneidade baixa  ·  25–75% → moderada  ·  > 75% → elevada (resultados inconsistentes entre estudos)

Multicolinearidade Metodologia

Situação em que dois ou mais preditores num modelo de regressão estão fortemente correlacionados entre si. Dificulta a interpretação dos coeficientes e inflaciona os erros padrão. Diagnosticada pelo VIF (Variance Inflation Factor): VIF > 5–10 indica problema.

Ver também: VIF, Regressão Múltipla

N

Nível de Significância (α) Inferencial

Limiar de probabilidade abaixo do qual se rejeita H₀. O valor convencional é α = .05 (5% de probabilidade de cometer Erro Tipo I). Em contextos de maior rigor (medicina, ensaios clínicos) usa-se α = .01 ou .001. Deve ser definido antes da análise.

Normalidade Metodologia

Pressuposto de que os dados (ou resíduos) seguem uma distribuição normal. Testada com Shapiro-Wilk (n < 50) ou Kolmogorov-Smirnov (n grande). Em amostras grandes (>30), o Teorema do Limite Central reduz a importância deste pressuposto para a média.

Como interpretar (Shapiro-Wilk / K-S) p > .05 → normalidade não rejeitada → testes paramétricos  ·  p ≤ .05 → normalidade rejeitada → testes não paramétricos ou transformação

O

Odds Ratio (OR) Inferencial

Razão entre a probabilidade de um evento ocorrer vs. não ocorrer, comparando dois grupos. OR = 1: sem diferença. OR > 1: maior probabilidade no grupo de exposição. OR < 1: menor probabilidade. Comum em epidemiologia e regressão logística.

Como interpretar OR = 1 → sem efeito  ·  OR > 1 → maior probabilidade no grupo exposto  ·  OR < 1 → menor probabilidade  ·  IC 95% não inclui 1 → estatisticamente significativo

Outlier (Valor Extremo) Descritiva

Observação que se afasta significativamente das restantes. Pode ser erro de medição ou valor genuinamente incomum. Detetado pelo critério IQR (fora de Q1 ± 1.5×IQR) ou por z-scores (|z| > 3). Pode influenciar fortemente a média, regressão e correlação.

P

p-valor (p-value) Inferencial

Probabilidade de obter resultados tão extremos (ou mais) do que os observados, assumindo que H₀ é verdadeira. Não é a probabilidade de H₀ ser falsa nem a probabilidade do resultado ser devido ao acaso.

Como interpretar p < .001 → altamente significativo  ·  .001–.01 → muito significativo  ·  .01–.05 → significativo  ·  p ≥ .05 → não significativo

PLS-SEM (Partial Least Squares SEM) Metodologia

Variante do SEM orientada para a previsão, adequada a amostras menores e modelos com muitos construtores. Ao contrário do CB-SEM, não requer normalidade multivariada. Muito usado em gestão, marketing e sistemas de informação. Software: SmartPLS, R (plspm).

Ver também: SEM

Power Analysis (Análise de Potência) Metodologia

Cálculo que determina o tamanho de amostra necessário para detetar um efeito de determinada magnitude com uma potência específica (habitualmente 80% ou 95%). Envolve 4 elementos: α, 1-β (potência), tamanho do efeito e n. Software: G*Power (gratuito).

Como interpretar potência ≥ 0.95 → elevada  ·  ≥ 0.80 → adequada (padrão mínimo)  ·  < 0.80 → estudo subdimensionado (risco elevado de Erro Tipo II)

Q

Quartis (Q1, Q2, Q3) Descritiva

Valores que dividem a distribuição ordenada em quartos. Q1 = 25.º percentil, Q2 = mediana (50.º), Q3 = 75.º percentil. O IQR = Q3 − Q1 representa os 50% centrais. Usados nos boxplots e na deteção de outliers.

Qui-quadrado (χ²) Inferencial

Teste que avalia a associação entre duas variáveis categóricas (nominais ou ordinais). Compara as frequências observadas com as esperadas sob independência. Pressuposto: frequências esperadas ≥ 5 em pelo menos 80% das células.

Como interpretar p < .05 → existe associação estatisticamente significativa  ·  complementar com V de Cramér para quantificar a força da associação

R

Regressão Linear Inferencial

Modelo que estima a relação entre uma variável dependente (Y) e uma ou mais variáveis independentes (X). Simples: 1 preditor. Múltipla: vários preditores. Os coeficientes (β) indicam a variação em Y por cada unidade de X, mantendo os restantes constantes.

Regressão Logística Inferencial

Modelo de regressão usado quando a variável dependente é binária (0/1). Estima a probabilidade de ocorrência de um evento. Os coeficientes interpretam-se como log-odds, frequentemente convertidos em odds ratios.

Ver também: Odds Ratio

S

SEM (Structural Equation Modeling) Metodologia

Técnica que combina análise factorial confirmatória (CFA) com regressão, permitindo modelar variáveis latentes e relações entre construtores teóricos. Avalia simultaneamente o modelo de medição e o modelo estrutural. Software: R (lavaan), Amos, Mplus.

Índices de ajustamento CFI / TLI ≥ 0.95 → bom · ≥ 0.90 → aceitável  ·  RMSEA ≤ .05 → bom · ≤ .08 → aceitável  ·  SRMR ≤ .08 → bom

Spearman (Correlação de) Inferencial

Versão não paramétrica da correlação de Pearson, baseada nos postos (ranks) dos valores. Adequada para variáveis ordinais ou quando a relação não é linear. O coeficiente ρ (rho) interpreta-se da mesma forma que r.

Como interpretar ρ |ρ| ≥ 0.70 → muito forte  ·  0.50–0.69 → forte  ·  0.30–0.49 → moderado  ·  0.10–0.29 → fraco  ·  < 0.10 → negligenciável

Ver também: Pearson

T

Tabela de Contingência Descritiva

Tabela que cruza duas variáveis categóricas mostrando as frequências conjuntas de cada combinação de categorias. Base do teste qui-quadrado de independência. Inclui totais por linha e coluna (margens).

Tamanho do Efeito (Effect Size) Inferencial

Medida da magnitude prática de um efeito, independente do tamanho da amostra. Complementa o p-valor. Medidas comuns: d de Cohen (diferença entre médias, em DP): 0.2=peq., 0.5=méd., 0.8=grande. Complementa sempre o p-valor.

d de Cohen 0.20 peq. · 0.50 méd. · 0.80 grande  ·  r 0.10 peq. · 0.30 méd. · 0.50 grande  ·  η² 0.01 peq. · 0.06 méd. · 0.14 grande

Teste t Inferencial

Teste paramétrico para comparar médias. t para 1 amostra: compara com um valor conhecido. t para amostras independentes: compara dois grupos. t para amostras emparelhadas: compara medidas antes/depois. Pressuposto: normalidade (ou n grande).

Como interpretar p < .05 → diferença significativa entre médias  ·  complementar com d de Cohen: 0.20 peq. · 0.50 méd. · 0.80 grande

Transformação Logarítmica Metodologia

Aplicação de log(x) a uma variável fortemente assimétrica positiva para aproximar a sua distribuição da normal. Útil quando a assimetria é > 1 e se pretende usar testes paramétricos. Outros exemplos: raiz quadrada (assimetria moderada), inverso (assimetria severa).

V

Variância Descritiva

Média dos quadrados dos desvios em relação à média. A raiz quadrada da variância é o desvio padrão. A variância é a métrica base de muitas técnicas (ANOVA, regressão, ACP), mas está em unidades ao quadrado, o que dificulta a interpretação direta.

Variável Dependente / Independente Metodologia

Dependente (Y): variável que se pretende explicar ou prever (outcome). Independente (X): variável preditora ou explicativa. Em estudos experimentais, X é manipulada e Y é medida. Em estudos observacionais, a distinção é teórica.

Tipos de Variável Metodologia

Nominal: categorias sem ordem (sexo, grupo). Ordinal: categorias com ordem (Likert, grau de satisfação). Contínua (intervalo/rácio): valores numéricos com distâncias iguais (idade, peso, nota). O tipo de variável determina o teste estatístico adequado.

VIF (Variance Inflation Factor) Metodologia

Medida do grau de multicolinearidade num modelo de regressão múltipla. VIF = 1: sem correlação com outros preditores. Solução: remover um dos preditores correlacionados, combinar em índice ou usar regressão ridge.

Como interpretar VIF = 1 → sem colinearidade  ·  1–5 → aceitável  ·  5–10 → preocupante  ·  > 10 → grave

Ver também: Multicolinearidade

Z

Z-score (Valor Estandardizado) Descritiva

Medida que indica quantos desvios padrão um valor está afastado da média: z = (x − μ) / σ. Permite comparar valores de distribuições diferentes e calcular probabilidades usando a distribuição normal padrão. |z| > 3 → possível outlier.

Como interpretar |z| < 1.96 → dentro do IC 95%  ·  |z| > 1.96 → fora do IC 95% (sig. a α = .05)  ·  |z| > 3 → possível outlier

Não sabes se algum destes conceitos se aplica ao teu estudo? Fala comigo →