Explicações de Estatística
Marcar Sessão

Análise de cluster

Análise de cluster — estatística avançada

A análise de cluster pretende agrupar os dados em grupos por forma a constituir grupos em que os seus elementos sejam o mais parecidos entre si e os grupos sejam o mais diferentes entre si.

A análise de cluster permite criar um centróide de cada grupo que representa a caracterização do elemento médio de cada grupo. Isto permite caracterizar o elemento típico de um grupo e as diferenças típicas entre grupos.

É uma técnica de segmentação não supervisionada: o objetivo é formar grupos internamente homogéneos e externamente heterogéneos, de modo a identificar perfis com utilidade prática.

Quando usar

  • Não existe variável dependente clara e pretende-se descobrir padrões naturais.
  • Há muitas observações com comportamentos mistos e pouco interpretáveis em média global.
  • É necessário criar perfis para intervenção, comunicação ou decisão.

Regra técnica: padronizar variáveis (z-score) antes de clusterizar quando têm escalas diferentes.

Etapas recomendadas

  1. Preparar dados e tratar outliers.
  2. Escolher variáveis teoricamente relevantes.
  3. Executar método (hierárquico e/ou k-means).
  4. Escolher número de clusters (cotovelo, silhouette).
  5. Caracterizar centróides e validar estabilidade.

O que reportar

  • Método e distância (ex.: Ward + euclidiana).
  • Número final de clusters e critério de decisão.
  • Tamanho de cada grupo.
  • Perfil médio por variável em cada cluster.
  • Implicações práticas para o problema estudado.

Casos práticos com interpretação

Marketing universitário

Objetivo: segmentar estudantes por padrão de estudo e adesão a tutorias.

Variáveis: horas/semana, assiduidade, nota média, uso de recursos digitais.

Resultado: 3 clusters: autónomos de alto desempenho, regulares com apoio moderado e grupo de risco académico.

Ação: plano de acompanhamento diferenciado por perfil.

Saúde dentária (Arábia Saudita)

Objetivo: identificar perfis de risco no efeito de café/chá na coloração e sensibilidade dentária.

Variáveis: consumo diário, higiene oral, tabagismo, índice de manchas.

Resultado: clusters de baixo, médio e alto risco, com maior prevalência de manchas no grupo de consumo intenso.

Ação: recomendações preventivas específicas por segmento.

Educação (questionários)

Objetivo: agrupar 900 alunos por motivação e ansiedade estatística.

Variáveis: autoeficácia, ansiedade, tempo de estudo, participação em aula.

Resultado: perfis com elevada ansiedade e baixa autoeficácia apresentaram menor desempenho médio.

Ação: intervenção pedagógica focada em autorregulação e feedback.

Desporto (EUA - basquetebol)

Objetivo: classificar jogadores por características físicas e indicadores de performance.

Variáveis: altura, envergadura, minutos, eficiência ofensiva e defensiva.

Resultado: clusters com perfis de finalizadores, defensores de perímetro e jogadores de equilíbrio tático.

Ação: suporte a scouting, treino personalizado e rotação tática.

Exemplo de síntese para dissertação

“A solução de 3 clusters foi selecionada por apresentar melhor equilíbrio entre interpretabilidade e separação (silhouette média superior à solução de 2 clusters). O Cluster 1 (n=42) apresentou maiores valores de autonomia e desempenho, enquanto o Cluster 3 (n=37) concentrou os níveis mais elevados de risco académico.”

Este tipo de redação deve ser acompanhado por tabela de centróides e gráfico comparativo por cluster.

Ferramentas sugeridas

  • Jamovi/SPSS: solução rápida para projetos académicos.
  • R: maior flexibilidade para validação, visualização e reprodutibilidade.

Ver recursos em Jamovi · Ver recursos em R