Análise de cluster
A análise de cluster pretende agrupar os dados em grupos por forma a constituir grupos em que os seus elementos sejam o mais parecidos entre si e os grupos sejam o mais diferentes entre si.
A análise de cluster permite criar um centróide de cada grupo que representa a caracterização do elemento médio de cada grupo. Isto permite caracterizar o elemento típico de um grupo e as diferenças típicas entre grupos.
É uma técnica de segmentação não supervisionada: o objetivo é formar grupos internamente homogéneos e externamente heterogéneos, de modo a identificar perfis com utilidade prática.
Quando usar
- Não existe variável dependente clara e pretende-se descobrir padrões naturais.
- Há muitas observações com comportamentos mistos e pouco interpretáveis em média global.
- É necessário criar perfis para intervenção, comunicação ou decisão.
Regra técnica: padronizar variáveis (z-score) antes de clusterizar quando têm escalas diferentes.
Etapas recomendadas
- Preparar dados e tratar outliers.
- Escolher variáveis teoricamente relevantes.
- Executar método (hierárquico e/ou k-means).
- Escolher número de clusters (cotovelo, silhouette).
- Caracterizar centróides e validar estabilidade.
O que reportar
- Método e distância (ex.: Ward + euclidiana).
- Número final de clusters e critério de decisão.
- Tamanho de cada grupo.
- Perfil médio por variável em cada cluster.
- Implicações práticas para o problema estudado.
Casos práticos com interpretação
Marketing universitário
Objetivo: segmentar estudantes por padrão de estudo e adesão a tutorias.
Variáveis: horas/semana, assiduidade, nota média, uso de recursos digitais.
Resultado: 3 clusters: autónomos de alto desempenho, regulares com apoio moderado e grupo de risco académico.
Ação: plano de acompanhamento diferenciado por perfil.
Saúde dentária (Arábia Saudita)
Objetivo: identificar perfis de risco no efeito de café/chá na coloração e sensibilidade dentária.
Variáveis: consumo diário, higiene oral, tabagismo, índice de manchas.
Resultado: clusters de baixo, médio e alto risco, com maior prevalência de manchas no grupo de consumo intenso.
Ação: recomendações preventivas específicas por segmento.
Educação (questionários)
Objetivo: agrupar 900 alunos por motivação e ansiedade estatística.
Variáveis: autoeficácia, ansiedade, tempo de estudo, participação em aula.
Resultado: perfis com elevada ansiedade e baixa autoeficácia apresentaram menor desempenho médio.
Ação: intervenção pedagógica focada em autorregulação e feedback.
Desporto (EUA - basquetebol)
Objetivo: classificar jogadores por características físicas e indicadores de performance.
Variáveis: altura, envergadura, minutos, eficiência ofensiva e defensiva.
Resultado: clusters com perfis de finalizadores, defensores de perímetro e jogadores de equilíbrio tático.
Ação: suporte a scouting, treino personalizado e rotação tática.
Exemplo de síntese para dissertação
“A solução de 3 clusters foi selecionada por apresentar melhor equilíbrio entre interpretabilidade e separação (silhouette média superior à solução de 2 clusters). O Cluster 1 (n=42) apresentou maiores valores de autonomia e desempenho, enquanto o Cluster 3 (n=37) concentrou os níveis mais elevados de risco académico.”
Este tipo de redação deve ser acompanhado por tabela de centróides e gráfico comparativo por cluster.
Ferramentas sugeridas
- Jamovi/SPSS: solução rápida para projetos académicos.
- R: maior flexibilidade para validação, visualização e reprodutibilidade.