
Como a clusterização vetorial revela a arquitetura que os algoritmos enxergam no seu site
Como usar clustering de embeddings para mapear a arquitetura semântica real do seu site, identificar gaps editoriais e tomar decisões de conteúdo mais fundamentadas.
destaques
- A estrutura de categorias que o time editorial definiu nem sempre coincide com os agrupamentos que os algoritmos enxergam. Os dois convivem, mas o gap entre eles é acionável.
- Clusterização vetorial agrupa páginas por similaridade de significado, não por hierarquia de pasta ou categoria manual.
- O resultado revela conteúdo mal posicionado, clusters sem página central clara e temas cobertos de forma fragmentada que poderiam ser consolidados.
- Site Focus Score é uma leitura derivada do clustering: mede o quanto cada página se afasta do centro temático do site.
- Não é uma análise para fazer uma vez. À medida que o site cresce, o mapa semântico muda.
o que a clusterização vetorial faz, exatamente
A técnica parte do mesmo fluxo dos outros artigos da série: crawl das páginas, geração de um embedding por URL, cálculo de similaridade entre os pares. A diferença é o que você faz com esses dados.
Em vez de comparar pares isolados, a clusterização agrupa todas as páginas em conjuntos com base em proximidade semântica. Algoritmos como K-Means ou HDBSCAN fazem esse agrupamento automaticamente: você define (ou deixa o algoritmo inferir) quantos clusters quer, e cada página é alocada ao grupo cujo centróide está mais próximo do seu embedding.
O resultado é um mapa. Cada cluster representa um território temático real do site. Páginas dentro do mesmo cluster são semanticamente próximas. Páginas em clusters diferentes tratam de assuntos distintos.
O Screaming Frog v22.0 implementa esse conceito com a funcionalidade de “most representative page”: a página de cada cluster cuja posição vetorial está mais próxima do centróide do grupo.
o que o mapa revela na prática
Quatro padrões aparecem com frequência quando você faz essa análise pela primeira vez num site com volume razoável de conteúdo.
Páginas fora do cluster esperado
Um artigo publicado na categoria "SEO técnico" que o algoritmo aloca no cluster de "produção de conteúdo". Não é necessariamente um erro, mas é um sinal de que o posicionamento editorial e o posicionamento semântico não coincidem.
Clusters sem página central
Um grupo de páginas semanticamente próximas onde nenhuma delas tem posição de destaque, seja por autoridade, por profundidade de cobertura ou por tráfego. É uma oportunidade de criar ou fortalecer uma página pilar para aquele território.
Fragmentação onde deveria haver consolidação
Três ou quatro páginas no mesmo cluster com scores de similaridade muito altos entre si. Consolidar em uma página mais completa tende a ser mais eficiente do que tentar diferenciar páginas que o algoritmo já trata como quase idênticas.
Clusters isolados
Páginas que formam um cluster pequeno ou ficam sozinhas, sem conexão semântica forte com o resto do site. Podem indicar conteúdo fora do escopo temático do domínio, o que tem implicações para o Site Focus Score.
site focus score — a coerência temática do domínio
O centróide do site é a média vetorial de todas as páginas. É o ponto que representa, semanticamente, o assunto central do domínio. Cada página tem uma distância em relação a esse centróide, o que o Screaming Frog chama de drift.
O Site Focus Score é uma leitura derivada dessa distância média: quanto menor o drift médio das páginas em relação ao centróide, mais coeso tematicamente é o site. Um blog especializado tem score alto. Um portal que publica sobre tudo tem score baixo.
O vazamento de documentação do Google em 2024 gerou inferências sobre um conceito interno de site focus que influenciaria rankings. Não há documentação conclusiva sobre isso, e é importante tratar como hipótese.
Na prática, páginas com drift alto merecem atenção. Não necessariamente remoção, mas avaliação: aquela página pertence a este domínio? Ela está contribuindo para a autoridade temática ou diluindo a coesão do site?
como usar os clusters para decisões editoriais
A análise de clusters não produz uma lista de tarefas diretas. Produz um mapa que informa decisões que ainda dependem de julgamento editorial.
Para planejamento de conteúdo: clusters com muitas páginas mas sem cobertura de profundidade são candidatos a uma página pilar nova. Clusters pequenos com alto tráfego indicam território valioso que ainda não foi explorado completamente.
Para consolidação: páginas no mesmo cluster com scores acima de 0.85 e tráfego baixo em ambas são candidatas naturais a merge. A página resultante costuma performar melhor do que as duas separadas.
Para arquitetura de linkagem: o mapa de clusters é a base mais sólida para definir linkagem interna. Páginas no mesmo cluster têm mais razão semântica para se linkar do que páginas em clusters diferentes.
com que frequência fazer essa análise
Uma vez não é suficiente. O mapa semântico de um site muda à medida que novo conteúdo é publicado, páginas são atualizadas e o foco editorial evolui.
A cadência depende do volume de publicação. Sites que publicam regularmente se beneficiam de uma análise trimestral. Sites mais estáticos, semestralmente já é suficiente para capturar desvios relevantes.
O Screaming Frog com integração de embeddings é o caminho mais direto. Para quem já tem Python no fluxo, sentence-transformers com HDBSCAN resolve o clustering de forma mais granular.
considerações finais
A arquitetura de conteúdo que existe na planilha e a arquitetura semântica que os algoritmos enxergam nem sempre são a mesma coisa. Isso não é um problema a resolver de uma vez por todas, é uma tensão permanente que precisa ser monitorada.
A clusterização vetorial é a ferramenta que torna essa tensão visível. O que fazer com o que aparece no mapa continua sendo trabalho editorial: decidir o que consolidar, o que fortalecer, o que reposicionar e o que simplesmente aceitar como está.

Lucas Cassapula
Sócio & Head de SEO na Wesearch e Co-founder da Mentionflow
Sou sócio da Wesearch e Co-founder da Mentionflow. Trabalho com SEO há quase 10 anos. Geek de carteirinha e viciado em dados. Vivo testando hipóteses, caçando padrões e tirando ideias do papel. Sempre compartilho estudos, testes e automações que envolvam o universo de SEO e GEO.