
Canibalização semântica: o que vetores detectam que auditorias de keyword ignoram
Como usar embeddings para identificar páginas que competem pelo mesmo território semântico, mesmo sem compartilhar keywords. Conceito, thresholds e como tratar.
destaques
- Canibalização não é só duas páginas disputando a mesma keyword. Duas páginas podem competir pelo mesmo território sem ter uma palavra em comum.
- A análise vetorial identifica esse tipo de sobreposição comparando o significado das páginas, não o texto.
- Quando dois artigos são muito parecidos semanticamente, o Google pode não saber qual priorizar, e os dois acabam ranqueando pior do que um único artigo bem estruturado.
- Detectar o problema é a parte fácil. A decisão de consolidar, diferenciar ou remover uma das páginas exige análise de tráfego e intenção de busca.
- Ferramentas como o Screaming Frog v22.0 já fazem esse tipo de análise sem precisar de código.
o que é canibalização semântica (e por que vai além da keyword)
A canibalização por keyword é detectável com qualquer ferramenta de SEO: você filtra as páginas que ranqueiam para a mesma busca e avalia qual consolidar. O processo é manual, mas o problema é visível.
A canibalização semântica é diferente. Duas páginas podem usar vocabulários completamente distintos e ainda assim cobrir o mesmo território de significado. Do ponto de vista de um sistema de recuperação semântica, elas são quase duplicatas. Mas nenhuma auditoria de keyword vai apontar isso.
O Screaming Frog v22.0 introduziu detecção de similaridade semântica exatamente por esse motivo: ir além da duplicata textual para capturar sobreposição temática real. É um reconhecimento de que o problema existe em uma camada que as ferramentas tradicionais não alcançam.
como a detecção vetorial funciona
O processo é direto. Você gera um embedding para cada página do site e calcula a similaridade entre todos os pares. Pares com score muito alto são candidatos a canibalização semântica.
Os thresholds práticos, referenciados no Screaming Frog e validados na prática:
Conteúdo semanticamente muito próximo. Vale avaliar se as páginas realmente cobrem ângulos distintos ou se estão duplicando esforço.
Praticamente duplicata semântica. Consolidação é quase sempre a decisão certa.
Um detalhe importante: vetorizar a página inteira dilui o embedding. Um artigo longo cobre múltiplos subtópicos, e o vetor resultante é uma média de todos eles. A análise por seção, usando os H2 como unidade, revela sobreposições mais granulares: duas páginas podem ter introduções completamente diferentes mas seções inteiras quase idênticas.
o que fazer com os pares identificados
Detectar é a parte fácil. A decisão de como resolver é editorial e depende de contexto que o score vetorial não fornece.
Consolidar
Unir as duas páginas em uma versão mais completa, redirecionar a menos relevante para a que fica. Faz sentido quando as duas cobrem o mesmo ângulo e nenhuma tem diferencial claro.
Diferenciar
Reescrever uma delas para explorar um aspecto diferente do tema. Resolve a sobreposição sem perder o conteúdo.
Remover
Se nenhuma das duas tem tráfego ou autoridade expressivos e o tema já está coberto por uma terceira página mais forte. Redirecionar para ela e descartar as duas.
O score vetorial identifica o problema. Os dados de tráfego no GSC, os links externos e a intenção de busca de cada URL são os critérios que definem qual caminho seguir. O iPullRank documentou que content pruning baseado em alinhamento semântico produziu lift de 2 a 3% na relevância semântica geral de um site após a remoção de mais de 500 artigos.
uma hipótese sobre o que acontece no índice do google
Esta seção é explicitamente especulativa.
Se o Google mantém algo análogo a um índice vetorial interno, há indícios disso no vazamento de documentação de 2024 e na própria evolução conhecida dos sistemas de ranking, então páginas com embeddings muito similares podem estar competindo no espaço semântico antes mesmo de competirem por keywords explícitas. A canibalização não seria só um problema de qual página ranquear para uma busca específica, mas de como o sistema interpreta a coerência do site como um todo.
É um argumento estruturalmente coerente com o que sabemos sobre recuperação semântica. Mas ainda é hipótese, sem documentação pública conclusiva.
ferramentas para identificar canibalização semântica
O Screaming Frog v22.0 com integração a modelos de embedding (OpenAI, Gemini ou Ollama local) é o caminho mais direto. Você configura a análise de similaridade semântica e exporta os pares acima do threshold.
Para quem prefere mais controle, Python com sentence-transformers gera a matriz de similaridade e filtra os pares por threshold. Permite análise por seção de página, não só por URL inteira, o que revela sobreposições mais granulares.
considerações finais
Canibalização semântica é um problema real e sistematicamente ignorado porque as ferramentas de SEO tradicionais não o enxergam. Não é culpa do processo manual, é uma limitação do modelo léxico.
A boa notícia é que o processo de detecção ficou acessível. O Screaming Frog resolve boa parte do trabalho sem código. O que ainda exige atenção é a etapa de decisão: consolidar, diferenciar ou remover são escolhas que dependem de entender o site, o conteúdo e o que o Google já está premiando em cada caso.

Lucas Cassapula
Sócio & Head de SEO na Wesearch e Co-founder da Mentionflow
Sou sócio da Wesearch e Co-founder da Mentionflow. Trabalho com SEO há quase 10 anos. Geek de carteirinha e viciado em dados. Vivo testando hipóteses, caçando padrões e tirando ideias do papel. Sempre compartilho estudos, testes e automações que envolvam o universo de SEO e GEO.