15 de mai de 2025·14 min·SEO técnico

Embeddings e vetorização para SEO: o que são e como aplicar

Entenda o que são embeddings, como o Google usa vetores para medir relevância e quais aplicações práticas existem para SEO e GEO. Com fontes e exemplos reais.

seo vetores

destaques

O Google opera com modelos semânticos desde 2013 (Word2Vec/Hummingbird) e 2019 (BERT). A maioria das ferramentas de SEO ainda funciona no modelo léxico.
Embedding é um vetor numérico que representa significado. Proximidade no espaço vetorial equivale a similaridade semântica, medida por cosine similarity.
Chunking é obrigatório: modelos têm limite de tokens por entrada, e páginas longas sem estrutura produzem embeddings menos precisos.
Há cinco aplicações diretas de embeddings em SEO: linkagem interna, canibalização semântica, análise competitiva, clusterização contextual e Site Focus Score.
Para GEO/AI Search, a implicação é ainda mais direta: sistemas RAG fragmentam conteúdo em chunks para recuperação, e estrutura de parágrafo vira infraestrutura de relevância.

―――

o que o google entende quando lê uma página

Em 2013, pesquisadores do Google publicaram o paper do Word2Vec. O modelo aprendia a representar palavras como vetores em um espaço de alta dimensão, capturando relações semânticas que nenhum sistema léxico conseguia. O exemplo clássico: rei - homem + mulher ≈ rainha. Não é string matching. É aritmética sobre significado.

No mesmo ano, o Google lançou o Hummingbird, sua primeira atualização de algoritmo a incorporar compreensão semântica em escala. Em 2019, veio o BERT, que trouxe modelos de linguagem bidirecional para o ranking. Desde então, o sistema de recuperação do Google trabalha em dois planos ao mesmo tempo: o léxico (correspondência de termos) e o semântico (aproximação por significado).

Marc Najork, do Google Research, detalhou essas abordagens híbridas em apresentação referenciada pelo iPullRank no levantamento sobre vetorização e SEO. O ponto central: as duas camadas coexistem, mas a camada semântica tem peso crescente, especialmente em queries ambíguas e de cauda longa.

A implicação para SEO é direta. Otimizar só para correspondência léxica é otimizar para uma versão do Google que não existe mais há mais de uma década.

―――

o que é um embedding, de verdade

Um vetor é uma lista ordenada de números. Um embedding é um vetor gerado para representar significado, não apenas dados brutos.

Quando um modelo de linguagem processa um texto, ele o transforma em um ponto em um espaço de alta dimensão. O modelo mxbai-embed-large, por exemplo, gera vetores de 1024 dimensões. Cada dimensão captura alguma propriedade semântica implícita, aprendida durante o treinamento.

A consequência geométrica é que páginas sobre temas próximos ficam próximas nesse espaço. Uma página sobre “ração para cães adultos” e outra sobre “alimentação saudável para labradores” ficam a curta distância. Uma página sobre “câmeras DSLR” fica distante de ambas. Essa proximidade é medida pela cosine similarity: o ângulo entre os vetores. Quanto menor o ângulo, maior a similaridade. A Screaming Frog explica a mecânica com precisão ao descrever o mapeamento de páginas relacionadas em escala.

A diferença crucial é entre embeddings densos (BERT, mxbai-embed-large) e embeddings esparsos (TF-IDF). O TF-IDF cria um vetor onde cada dimensão representa uma palavra do vocabulário, léxico por definição. Embeddings densos comprimem o significado em um vetor fixo de centenas de dimensões, com capacidade de capturar sinônimos, relações contextuais e conceitos implícitos que nenhuma contagem de palavras capturaria.

―――

o problema do chunking

Modelos de embedding têm um limite de tokens por entrada. O mxbai-embed-large aceita até 512 tokens. Páginas típicas de conteúdo têm muito mais do que isso.

A solução é o chunking: dividir o texto em janelas menores com overlap entre elas, para não perder contexto nas bordas de cada segmento. Um chunk de 260 tokens (medidos com tiktoken cl100k_base) com 40 tokens de overlap é um ponto de partida razoável. Vale notar que o tiktoken cl100k_base subestima o token count real do mxbai-embed-large em cerca de 30–50% para conteúdo em português: um chunk de 260 tokens cl100k resulta em no máximo ~380 tokens reais, dentro da margem segura abaixo do limite de 512.

O iPullRank documenta que parágrafos curtos e focados em um único conceito geram embeddings mais específicos e com maior chance de match em queries. Um parágrafo denso sobre múltiplos subtópicos produz um embedding “médio” que representa tudo de forma imprecisa.

Para GEO e AI Search, a implicação é ainda mais direta. Sistemas RAG (Retrieval-Augmented Generation), usados pelos principais assistentes de IA, recuperam chunks, não páginas. Um chunk mal formado, com múltiplos conceitos misturados ou transições abruptas entre ideias, tem menor chance de ser recuperado para responder a uma query específica. Estrutura de parágrafo vira infraestrutura de relevância.

―――

cinco aplicações práticas de embeddings em seo

Cada uma dessas aplicações tem implicações técnicas e editoriais próprias. Os artigos desta série detalham cada uma. Aqui, o panorama.

Linkagem interna por similaridade semântica

Em vez de linkar páginas por correspondência de keyword, calcular cosine similarity entre todos os pares de URLs do crawl e sugerir links com base em proximidade real de significado. Screaming Frog detalha o fluxo.

Detecção de canibalização semântica

Dois artigos podem competir pelo mesmo território de significado sem compartilhar nenhuma keyword. Uma matriz de cosine similarity com threshold de alerta (0.85–0.93 para warning, acima de 0.93 para crítico) identifica esses pares antes que causem confusão no ranking. Screaming Frog v22.0 introduziu esse tipo de análise nativamente.

Análise competitiva vetorial

Mapear sobreposição semântica entre o site próprio e concorrentes revela o que keyword gap não captura: dois sites podem disputar o mesmo território temático sem ter uma keyword em comum. iPullRank detalha a análise a nível de parágrafo.

Clusterização contextual

Agrupar páginas por embeddings revela a arquitetura de conteúdo que os algoritmos enxergam, não a estrutura de categorias que o time editorial definiu. Os dois raramente coincidem perfeitamente, e o gap é acionável.

Site Focus Score e coerência temática

O centróide semântico de um site é a média vetorial de todos os embeddings. A distância de cada página ao centróide indica o quanto aquela página está fora do tema central. O vazamento de documentação do Google em 2024 gerou indícios de que o conceito de site focus é monitorado internamente, mas isso ainda não está documentado de forma conclusiva: é inferência baseada em fontes não-oficiais. Screaming Frog v22.0 usa o conceito de "most representative page".

―――

o que muda na prática

A transição do modelo léxico para o semântico muda três coisas no dia a dia.

Primeiro, a produção de conteúdo. A pergunta deixa de ser “essa keyword está no texto?” e passa a ser “esse texto cobre o cluster semântico da intenção de busca?” Um artigo pode omitir a keyword exata e ainda ranquear para ela se o embedding for semanticamente próximo o suficiente.

Segundo, a auditoria. Canibalização por keyword é visível para qualquer ferramenta. Canibalização semântica, onde duas páginas competem pelo mesmo significado com vocabulário diferente, só aparece na análise vetorial.

Terceiro, GEO. Para sistemas de IA generativa, a estrutura de parágrafo é o que determina se um chunk específico do seu conteúdo será recuperado para compor uma resposta. Não é abstração: é a mecânica dos sistemas RAG descrita na documentação pública da maioria dos assistentes de IA disponíveis hoje.

A maioria das ferramentas de SEO ainda opera no modelo léxico. Embeddings deixaram de ser uma curiosidade técnica. Para auditorias que querem capturar o que o Google realmente avalia, são infraestrutura.

―――

considerações finais

O argumento não é que keyword research ou TF-IDF pararam de funcionar. É que eles capturam uma camada do problema, e há uma segunda camada que só aparece no espaço vetorial.

A boa notícia: as ferramentas para trabalhar com embeddings em SEO estão acessíveis. O Screaming Frog v22.0 integra análise semântica nativamente. Python com sentence-transformers resolve o fluxo básico para sites menores sem infraestrutura adicional.

O que ainda exige julgamento humano é a interpretação dos resultados: um score de cosine similarity identifica o problema, mas a decisão editorial de consolidar, diferenciar ou descartar páginas continua sendo do analista.

―――próximas leituras

Linkagem interna por vetorização: conexões que a keyword não enxergaComo encontrar oportunidades de link interno com base em similaridade semântica real, em escala.Canibalização semântica: o que vetores detectam que auditorias de keyword ignoramComo identificar páginas que competem pelo mesmo território de significado, mesmo com vocabulário diferente.Análise competitiva com vetorização: mapeie o território semântico dos concorrentesComo comparar sites por significado e encontrar território não coberto no mercado.Clusterização contextual com vetores: veja seu site como os algoritmos enxergamComo usar clustering para revelar a arquitetura semântica real do seu site.

―――autor

Lucas Cassapula

Sócio & Head de SEO na Wesearch e Co-founder da Mentionflow

Sou sócio da Wesearch e Co-founder da Mentionflow. Trabalho com SEO há quase 10 anos. Geek de carteirinha e viciado em dados. Vivo testando hipóteses, caçando padrões e tirando ideias do papel. Sempre compartilho estudos, testes e automações que envolvam o universo de SEO e GEO.