Google
|
por Autom Team

Google processa SerpAPI: o que o SearchGuard revela sobre detecção de bots

O processo que expôs os segredos anti-bot do Google

Em 19 de dezembro de 2025, o Google entrou com um processo contra a SerpAPI LLC, sediada no Texas, alegando que a empresa contornou o SearchGuard para fazer scraping de "centenas de milhões" de consultas diárias do Google Search. A base legal é a Seção 1201 do DMCA - a disposição anti-contorno da lei de direitos autorais.

Pesquisadores de segurança decifraram completamente a versão 41 do script BotGuard, proporcionando uma visão sem precedentes de como o Google distingue visitantes humanos de scrapers automatizados.

O que é SearchGuard?

SearchGuard é o nome interno do sistema BotGuard do Google quando aplicado ao Google Search. O BotGuard (chamado internamente de "Web Application Attestation") protege os serviços do Google desde 2013 - YouTube, reCAPTCHA v3, Google Maps e mais.

Ao contrário dos CAPTCHAs tradicionais, o SearchGuard opera de forma invisível. Ele coleta continuamente sinais comportamentais e os analisa usando algoritmos estatísticos - tudo sem o conhecimento do usuário.

O código é executado dentro de uma máquina virtual de bytecode com 512 registradores, especificamente projetada para resistir à engenharia reversa.

Como o Google detecta bots

O sistema rastreia quatro categorias de comportamento em tempo real:

Movimentos do mouse

Humanos não movem cursores em linhas retas. Seguimos curvas naturais com aceleração e desaceleração.

O Google rastreia:

  • Trajetória (forma do caminho)
  • Velocidade
  • Aceleração (mudanças de velocidade)
  • Jitter (micro-tremores)

Limite de detecção: Variância de velocidade do mouse abaixo de 10 é sinalizada como comportamento de bot. Variância humana normal fica entre 50-500.

Ritmo do teclado

Todos têm uma assinatura de digitação única. O Google mede:

  • Intervalos entre teclas
  • Duração da pressão das teclas
  • Padrões de erro
  • Pausas após pontuação

Limite de detecção: Variância de duração de pressão abaixo de 5ms indica automação. Digitação humana normal mostra variância de 20-50ms.

Comportamento de rolagem

Rolagem natural tem velocidade variável, mudanças de direção e desaceleração baseada em momentum. Rolagem programática é frequentemente muito suave ou perfeitamente uniforme.

Limite de detecção: Variância de delta de rolagem abaixo de 5px sugere atividade de bot. Humanos tipicamente mostram variância de 20-100px.

Jitter temporal

Este é o sinal decisivo. Humanos são inconsistentes.

O Google usa o algoritmo de Welford para calcular variância em tempo real com uso de memória constante. Se seus intervalos de ação têm variância próxima de zero, você é sinalizado.

Limite de detecção: Contagens de eventos excedendo 200 por segundo indicam automação. Interação humana normal gera 10-50 eventos por segundo.

Os 100+ elementos DOM que o Google monitora

Além do comportamento, o SearchGuard faz fingerprint do seu ambiente de navegador monitorando mais de 100 elementos HTML:

  • Elementos de alta prioridade: BUTTON, INPUT (bots frequentemente miram elementos interativos)
  • Estrutura: ARTICLE, SECTION, NAV, ASIDE, HEADER, FOOTER, MAIN, DIV
  • Interativo: DETAILS, SUMMARY, MENU, DIALOG

Também coleta dados extensos do navegador e dispositivo:

  • Propriedades do Navigator (userAgent, platform, hardwareConcurrency, deviceMemory)
  • Propriedades de tela (dimensões, colorDepth, devicePixelRatio)
  • Precisão de timing de performance
  • Estado de visibilidade (document.hidden, hasFocus())

Detecção de WebDriver

O script verifica especificamente assinaturas de automação:

  • navigator.webdriver (true se automatizado)
  • window.chrome.runtime (ausente em modo headless)
  • Assinaturas ChromeDriver (prefixos $cdc_)
  • Marcadores Puppeteer ($chrome_asyncScriptInfo)
  • Indicadores Selenium (__selenium_unwrapped)

Por que bypasses se tornam obsoletos em minutos

O script gera tokens criptografados usando uma cifra ARX (Addition-Rotation-XOR) - similar ao Speck, uma cifra de bloco leve lançada pela NSA em 2013.

A descoberta crítica: a constante mágica rotaciona. A constante criptográfica incorporada na cifra muda a cada rotação do script.

Valores observados da análise de segurança:

  • Timestamp 16:04:21: Constante = 1426
  • Timestamp 16:24:06: Constante = 3328

O script é servido de URLs com hashes de integridade. Quando o hash muda, cada cliente baixa uma nova versão com novos parâmetros criptográficos.

Mesmo se você fizer engenharia reversa completa do sistema, sua implementação se torna inválida na próxima atualização.

A conexão com OpenAI

SerpAPI não é uma empresa de scraping qualquer. A OpenAI tem usado parcialmente resultados de busca do Google scrapeados pela SerpAPI para alimentar as respostas em tempo real do ChatGPT. A SerpAPI listava a OpenAI como cliente em seu site até maio de 2024.

O Google recusou o pedido direto da OpenAI para acessar seu índice de busca em 2024. No entanto, o ChatGPT ainda precisava de dados de busca frescos.

O Google não está atacando a OpenAI diretamente - está mirando um elo chave na cadeia de suprimentos que alimenta seu principal concorrente de IA.

O panorama geral para scraping de SERPs

Este processo segue um padrão de restrição de acesso:

  1. Janeiro 2025: O Google implantou o SearchGuard, quebrando quase todos os scrapers de SERP da noite para o dia
  2. Setembro 2025: O Google removeu o parâmetro num=100, forçando scrapers a fazer 10x mais requisições

O efeito combinado: abordagens tradicionais de scraping estão cada vez mais difíceis e caras de manter.

Se o SearchGuard se qualificar como uma "medida de proteção tecnológica" válida sob o DMCA, cada plataforma poderia implantar sistemas similares com força legal.

O que isso significa para ferramentas de SEO

Para qualquer um usando ferramentas que fazem scraping de SERPs:

  • Custos mais altos: Mais requisições necessárias, infraestrutura mais sofisticada requerida
  • Risco legal: Scrapers de terceiros podem enfrentar processos similares
  • Problemas de confiabilidade: Bypasses podem se tornar obsoletos em minutos

A mensagem é clara: o antigo manual de scraping acabou.

APIs oficiais permanecem o caminho estável

A posição do Google é efetivamente: "Quer nossos dados? Passe pelos canais oficiais."

Para profissionais de SEO e desenvolvedores que precisam de acesso confiável e consistente a dados de busca, usar APIs oficiais - ou provedores de API com infraestrutura adequada - continua sendo a abordagem mais sustentável.

Na Autom, continuamos monitorando esses desenvolvimentos e adaptando nossos serviços adequadamente. O cenário está mudando, mas a necessidade de dados de busca não vai desaparecer.

SERP API

Discover why Autom is the preferred API provider for developers.