Saiba o que são os erros de rastreamento e de que forma eles podem impactar o desempenho geral do seu site.
Este post é uma tradução do material What are crawl errors?, publicado originalmente no blog da Yoast. O conteúdo foi autorizado para publicação no blog da HostGator.
Erros de rastreamento ocorrem quando um mecanismo de busca tenta acessar uma página em seu site, mas falha. Vamos esclarecer um pouco mais sobre o rastreamento primeiro.
O rastreamento é o processo em que um mecanismo de busca tenta visitar todas as páginas do seu site por meio de um bot. Um bot de mecanismo de busca encontra um link para o seu site e começa a encontrar todas as suas páginas públicas.
O bot rastreia as páginas, indexa todo o conteúdo para uso no Google e adiciona todos os links dessas páginas às páginas que ainda precisa rastrear. Seu principal objetivo como proprietário de um site é garantir que o bot do mecanismo de busca possa acessar todas as páginas do site. Falhar nesse processo resulta no que chamamos de erros de rastreamento.
Seu objetivo é garantir que todos os links no seu site levem a uma página real. Isso pode ser feito via um redirecionamento 301, mas a página no final desse link deve sempre retornar uma resposta de servidor 200.
O Google divide os erros de rastreamento em dois grupos:
- Erros do site. Você não quer esses erros, pois significam que todo o seu site não pode ser rastreado;
- Erros de URL. Você também não quer esses erros, mas como eles se referem apenas a um URL específico por erro, são mais fáceis de manter e corrigir.
Vamos detalhar isso.
Erros do site
Erros do site são todos os erros de rastreamento que impedem o bot do mecanismo de busca de acessar seu site. Isso pode ocorrer por vários motivos, sendo os mais comuns:
Erros de DNS
Isso significa que um mecanismo de busca não consegue se comunicar com seu servidor. Ele pode estar fora do ar, por exemplo, o que significa que seu site não pode ser visitado. Isso geralmente é um problema temporário.
O Google voltará ao seu site mais tarde e tentará rastrear novamente. Se você vir notificações disso no Google Search Console em erros de rastreamento, provavelmente significa que o Google tentou algumas vezes e ainda não conseguiu.
Erros de servidor
O bot não conseguiu acessar seu site se o Search Console mostrar erros de servidor. A solicitação pode ter expirado. O mecanismo de busca (por exemplo) tentou visitar seu site, mas demorou tanto para carregar que o servidor retornou uma mensagem de erro.
Erros de servidor podem ocorrem quando há falhas no seu código que impedem o carregamento de uma página. Também pode significar que seu site tem tantos visitantes que o servidor não conseguiu lidar com todas as solicitações. Muitos desses erros são retornados como códigos de status 5xx, como os códigos 500 e 503.
Falha nos robôs
Antes do rastreamento, o Googlebot tenta rastrear seu arquivo robots.txt também, apenas para ver se há alguma área no seu site que você prefere não ter indexada. Se o bot não conseguir acessar o arquivo robots.txt, o Google adiará o rastreamento até que consiga acessá-lo. Portanto, sempre se certifique de que ele esteja disponível.
Isso explica um pouco sobre os erros de rastreamento relacionados ao seu site inteiro. Agora, vamos ver quais erros de rastreamento podem ocorrer para páginas específicas.
Erros de URL
Como mencionado, erros de URL referem-se a erros de rastreamento que ocorrem quando um bot de mecanismo de busca tenta rastrear uma página específica do seu site.
Quando discutimos erros de URL, tendemos a discutir primeiro erros de rastreamento como erros 404 Não Encontrado (soft). Você deve verificar frequentemente esses erros (use o Google Search Console ou as ferramentas do webmaster do Bing) e corrigi-los.
Se a página/assunto dessa página desapareceu, nunca retornando ao seu site, ofereça uma página 410. Se você tiver conteúdo semelhante em outra página, use um redirecionamento 301. Certifique-se de que seu sitemap e links internos estejam atualizados também.
Muitos desses erros de URL são causados por links internos, e isso é uma falha da sua parte. Se remover uma página do seu site em algum momento, ajuste ou remova os links internos para ela também. Se esse link permanecer o mesmo, um bot o encontrará e o seguirá. Você precisa fazer alguma manutenção ocasionalmente nos seus links internos!
Outro erro de URL comum é aquele com as palavras “URL enviada” no título. Esses erros aparecem assim que o Google detecta comportamento inconsistente.
Por um lado, você enviou o URL para indexação, então está dizendo ao Google: “sim, eu quero que você indexe esta página”. Por outro lado, algo está dizendo ao Google: “são, não indexe esta página.” Uma possível razão pode ser o arquivo robots.txt bloqueando sua página. Ou que a página está marcada como ‘noindex’ por uma meta tag ou cabeçalho HTTP. Se você não corrigir a mensagem inconsistente, o Google não indexará seu URL.
Entre esses erros comuns pode haver um erro de DNS ou de servidor ocasional para esse URL específico. Verifique novamente esse URL mais tarde e veja se o erro desapareceu. Certifique-se de usar a ferramenta Buscar como o Google e marcar o erro como corrigido no Google Search Console, se essa for sua ferramenta principal de monitoramento.
Erros de URL muito específicos
Alguns erros de URL se aplicam apenas a determinados sites. É por isso que gostaria de listá-los separadamente:
Erros de URL específicos para dispositivos móveis
Isso se refere a erros de rastreamento de páginas específicas que ocorrem em um smartphone moderno. Se você tiver um site responsivo, é improvável que esses erros apareçam. Você pode encontrar mais erros se mantiver um subdomínio móvel separado, como m.example.com.
Erros de malware
Se você encontrar erros de malware nas ferramentas do webmaster, isso significa que o Bing ou o Google encontraram software malicioso nesse URL.
Isso pode significar que foi encontrado um software usado, por exemplo, “para coletar informações protegidas ou para interromper sua operação em geral.” (Wikipedia). Você precisa investigar essa página e remover o malware.
Erros do Google Notícias
Existem alguns erros específicos do Google Notícias. Há uma lista considerável desses possíveis erros na documentação do Google, então se o seu site estiver no Google Notícias, você pode receber esses erros de rastreamento.
Eles variam desde a falta de um título até erros que informam que sua página não parece conter um artigo de notícias. Certifique-se de verificar se isso se aplica ao seu site.
Corrija seus erros de rastreamento
O ponto principal deste artigo é definitivamente: se você encontrar erros de rastreamento, corrija-os. Isso deve fazer parte do cronograma de manutenção do seu site para verificar erros de rastreamento de tempos em tempos.