Crawl Budget, Crawl Rate – Lo que necesitas saber


Este verano de 2018, entre los SEO peninsulares e insulares, se ha discutido, siembre civilizadamente, sobre el Crawl Budget, si existe o no, y de otras particularidades que, como cuando se teoriza sobre el sexo de los ángeles, no nos acabamos de poner de mutuo acuerdo.

En el blog oficial sobre estos dogmas, “GoogleWebmaster Central Blog“, el pasado enero de 2017, se arrojaban algunas pistas sobre la cuestión: What Crawl Budget Means for Googlebot.

 

Pero la verdad es que, a la mayoría de los mortales seos, como en otras ocasiones -contagios, hacienda, recortes, piojos, etc- solo nos interesa saber si el tema nos afecta o no.

 

¿Me he de preocupar por el Crawl Budget?

Te voy a dar aquí una fórmula matemática, sencilla y precisa, para que sepas con total fiabilidad si el “Crawl Budget” es algo que te tiene que preocupar o por suerte tu puedes pasar olímpicamente de él.

 

Pasos a seguir:

  1. Llamemos “tusuris” al producto de las páginas indexables de tu web (¿no sabes como obtenerlo? Haz clic aquí ) multiplicado por la media de recursos que se cargan para cada página web (ficheros CSS, JS, Imágenes, iFrames, …).
  2. Llamemos “tucrawlrate” a la media de páginas crawleadas por día por GoogleBot. ¿No sabes como obtenerlo? Lo tienes en tu GSC (en la injustamente denostada interface clásica, pero todavía vital para un SEO), está en: “Rastreo“, “Estadísticas de Rastreo” y en “Pàginas Rastreadas al día“, escoge el valor “Normal” , o si quieres ser muy conservador, el valor “Bajo”.

Divide “tusuris” entre “tucrawlrate”, y te dará una aproximación del número de días que necesitará GoogleBot en rastrear entera tu web.

Si el valor es razonable para tus intereses, o mejor aún, si el contenido “Rankeable” de tu web no cambia en ese intervalo de días

NO TE HA DE PREOCUPAR EL CRAWL BUDGET

dedícate a cosas más productivas para el Posicionamiento Web.

Si por el contrario no obtienes un valor aceptable, tendrás que realizar acciones para no malgastar tu Crawl Budget.

 

Cómo no malgastar tu Crawl Budget

GoogleBot es muy “ansia-rota” y muy ávido de URLs.
Si tu web tiene cierta antiguedad y ya està indexada, GoogleBot, que es muy persistente y pesado, va a querer seguir crawleando todo lo hasta ahora conocido y “pasiempre”.

PROBLEMA SOLUCIONABLE

Para hacer que “pierda la memoria”, puedes probar lo siguiente:

  1. Haz un inventario con las URLs de las páginas “No Rankeables”.
  2. Méte a estas páginas “no rankeables” un “noindex”.
  3. Actualiza la fecha de creación y modificación de cada página y/o metelo por schema.org.
  4. Revisa que se haya actualizado la fecha de cacheo.
  5. Construye un sitemap.xml con estas páginas “no rankeables”.
  6. Enchufa el sitemap.xml a Google GSC.
  7. Construye un sitemap html con estas URLs “norankeables” dentro de una página estática.
  8. Con GSC manda un “Obtener y procesar” de dicha página y “Solicitar Indexado”.
  9. Espera un tiempo de horneado, GoogleBot tiene que volver a visitar todas las URLs, y enterarse del noindex. Revisa que el sitemap.xml enviado ha procesado todas las urls.
  10. Si además las quieres sacar del indice, pasado el tiempo, usa en GSC “Eliminar URLs”.
  11. Por útlimo, mételas en un “Disallow:” de robots.txt para que esto ya sea refinitivo.

 

 

TL;DR

La verdad es que el valor de las “Páginas Rastreadas al día” no incluye únicamente páginas diferentes, sino todos los recursos rastreables, incluido “robots.txt”,  y todas las peticiones duplicadas que GoogleBot realiza -quién sabe el porqué-.
Realmente sería más indicado llamarlo “Hits solicitados al día“, y tener en cuenta además que hay recursos que el crawler solicita más de 1 vez.

Además, de un día para otro, GoogleBot no “continúa” el rastreo solicitando nuevos recursos, sino que tiene la exasperante manía de volver a solicitar por enésima vez recursos ya solicitados (¿Para comprobar SEO Black Hack? como las cadenas de Markov, cloaking, ¿¡?!).

Otra cosa a tener en cuenta es verificar que no tengas definido un “Crawl Rate Limit” que restrinja la velocidad de rastreo.

 

Como puedes ver, este cálculo, fruto de los calores de Agosto y una post-“siesta goorda”, es lo siguiente al que se podría hacer “a ojo de buen cubero“, pero es mejor que nada, y a coste residual.
Podríamos afinarlo más revisando el histórico de rastreo, aunque lo definitivo es tener los logs del servidor web, filtrados por el “user agent” de GoogleBot, y meterle un análisis exaustivo.

 

Comenta, si tienes algo que aportar y es gracioso, gracias..

Dejar un comentario

Para comentar has de leer y aceptar la Política de privacidad.

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.