Detectar y corregir problemas SEO de «Index Bloat» 1


El Index Bloat consiste en inflar el índice de Google con enlaces de nuestra web que no deberían de ser indizados por el buscador.

«Es un síntoma de que tu sitio web tiene problemas.»

«Afecta negativamente al posicionamiento web.»

 

El Index Bloat se puede producir por estos motivos:

  1. Contenido duplicado
  2. Contenido auto-generado
  3. Contenido inyectado

 

Index Bloat por contenido interno duplicado

Es un problema típico, sobre todo en ecommerces y blogs configurados «por el primo».

Realmente no tiene por que haber contenido duplicado, simplemente si se permite accede al mismo contenido desde URLs diferentes, a la vista de Google son distintas páginas web que, en su infinita gula, va a querer indizar.

Esto se produce cuando la misma página web es accesible a través de URL distintas, debido a:

  • La paginación web: «Página previa», «Página siguiente», «Anterior artículo», «Último artículo», …
  • Por pertenecer a una o varias categorías, secciones o tags.
  • Menús a la misma página o navegación por AJAX.
  • Resultados de filtros y/o búsquedas asistidas (facetas).
  • Por páginas web multi-idioma.
  • Por redirecciones mal resueltas.

 

CASO REAL

Y paradigmáticos, el de un blog donde a cada entrada se le asocian 8 – 10 tags, se incluye en múltiples categorías, se le pone una nube de tags en el sidebar junto a la lista de categorías, y que se ponen también en el footer. Además se genera el sitemap para las taxonomías.

Otro caso recurrente es el de ecommerces o blogs en el que se activan varios idiomas, y que por defecto se muestra, en  los idiomas que no se han traducido, el contenido del idioma principal.

 

Index Bloat por thin content auto-generado

Un caso común es debido a la característica que tiene WordPress de generar una página por cada uno de sus elementos multimedia (por cada imagen, pdf, vídeo, etc). Es evidente que para Google -y para cualquiera- esas páginas son contenido irrelevante (thin content/shallow content), y que pueden hacer que Google clasifique el sitio web como de spam.

Otros casos son la generación de páginas de nube de tags, detalle de secciones o categorías, fichas con atributos, carga del mismo contenido mediante AJAX en diferentes páginas, generar ficha con tallas o colores de productos, es decir, funcionalidades extra que incluyen los CMS.

CASO REAL

Un cliente contrata mis servicios al ver que el posicionamiento de su web de afiliación disminuía alarmantemente y que sus visitas caían semanalmente de manera dramática, tras haber conseguido tener una posición muy buena y tráfico cualificado.
Creada con WordPress, configuró la herramienta de generación de sitemap para que incluyera las páginas multimedia. Para más INRI, en cada página se incluían banners publicitarios (en la cabecera, en el cuerpo de la página y en el sidebar derecho), además de los enlaces de afiliación a Amazon.
Teniendo en cuenta que su web contenía unas 200 páginas únicas y unos 800 ficheros multimedia, Google indizó 1.000 páginas, muchas más con thin content que con contenido relevante. Al ser una web de afiliación en la cual habían más páginas con publicidad que con contenido, le cayó un Pandazo de manual.

seo_index_bloat_total2

Index Bloat por contenido inyectado

¿Inyectado por quién? pues por algún spammer que ha hackeado tu web para instalar un ecommerce fraudulento, para usar tu dominio y tu web para redireccionar tráfico, para captar autoridad web, tener sus landing pages y recopilar información personal, etc.

CASO REAL

Un cliente al que le hackearon el blog, el cual, de las 600 páginas legítimas pasó a tener 112.000 que fueron indizadas por Google, y que eran usadas para vender todo tipo de productos japoneses, para reenviar tráfico a otros ecommerces fraudulentos y a otras actividades como el phishing.
Por supuesto, Google lo marcó como sitio atacado, lo incluyó como sitio con malware en el «Safe Browsing» y además le puso una penalización manual, de la que afortunadamente logramos la reconsideración en 4 días.
Una vez limpio el sitio web, lo más lento fue conseguir hacer desaparecer esas 111.000 páginas de spam del índice de Google.

seo_index_bloat_total1

Como detectar el Index Bloat

No es difícil, primero has de conocer el número de «páginas únicas» que tiene tu web. Esto lo puedes ver desde el back-end de tu web, o si tienes bien configurado el sitemap.

Después has de preguntar a Google cuantas páginas de tu web tiene indizadas, ya sea usando el operador «site:miweb.tld» o en la sección «Índice de Google/Estado de Indexación» de Google Search Console (GSC). Entonces:

 Index Bloated Si: «páginas indexadas» supera al de «páginas únicas».

Otro síntoma es que GSC te avise de que tu web ha sufrido un «Aumento de páginas con el error 404 en http://tuweb.tld» y el número de páginas con errores sea mayor que el de contenido legítimo.

 

Consecuencias del Index Bloat

Básicamente pérdida de posicionamiento web, además de que pueda caer un Pandazo (penalización por el algoritmo Google Panda) haciendo que la caída del ránking del SERP sea muy acusada y perniciosa.
Por otro lado, el crawl rate  del sitio, a repartir entre todas las nuevas URLs, junto con el aumento del número de páginas indizadas, hace que las operaciones sobre el índice de Google lleve más tiempo de lo debido.

 

Corregir el Index Bloat

Algunas de las acciones a realizar para eliminar del índice de Google las páginas indeseadas son:

  • Tener el tag «link rel=’canonical'» en todas las páginas.
  • Utilizar la herramienta de «eliminación temporal» de URL de GSC.
  • Poner el meta-tag NOINDEX en las páginas a des-indizar o usar X-Robots-Tag.
  • No impedir, desde robots.txt, que Google Bot  lea el meta-tag de las páginas.

Y mucha paciencia, puesto que el des-indizar páginas de Google es un proceso que puede llevar de 1 a 2 meses, dependiendo de la autoridad de la página que determinará su crawl budget.

También existe un truquillo que suele funcionar, como generar un sitemap del contenido a borrar, una vez establecidos las correcciones on-site pertinentes, y ‘enchufárselo’ a Google.

 

En otro artículo explicaré con más detalle que considera Google thin content, y un enfoque para paliar sus efectos diferente al típico que se basa en «ocultarlo debajo de la alfombra».


Deja un comentario

Para comentar has de leer y aceptar la Política de privacidad.

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Una idea sobre “Detectar y corregir problemas SEO de «Index Bloat»

  • LINUBE

    ¡Muchas gracias por la info amigo!
    Nosotros también aplicamos estas técnicas que comentas con el objetivo de corregir los errores que surgen debido a las urls no redireccionadas y la duplicidad de las mismas por la aparición en diversos tag-s.
    Espero que sigas aportando valor al sector con artículos tan interesantes como este 😉