Cómo impedir ser espiado por la competencia que usa herramientas SEO


¿Tienes una web en un alojamiento compartido?
O acaso tu servidor web anda justo de recursos,
o quizás solo quieres que los recursos de tu servidor (CPU/Ancho de Banda/Memoria/BBDD/HD) sean usados para tus clientes o por quienes permiten hacer crecer tu negocio.

Tal vez no quieras que las herramientas SEO usadas por la competencia extraigan de tus páginas web:

  • Tus links internos y externos.
  • La estructura de tu web.
  • Tus Keywords.
  • El contenido de las pàginas.
  • Datos sensibles (email, teléfono, dirección, nombres de empleados, etc).

 

Si es así, deberías de bloquear los motores de crawling (Bots/Web Crawlers),
por lo menos los de las herramientas SEO más utilizadas para analizar a la competencia:

  1. AHRefs (1)
    User-agent: AhrefsBot
  2. SEMRush
    User-agent: SemrushBot
    User-agent: SemrushBot-SA
    User-agent: SemrushBot-BA
    User-agent: SemrushBot-SI
    User-agent: SemrushBot-SWA
    User-agent: SemrushBot-CT
    User-agent: SemrushBot-BM
  3. Majestic
    User-agent: MJ12bot
  4. Moz
    User-agent: rogerbot
    User-agent: dotbot
  5. Sistrix
    User-Agent: Sistrix
    User-Agent: Optimizer SISTRIX
    User-Agent: SISTRIX Crawler
  6. Serpstat
    User-agent: serpstatbot
  7. Woorank
    User-agent: woorank
  8. Xovi
    User-Agent: XoviBot
  9. SEOprofiler
    User-agent: sp_auditbot
  10. DeepCrawl
    User-agent: deepcrawl
  11. Oncrawl
    User-Agent: OnCrawl
  12. CognitiveSEO
    User-agent: JamesBOT
  13. SEO PowerSuite (2)
    User-agent: BLEXBot
  14. Linkdex
    User-agent: linkdexbot
  15. Searchmetrics
    User-agent: SearchmetricsBot
  16. Cocolyze
    User-agent: Cocolyzebot
  17. Similartech
    User-agent: SMTBot
  18. Seokicks
    User-agent: SEOkicks-Robot
  19. Screaming Frog SEO Spider
    User-agent: Screaming Frog SEO Spider
  20. Xenu’s Link Sleuth
    User-agent: Xenu
  21. Otros Scrapers
    User-agent: WebCopier
    User-agent: HTTrack
    User-agent: wget

 

Esto lo puedes hacer mediante el fichero Robots.txt para los bots «respetuosos» o, de una manera más expeditiva, con reglas en el .httaccess y usando el user-agent-string.

Otra técnica mucho más efectiva, puesto que evita el crawling usando un user-agent fake, es montando un honeypot, en el que quedarán atrapados los bots/scrapers/crawlers «irrespetuosos» tal que las moscas en la miel.

 

Los web crawlers que quizás te interese que visiten tu web

  • Google
    User-agent: Googlebot
  • Google Images
    User-agent: Googlebot-Image
  • Bing
    User-agent: Bingbot
  • Yahoo
    User-agent: Slurp
  • DuckDuckGo
    User-agent: DuckDuckBot
  • Applebot
    User-agent: AppleBot
  • Exalead
    User-agent: Exabot

 

Bonus

Apache Bad Bot and User-Agent Blocker, Spam Referrer Blocker, Bad IP Blocker and WordPress Theme Detector Blocker

https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker


SEO experiment: 0.1

Deja un comentario

Para comentar has de leer y aceptar la Política de privacidad.

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.