Cómo impedir ser espiado por la competencia que usa herramientas SEO

¿Tienes una web en un alojamiento compartido?
O acaso tu servidor web anda justo de recursos,
o quizás solo quieres que los recursos de tu servidor (CPU/Ancho de Banda/Memoria/BBDD/HD) sean usados para tus clientes o por quienes permiten hacer crecer tu negocio.

Tal vez no quieras que las herramientas SEO usadas por la competencia extraigan de tus páginas web:

Tus links internos y externos.
La estructura de tu web.
Tus Keywords.
El contenido de las pàginas.
Datos sensibles (email, teléfono, dirección, nombres de empleados, etc).

Si es así, deberías de bloquear los motores de crawling (Bots/Web Crawlers),
por lo menos los de las herramientas SEO más utilizadas para analizar a la competencia:

AHRefs (1)
User-agent: AhrefsBot
SEMRush
User-agent: SemrushBot
User-agent: SemrushBot-SA
User-agent: SemrushBot-BA
User-agent: SemrushBot-SI
User-agent: SemrushBot-SWA
User-agent: SemrushBot-CT
User-agent: SemrushBot-BM
Majestic
User-agent: MJ12bot
Moz
User-agent: rogerbot
User-agent: dotbot
Sistrix
User-Agent: Sistrix
User-Agent: Optimizer SISTRIX
User-Agent: SISTRIX Crawler
Serpstat
User-agent: serpstatbot
Woorank
User-agent: woorank
Xovi
User-Agent: XoviBot
SEOprofiler
User-agent: sp_auditbot
DeepCrawl
User-agent: deepcrawl
Oncrawl
User-Agent: OnCrawl
CognitiveSEO
User-agent: JamesBOT
SEO PowerSuite (2)
User-agent: BLEXBot
Linkdex
User-agent: linkdexbot
Searchmetrics
User-agent: SearchmetricsBot
Cocolyze
User-agent: Cocolyzebot
Similartech
User-agent: SMTBot
Seokicks
User-agent: SEOkicks-Robot
Screaming Frog SEO Spider
User-agent: Screaming Frog SEO Spider
Xenu’s Link Sleuth
User-agent: Xenu
Otros Scrapers
User-agent: WebCopier
User-agent: HTTrack
User-agent: wget

Esto lo puedes hacer mediante el fichero Robots.txt para los bots «respetuosos» o, de una manera más expeditiva, con reglas en el .httaccess y usando el user-agent-string.

Otra técnica mucho más efectiva, puesto que evita el crawling usando un user-agent fake, es montando un honeypot, en el que quedarán atrapados los bots/scrapers/crawlers «irrespetuosos» tal que las moscas en la miel.

Los web crawlers que quizás te interese que visiten tu web

Google
User-agent: Googlebot
Google Images
User-agent: Googlebot-Image
Bing
User-agent: Bingbot
Yahoo
User-agent: Slurp
DuckDuckGo
User-agent: DuckDuckBot
Applebot
User-agent: AppleBot
Exalead
User-agent: Exabot

Bonus

Apache Bad Bot and User-Agent Blocker, Spam Referrer Blocker, Bad IP Blocker and WordPress Theme Detector Blocker

https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker

SEO experiment: 0.1

Feliciano Borrego

Campo de batalla Internet

Campo de batalla Internet

Cómo impedir ser espiado por la competencia que usa herramientas SEO

Los web crawlers que quizás te interese que visiten tu web

Bonus

Deja un comentario Cancelar la respuesta