¿Tienes una web en un alojamiento compartido?
O acaso tu servidor web anda justo de recursos,
o quizás solo quieres que los recursos de tu servidor (CPU/Ancho de Banda/Memoria/BBDD/HD) sean usados para tus clientes o por quienes permiten hacer crecer tu negocio.
Tal vez no quieras que las herramientas SEO usadas por la competencia extraigan de tus páginas web:
- Tus links internos y externos.
- La estructura de tu web.
- Tus Keywords.
- El contenido de las pàginas.
- Datos sensibles (email, teléfono, dirección, nombres de empleados, etc).
Si es así, deberías de bloquear los motores de crawling (Bots/Web Crawlers),
por lo menos los de las herramientas SEO más utilizadas para analizar a la competencia:
- AHRefs (1)
User-agent: AhrefsBot - SEMRush
User-agent: SemrushBot
User-agent: SemrushBot-SA
User-agent: SemrushBot-BA
User-agent: SemrushBot-SI
User-agent: SemrushBot-SWA
User-agent: SemrushBot-CT
User-agent: SemrushBot-BM - Majestic
User-agent: MJ12bot - Moz
User-agent: rogerbot
User-agent: dotbot - Sistrix
User-Agent: Sistrix
User-Agent: Optimizer SISTRIX
User-Agent: SISTRIX Crawler - Serpstat
User-agent: serpstatbot - Woorank
User-agent: woorank - Xovi
User-Agent: XoviBot - SEOprofiler
User-agent: sp_auditbot - DeepCrawl
User-agent: deepcrawl - Oncrawl
User-Agent: OnCrawl - CognitiveSEO
User-agent: JamesBOT - SEO PowerSuite (2)
User-agent: BLEXBot - Linkdex
User-agent: linkdexbot
- Searchmetrics
User-agent: SearchmetricsBot - Cocolyze
User-agent: Cocolyzebot - Similartech
User-agent: SMTBot - Seokicks
User-agent: SEOkicks-Robot - Screaming Frog SEO Spider
User-agent: Screaming Frog SEO Spider - Xenu’s Link Sleuth
User-agent: Xenu - Otros Scrapers
User-agent: WebCopier
User-agent: HTTrack
User-agent: wget
Esto lo puedes hacer mediante el fichero Robots.txt para los bots «respetuosos» o, de una manera más expeditiva, con reglas en el .httaccess y usando el user-agent-string.
Otra técnica mucho más efectiva, puesto que evita el crawling usando un user-agent fake, es montando un honeypot, en el que quedarán atrapados los bots/scrapers/crawlers «irrespetuosos» tal que las moscas en la miel.
Los web crawlers que quizás te interese que visiten tu web
- Google
User-agent: Googlebot - Google Images
User-agent: Googlebot-Image - Bing
User-agent: Bingbot - Yahoo
User-agent: Slurp - DuckDuckGo
User-agent: DuckDuckBot - Applebot
User-agent: AppleBot - Exalead
User-agent: Exabot
Bonus
https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker
SEO experiment: 0.1