
El aumento de bots de IA, scrapers y crawlers que recopilan datos web para entrenar modelos ha generado preocupaciones entre los creadores de contenido.
Muchas de estas herramientas operan sin transparencia, a veces haciéndose pasar por navegadores legítimos, y el control sobre cómo se usa el contenido es limitado.
¿Cómo puedes proteger tu contenido de estos bots?
Existen varias herramientas que permiten a los usuarios bloquear bots de IA con un solo clic, sin embargo aquí vamos a ver cómo lo puedes hacer manualmente rellenando tu archivo físico robots.txt.
Si necesitas saber qué es el archivo robots.txt, este artículo de Cloudflare es muy bueno: ¿Qué es el archivo robots.txt? | Cómo funciona un archivo robots.txt
Para bloquear los bots conocidos, simplemente añade -utilizando el administrador de archivos de tu hosting- las instrucciones correspondientes al archivo robots.txt.
Instrucciones a añadir al archivo robots.txt
En este repositorio de GitHub, existe una lista abierta de rastreadores web asociados con empresas de IA y la capacitación de LLM para bloquearlos. Consulta
la información sobre los rastreadores incluidos en la lista y las
preguntas frecuentes.
Copia las instrucciones a tu archivo robots.txt.
Las instrucciones, a fecha de publicación de este post, a añadir son:
User-agent: Amazonbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: GPTBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: Scrapy
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: YouBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: facebookexternalhit
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot
Disallow: /
¿Existe un plugin para hacerlo?
Por supuesto que sí. Block AI Crawlers bloquea los bots, scrapers y crawlers de IA conocidos. Si bien el plugin agrega estos marcadores, es responsabilidad de los propios rastreadores respetar estas solicitudes.
El plugin agrega directivas al archivo robots.txt para indicarles a los rastreadores de IA que no deben indexar su sitio. También agrega la etiqueta meta noai al encabezado de tu sitio para hacer lo mismo.
Puedes añadir la meta etiqueta noai, creando un nuevo script mediante el plugin Insert Headers and Footers Code – HT Script con la siguiente instrucción:
<meta name="robots" content="noai, noimageai" />
El plugin Block AI Crawlers Posee la ventaja de la actualización de la lista pero solo funciona si usas el robots.txt virtual de WordPress. Si tienes un archivo físico robots.txt en tu servidor web, no podrás activar este plugin. [No lo hemos probado con el plugin Yoast SEO que también crea un archivo robots.txt virtual pero es probable que funcione también]
Por qué bloquear bots de IA
En Cloudflare se dan razones de peso para utilizar un mecanismo de bloqueo de rastreadores de IA en tu sitio web: Declare su independencia: bloquee bots, scrapers y crawlers de IA con un solo clic.
En Blogpocket, creemos que es una opción razonable si se quiere proteger el contenido por razones éticas. En el manifiesto que suscribimos Usamos la IA de manera responsable así se especifica. Entendemos que entrenar modelos de IA sin el consentimiento del usuario choca con los derechos de este a la privacidad entre otras cosas.
Somos partidarios, por lo tanto de un uso ético y responsable de la IA y, en este sentido, hemos implementado en Blogpocket el bloqueo de bots de IA tal y como se explica en este artículo.
Para la escritura de este post se ha empleado ChatGPT (menos del 10 %). Las imágenes se han generado mediante la IA de Copilot Designer. En Blogpocket, creemos en un uso ético y responsable de la IA
Deja una respuesta