Cómo bloquear bots, scrapers y crawlers de IA

Share to social media
3baa0d77-ea32-45b9-a2c6-0120b7266f30

El aumento de bots de IA, scrapers y crawlers que recopilan datos web para entrenar modelos ha generado preocupaciones entre los creadores de contenido.

Muchas de estas herramientas operan sin transparencia, a veces haciéndose pasar por navegadores legítimos, y el control sobre cómo se usa el contenido es limitado.

¿Cómo puedes proteger tu contenido de estos bots?

Existen varias herramientas que permiten a los usuarios bloquear bots de IA con un solo clic, sin embargo aquí vamos a ver cómo lo puedes hacer manualmente rellenando tu archivo físico robots.txt.

Si necesitas saber qué es el archivo robots.txt, este artículo de Cloudflare es muy bueno: ¿Qué es el archivo robots.txt? | Cómo funciona un archivo robots.txt

Para bloquear los bots conocidos, simplemente añade -utilizando el administrador de archivos de tu hosting- las instrucciones correspondientes al archivo robots.txt.

Instrucciones a añadir al archivo robots.txt

En este repositorio de GitHub, existe una lista abierta de rastreadores web asociados con empresas de IA y la capacitación de LLM para bloquearlos. Consulta 
la información sobre los rastreadores incluidos en la lista y las 
preguntas frecuentes.

Copia las instrucciones a tu archivo robots.txt.

Las instrucciones, a fecha de publicación de este post, a añadir son:

User-agent: Amazonbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: GPTBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: Scrapy
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: YouBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: facebookexternalhit
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot
Disallow: /

¿Existe un plugin para hacerlo?

Por supuesto que sí. Block AI Crawlers bloquea los bots, scrapers y crawlers de IA conocidos. Si bien el plugin agrega estos marcadores, es responsabilidad de los propios rastreadores respetar estas solicitudes.

El plugin agrega directivas al archivo robots.txt para indicarles a los rastreadores de IA que no deben indexar su sitio. También agrega la etiqueta meta noai al encabezado de tu sitio para hacer lo mismo.

Puedes añadir la meta etiqueta noai, creando un nuevo script mediante el plugin Insert Headers and Footers Code – HT Script con la siguiente instrucción:

<meta name="robots" content="noai, noimageai" />

El plugin Block AI Crawlers Posee la ventaja de la actualización de la lista pero solo funciona si usas el robots.txt virtual de WordPress. Si tienes un  archivo físico robots.txt en tu servidor web, no podrás activar este plugin. [No lo hemos probado con el plugin Yoast SEO que también crea un archivo robots.txt virtual pero es probable que funcione también]

Por qué bloquear bots de IA

En Cloudflare se dan razones de peso para utilizar un mecanismo de bloqueo de rastreadores de IA en tu sitio web: Declare su independencia: bloquee bots, scrapers y crawlers de IA con un solo clic.

En Blogpocket, creemos que es una opción razonable si se quiere proteger el contenido por razones éticas. En el manifiesto que suscribimos Usamos la IA de manera responsable así se especifica. Entendemos que entrenar modelos de IA sin el consentimiento del usuario choca con los derechos de este a la privacidad entre otras cosas.

Somos partidarios, por lo tanto de un uso ético y responsable de la IA y, en este sentido, hemos implementado en Blogpocket el bloqueo de bots de IA tal y como se explica en este artículo.

Para la escritura de este post se ha empleado ChatGPT (menos del 10 %). Las imágenes se han generado mediante la IA de Copilot Designer. En Blogpocket, creemos en un uso ético y responsable de la IA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Antonio Cambronero.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento: No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a GreenGeeks que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.