Actualité

Scraping : Cloudflare piège les IA dans un labyrinthe infini

Cloudflare dévoile AI Labyrinth, un nouvel outil conçu pour lutter contre le scraping des données par les IA. Voici comment ça marche.




Cloudflare détourne les bots IA avec un labyrinthe de contenus générés par IA.

Dans un communiqué publié sur son blog, Cloudflare a dévoilé son nouvel outil de lutte contre la collecte automatisée des données par les IA. Celui-ci, intitulé AI Labyrinth, s’attaque à la problématique de « l’explosion des nouveaux crawlers utilisés par les entreprises d’IA pour récupérer des données en vue de l’entraînement des modèles », souligne le fournisseur d’infrastructure web. La nouvelle fonctionnalité est d’ores et déjà disponible sous forme d’opt-in, y compris pour les plans gratuits.

AI Labyinth : Cloudfare prend les IA à leur propre jeu

Cloudflare est parti du constat suivant : les outils existants pour bloquer les robots malveillants peuvent avoir un effet contre-productif. En effet, en bloquant les crawlers, les sites prennent le risque d’alerter les attaquants, « ce qui conduit à un changement d’approche et à une course à l’armement infinie », souligne Cloudflare.

La société a donc opté pour une approche différente, en retournant les armes des IA contre elles-mêmes. AI Labyrinth « utilise du contenu généré par l’IA pour ralentir, confondre et gaspiller les ressources des AI crawlers et autres bots qui ne respectent pas les directives no crawl », est-il indiqué dans le blog post. Dès lors, les crawlers ne font pas l’objet d’un blocage : ils sont redirigés vers une panoplie de pages générées par IA, « suffisamment convaincantes pour inciter un robot d’exploration à les parcourir ». Une façon de détourner les crawlers du contenu réel du site, et de gaspiller leurs ressources.

Un labyrinthe construit de manière sécurisée

Pour piéger les crawlers d’IA, Cloudflare s’appuie sur Workers AI pour générer automatiquement du contenu imitant le style humain, conçu pour être varié et crédible. Afin de garantir l’efficacité du système tout en évitant les effets indésirables, plusieurs précautions ont été prises :

  • Pré-génération du contenu : le contenu est généré en amont (et non à la volée), afin de ne pas impacter les performances des sites web.
  • Sanitisation du contenu : une étape de nettoyage est appliquée pour éviter toute faille de type XSS (Cross-Site Scripting).
  • Contenu basé sur des faits réels : bien que non pertinent pour le site, le contenu repose sur des informations scientifiques vérifiées, afin d’éviter toute propagation de désinformation.
  • Intégration invisible : les liens vers ces pages sont dissimulés dans le code HTML, sans affecter l’affichage du site pour les visiteurs humains.
  • Protection du SEO : chaque page générée contient des balises empêchant son indexation par les moteurs de recherche.

Comment activer AI Labyrinth sur votre site

L’activation de la fonction AI Labyrinth peut être effectuée en quelques secondes. Pour ce faire, rendez-vous dans votre tableau de bord Cloudflare, puis, dans la partie Security, ouvrez Settings et activez la case AI Labyrinth. Vous pouvez également procéder depuis la section Bots, en combinant cet outil avec celui de blocage des robots IA.

Cloudfare Bots IA
Vous pouvez coupler AI Labyrinth avec l’option de blocage des robots. © Cloudflare

Auteur :

Aller à la source

artia13

Depuis 1998, je poursuis une introspection constante qui m’a conduit à analyser les mécanismes de l’information, de la manipulation et du pouvoir symbolique. Mon engagement est clair : défendre la vérité, outiller les citoyens, et sécuriser les espaces numériques. Spécialiste en analyse des médias, en enquêtes sensibles et en cybersécurité, je mets mes compétences au service de projets éducatifs et sociaux, via l’association Artia13. On me décrit comme quelqu’un de méthodique, engagé, intuitif et lucide. Je crois profondément qu’une société informée est une société plus libre.