Glossaire

robots.txt

Le fichier robots.txt est un standard web (RFC 9309) placé à la racine d'un site qui indique aux user-agents des crawlers (moteurs de recherche, moteurs IA, scrapers) les chemins autorisés et interdits à l'indexation.

Aussi appelé

  • robots.txt
  • fichier robots

Le pattern AEO 2026 moderne consiste à ajouter, en complément des règles génériques (`User-Agent: *`), des **règles explicites par bot IA** : GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, etc. Cette posture défensive contre-balance les configurations Cloudflare "AI Crawl Control" qui bloquent par défaut tous les bots IA — un comportement opposé à ce que recherche l'AEO.

Un robots.txt bien construit pour un SaaS B2B 2026 ressemble à : 1. `User-Agent: *` avec Allow / Disallow génériques (autoriser la marketing, bloquer le dashboard / api / login) 2. Une règle `Allow: /` PAR bot IA pour neutraliser un éventuel blocage CF en amont 3. Le pointeur `Sitemap: https://...`

Important : robots.txt n'a aucune force contraignante (un bot mal intentionné peut l'ignorer), c'est une convention. Pour vraiment bloquer un bot, il faut un filtrage côté serveur.

Dans le produit chatsocial.fr

Le robots.txt de chatsocial.fr suit ce pattern : règles génériques + Allow explicit pour 19 bots IA (GPTBot, ClaudeBot, PerplexityBot, etc.). Inspectable sur https://chatsocial.fr/robots.txt.

Questions fréquentes

  • Faut-il bloquer les crawlers IA dans robots.txt ?

    Pour une stratégie AEO : non, l'inverse. Tu veux maximiser les passages des crawlers IA pour augmenter la probabilité d'être cité. Bloquer GPTBot et ClaudeBot ferme la porte à ChatGPT et Claude.

  • Quelle différence entre robots.txt et llms.txt ?

    robots.txt est une convention d'indexation (qui peut crawler quoi). llms.txt est une carte d'identité de la marque destinée aux moteurs IA pour qu'ils comprennent qui tu es et comment te citer. Les deux sont complémentaires.