Générateur Robots.txt

Générez des fichiers robots.txt avec un éditeur visuel. Bloquez les bots, définissez les règles de crawl, ajoutez des sitemaps — avec des modèles pour configurations courantes.

Tool UI component not found: dev/robots-txt

A propos de cet outil

Le fichier robots.txt indique aux robots des moteurs de recherche quelles pages ils peuvent et ne peuvent pas accéder sur votre site web. Il se trouve dans le répertoire racine de votre site et est le premier fichier que tout robot bien élevé vérifie avant d'indexer votre contenu. Un robots.txt mal configuré peut empêcher Google d'indexer votre site entier, ou accidentellement exposer des pages d'administration que vous vouliez cacher. Ce générateur vous aide à construire un robots.txt correct avec un éditeur visuel — ajoutez des règles par bot, définissez des chemins allow/disallow, incluez des URLs de sitemap et utilisez des modèles pour les configurations courantes. Le fichier généré suit le standard Robot Exclusion Protocol supporté par Google, Bing, Yandex et tous les principaux moteurs de recherche.

Comment utiliser

1. Commencez avec un modèle ou construisez de zéro 2. Ajoutez des groupes user-agent — chaque groupe cible un bot spécifique (ou tous les bots avec *) 3. Ajoutez des règles Allow et Disallow pour chaque groupe 4. Définissez optionnellement Crawl-delay pour les bots qui le supportent 5. Ajoutez vos URL(s) de sitemap en bas 6. Copiez le robots.txt généré et uploadez-le dans le répertoire racine de votre site

Questions frequentes

Où placer le fichier robots.txt ?
Le fichier robots.txt doit être placé dans le répertoire racine de votre site web, accessible à https://votredomaine.fr/robots.txt. Il ne fonctionnera pas dans les sous-répertoires.
Le robots.txt empêche-t-il les pages d'apparaître sur Google ?
Pas exactement. Robots.txt bloque le crawl, pas l'indexation. Si d'autres sites font des liens vers une page que vous avez interdite, Google peut quand même l'afficher dans les résultats de recherche (sans extrait). Pour bloquer complètement l'indexation, utilisez plutôt une balise meta 'noindex'.
Que signifie 'User-agent: *' ?
L'astérisque (*) est un joker qui correspond à tous les robots. Les règles sous 'User-agent: *' s'appliquent à tous les bots qui n'ont pas leur propre section spécifique dans le fichier.
Dois-je bloquer les robots IA comme GPTBot ?
Ça dépend de votre préférence. Si vous ne voulez pas que votre contenu soit utilisé pour l'entraînement d'IA, vous pouvez ajouter 'User-agent: GPTBot' avec 'Disallow: /' pour bloquer le robot d'OpenAI. Des règles similaires existent pour d'autres bots IA comme Google-Extended et CCBot.
Qu'est-ce que Crawl-delay ?
Crawl-delay indique aux bots d'attendre un nombre spécifié de secondes entre les requêtes. C'est supporté par Bing et Yandex mais ignoré par Google. Utilisez-le si un crawl agressif surcharge votre serveur.
Puis-je utiliser des jokers dans les chemins robots.txt ?
Google et Bing supportent des jokers limités : * correspond à n'importe quelle séquence de caractères, et $ marque la fin d'une URL. Par exemple, 'Disallow: /*.pdf$' bloque tous les fichiers PDF. Tous les bots ne supportent pas ces extensions.
Comment bloquer uniquement Googlebot mais autoriser Bingbot ?
Créez des sections séparées pour chaque bot. Ajoutez 'User-agent: Googlebot' suivi de 'Disallow: /' pour bloquer Google, puis 'User-agent: Bingbot' suivi de 'Allow: /' pour autoriser Bing. Chaque bot suit uniquement les règles de sa propre section.

Outils connexes