Question 1

Où placer le fichier robots.txt ?

Accepted Answer

Le fichier robots.txt doit être placé dans le répertoire racine de votre site web, accessible à https://votredomaine.fr/robots.txt. Il ne fonctionnera pas dans les sous-répertoires.

Question 2

Le robots.txt empêche-t-il les pages d'apparaître sur Google ?

Accepted Answer

Pas exactement. Robots.txt bloque le crawl, pas l'indexation. Si d'autres sites font des liens vers une page que vous avez interdite, Google peut quand même l'afficher dans les résultats de recherche (sans extrait). Pour bloquer complètement l'indexation, utilisez plutôt une balise meta 'noindex'.

Question 3

Que signifie 'User-agent: *' ?

Accepted Answer

L'astérisque (*) est un joker qui correspond à tous les robots. Les règles sous 'User-agent: *' s'appliquent à tous les bots qui n'ont pas leur propre section spécifique dans le fichier.

Question 4

Dois-je bloquer les robots IA comme GPTBot ?

Accepted Answer

Ça dépend de votre préférence. Si vous ne voulez pas que votre contenu soit utilisé pour l'entraînement d'IA, vous pouvez ajouter 'User-agent: GPTBot' avec 'Disallow: /' pour bloquer le robot d'OpenAI. Des règles similaires existent pour d'autres bots IA comme Google-Extended et CCBot.

Question 5

Qu'est-ce que Crawl-delay ?

Accepted Answer

Crawl-delay indique aux bots d'attendre un nombre spécifié de secondes entre les requêtes. C'est supporté par Bing et Yandex mais ignoré par Google. Utilisez-le si un crawl agressif surcharge votre serveur.

Question 6

Puis-je utiliser des jokers dans les chemins robots.txt ?

Accepted Answer

Google et Bing supportent des jokers limités : * correspond à n'importe quelle séquence de caractères, et $ marque la fin d'une URL. Par exemple, 'Disallow: /*.pdf$' bloque tous les fichiers PDF. Tous les bots ne supportent pas ces extensions.

Question 7

Comment bloquer uniquement Googlebot mais autoriser Bingbot ?

Accepted Answer

Créez des sections séparées pour chaque bot. Ajoutez 'User-agent: Googlebot' suivi de 'Disallow: /' pour bloquer Google, puis 'User-agent: Bingbot' suivi de 'Allow: /' pour autoriser Bing. Chaque bot suit uniquement les règles de sa propre section.

Générateur Robots.txt

A propos de cet outil

Comment utiliser

Questions frequentes

Outils connexes

Générateur de Redirections .htaccess

Calculateur de sous-réseau IP

Générateur d'Expression Cron