Question 1

Dove devo mettere il file robots.txt?

Accepted Answer

Il file robots.txt deve essere posizionato nella directory root del tuo sito web, accessibile su https://tuodominio.com/robots.txt. Non funzionera nelle sottodirectory.

Question 2

Il robots.txt blocca le pagine dalla visualizzazione su Google?

Accepted Answer

Non esattamente. Il robots.txt blocca il crawling, non l'indicizzazione. Se altri siti linkano una pagina che hai bloccato, Google potrebbe comunque mostrarla nei risultati di ricerca (senza snippet). Per bloccare completamente l'indicizzazione, usa invece un meta tag 'noindex'.

Question 3

Cosa significa 'User-agent: *'?

Accepted Answer

L'asterisco (*) e un carattere jolly che corrisponde a tutti i crawler. Le regole sotto 'User-agent: *' si applicano a ogni bot che non ha la propria sezione specifica nel file.

Question 4

Devo bloccare i crawler AI come GPTBot?

Accepted Answer

Dipende dalle tue preferenze. Se non vuoi che i tuoi contenuti vengano usati per l'addestramento AI, puoi aggiungere 'User-agent: GPTBot' con 'Disallow: /' per bloccare il crawler di OpenAI. Regole simili esistono per altri bot AI come Google-Extended e CCBot.

Question 5

Cos'e il Crawl-delay?

Accepted Answer

Il Crawl-delay indica ai bot di aspettare un numero specificato di secondi tra le richieste. E supportato da Bing e Yandex ma ignorato da Google. Usalo se il crawling aggressivo sta sovraccaricando il tuo server.

Question 6

Posso usare i caratteri jolly nei percorsi robots.txt?

Accepted Answer

Google e Bing supportano caratteri jolly limitati: * corrisponde a qualsiasi sequenza di caratteri, e $ marca la fine di un URL. Per esempio, 'Disallow: /*.pdf$' blocca tutti i file PDF. Non tutti i bot supportano queste estensioni.

Question 7

Come verificare se il robots.txt funziona correttamente?

Accepted Answer

Puoi usare lo strumento di test robots.txt in Google Search Console. Inserisci un URL e vedrai se e bloccato o consentito dalle tue regole. E anche utile controllare il log del server per vedere quali bot stanno accedendo al tuo sito.

Generatore Robots.txt

Informazioni su questo strumento

Come usare

Domande frequenti

Strumenti correlati

Generatore Redirect .htaccess

Calcolatore Subnet IP

Generatore di Espressioni Cron