Question 1

Куда положить файл robots.txt?

Accepted Answer

Файл robots.txt должен лежать в корневой директории сайта и быть доступен по адресу https://вашдомен.ru/robots.txt. В поддиректориях он работать не будет.

Question 2

Блокирует ли robots.txt появление страниц в Google?

Accepted Answer

Не совсем. Robots.txt блокирует сканирование, а не индексацию. Если другие сайты ссылаются на заблокированную страницу, Google может показать её в результатах поиска (без сниппета). Для полной блокировки индексации используйте мета-тег 'noindex'.

Question 3

Что означает 'User-agent: *'?

Accepted Answer

Звёздочка (*) — это маска, соответствующая всем краулерам. Правила под 'User-agent: *' применяются к каждому боту, для которого нет отдельной секции в файле.

Question 4

Нужно ли блокировать AI-краулеры типа GPTBot?

Accepted Answer

Зависит от ваших предпочтений. Если не хотите, чтобы контент использовался для обучения AI, добавьте 'User-agent: GPTBot' с 'Disallow: /' для блокировки краулера OpenAI. Аналогичные правила есть для Google-Extended и CCBot.

Question 5

Что такое Crawl-delay?

Accepted Answer

Crawl-delay указывает ботам ждать указанное количество секунд между запросами. Поддерживается Bing и Yandex, но игнорируется Google. Используйте, если агрессивный обход перегружает сервер.

Question 6

Можно ли использовать wildcards в путях robots.txt?

Accepted Answer

Google и Bing поддерживают ограниченные маски: * соответствует любой последовательности символов, $ обозначает конец URL. Например, 'Disallow: /*.pdf$' блокирует все PDF-файлы. Не все боты поддерживают эти расширения.

Генератор robots.txt

Об этом инструменте

Как использовать

Часто задаваемые вопросы

Похожие инструменты

Генератор .htaccess редиректов

Калькулятор IP-подсетей

Генератор cron-выражений