Генератор robots.txt
robots.txt — файл, который управляет доступом поисковых роботов к страницам сайта. Правильная настройка экономит краулинговый бюджет и защищает служебные разделы от индексации.
Sitemap: в файл. Рекомендуется для всех сайтов.Что такое robots.txt и зачем он нужен
robots.txt — текстовый файл в корне сайта, который поисковые роботы читают перед обходом. Он содержит инструкции: какие разделы можно сканировать, а какие — нет. Это стандарт Robots Exclusion Protocol (REP), поддерживаемый Google, Яндекс, Bing и большинством поисковых краулеров.
Правильно настроенный robots.txt помогает сосредоточить краулинговый бюджет на важных страницах, скрыть служебные разделы (admin, корзина, поиск) и управлять доступом AI-краулеров к контенту.
Как работает robots.txt
Когда поисковый робот приходит на сайт, он сначала запрашивает https://example.com/robots.txt. Файл читается сверху вниз, правила применяются к первому подходящему блоку User-agent. Специальный агент * означает «все роботы».
- User-agent: — имя робота, к которому применяются правила ниже.
*= все роботы. - Disallow: — путь, который запрещено обходить. Пустое значение (
Disallow:) означает полный доступ. - Allow: — явное разрешение пути (переопределяет Disallow). Поддерживается Google и Яндекс.
- Sitemap: — полный URL сайтмапа. Помогает краулеру быстрее найти все страницы.
- Crawl-delay: — интервал между запросами в секундах (не поддерживается Google, работает у Яндекс).
Пример минимального корректного robots.txt для большинства сайтов:
Типичные ошибки в robots.txt
- Блокировка CSS и JS. Если закрыть доступ к стилям и скриптам, Google не сможет отрендерить страницу и оценить её качество — это прямой вред SEO.
- Путаница Disallow с noindex. Disallow запрещает обход, но не исключает страницу из индекса. Для надёжного исключения нужен мета-тег
noindex. - Случайная блокировка всего сайта.
Disallow: /для всех агентов полностью закрывает сайт от индексации. Частая ошибка на staging-серверах. - Wildcard без поддержки. Шаблоны
*и$поддерживаются Google и Яндекс, но не всеми краулерами. - Устаревший Crawl-delay для Google. Googlebot игнорирует эту директиву — управлять скоростью обхода можно только в Google Search Console.
robots.txt и AI-краулеры
С 2023 года появилось новое поколение краулеров AI-компаний: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Bytespider (TikTok). Они используют ваш контент для обучения языковых моделей и формирования ответов.
Если ваша цель — присутствие в AI-поисковиках (ChatGPT, Perplexity, Google AI Overviews) — не блокируйте их краулеры. Если хотите защитить уникальный контент от использования в обучении — добавьте Disallow: / для конкретных агентов через этот генератор.
Как использовать генератор
Sitemap: в файл./robots.txt. Проверьте через Google Search Console → Инструмент проверки robots.txt.Часто задаваемые вопросы
Что будет, если файл robots.txt отсутствует?
Если robots.txt отсутствует, поисковые роботы обходят весь сайт без ограничений. Это не вредит SEO само по себе, но без файла вы не можете управлять краулинговым бюджетом и закрыть служебные разделы от сканирования.
Блокирует ли robots.txt индексацию страниц?
Нет. Директива Disallow запрещает роботу обходить страницу, но не гарантирует исключение из индекса. Если на заблокированную страницу ведут внешние ссылки, Google может проиндексировать её без контента. Для надёжного исключения используйте мета-тег noindex вместе с Disallow или вместо него.
Стоит ли блокировать AI-краулеры в robots.txt?
Зависит от целей. Если вы хотите попадать в ответы ChatGPT, Perplexity и Google AI Overviews — не блокируйте их краулеры (GPTBot, ClaudeBot, PerplexityBot). Если хотите защитить уникальный контент от обучения — добавьте Disallow для конкретных агентов через этот генератор.
Нужно ли указывать Sitemap в robots.txt?
Да, это рекомендованная практика. Строка Sitemap: https://example.com/sitemap.xml помогает поисковикам быстрее найти ваш сайтмап, даже если он не указан в Search Console. Можно указать несколько Sitemap-строк.
Контент для индексации уже готов?
SeoSmith генерирует SEO-статьи с AEO-разметкой, которые попадают в ответы AI-поисковиков и приводят органический трафик
Начать бесплатно →