
Файл robots.txt — это текстовый документ‚ который служит «дорожной картой» для поисковых роботов. Он располагается в корне сайта и сообщает краулерам‚ какие разделы можно сканировать‚ а какие — нет. Правильная настройка помогает оптимизировать краулинговый бюджет и защитить технические разделы от попадания в индекс.
Ключевые директивы и синтаксис
Каждый блок правил в файле начинается с обращения к конкретному боту. Важно помнить: роботы читают файл сверху вниз‚ и если для конкретного бота (например‚ Googlebot) прописан отдельный блок‚ он проигнорирует общие правила для всех остальных.
- User-agent: Указывает имя робота. Символ «» означает всех ботов.
- Disallow: Директива‚ запрещающая доступ к указанному пути или файлу.
- Allow: Разрешает доступ к ресурсу внутри запрещенного раздела.
| Директива | Яндекс | |
|---|---|---|
| User-agent | Да | Да |
| Disallow | Да | Да |
| Allow | Да | Да |
| Sitemap | Да | Да |
| Clean-param | Нет | Да |
| Crawl-delay | Нет | Да |
Специальные символы в правилах
Для гибкости используются спецсимволы: «/» (корень или папка)‚ «» (любая последовательность знаков) и «$» (конец строки). Например‚ Disallow: /*.pdf$ запретит индексацию всех PDF-файлов на сайте.
Дополнительные команды
Sitemap: Указывает полный путь к карте сайта. Рекомендуется ставить в конце файла. Clean-param: Используется Яндексом для очистки URL от UTM-меток и сессий‚ чтобы избежать дублей страниц.
Технические требования к файлу
- Имя файла — только строчными буквами: robots.txt.
- Кодировка — UTF-8 без BOM.
- Файл должен отдавать код ответа 200 OK.
- Регистр путей имеет значение: /Admin/ и /admin/, это разные папки.
Типичные ошибки при создании
Самая опасная ошибка — закрыть весь сайт командой Disallow: /. Также часто забывают‚ что robots.txt не гарантирует удаление страницы из поиска‚ если на нее ведут внешние ссылки. Для полного удаления нужно использовать мета-тег noindex.
Подводя итог‚ отметим: robots.txt, это фундамент SEO. Он требует точности‚ так как ошибка способна закрыть сайт от индексации или открыть доступ к личным данным. Всегда проверяйте файл через валидаторы в Google Search Console или Яндекс.Вебмастере перед загрузкой. Помните‚ что правила систем могут отличаться‚ поэтому блоки User-agent следует разделять пустой строкой. Регулярный аудит документа поможет сохранять чистоту индекса и высокие позиции. Удачи в СЕО работе!



