Как сделать правильный robots.txt для WordPress и что это такое
robots.txt – это файл, в котором записаны правила для поисковых роботов, которые гласят о том, как индексировать весь сайт. Очевидно, что от содержания этого файла зависит успешность всей стратегии продвижения. В этой статье я вам покажу, как сделать правильный robots.txt для WordPress.
Правильный robots.txt для WordPress
Чтобы сделать правильный robots.txt для WordPress, создайте текстовый файл с расширением .txt и назовите его robots. Заполните его правилами, которые вам необходимы. Файл нужно сохранить в корневую папу сайта через FTP.
Готовый правильный robots.txt для WordPress вы можете скачать по ссылке ниже. Только поменяйте «https://example.ru» на свой сайт, а «https://example.ru/sitemap.xml» на свою карту сайта.
Перед использованием, извлеките из архива.
Теперь поясню, что означает каждое выражение. robots.txt состоит из директив, каждая директива обозначает какое-либо правило. Директивы могут иметь свои параметры. robots.txt для WordPress, который вы скачали выше, содержит следующие правила:
- User-agent. Здесь указывается имя робота, для которого идут правила ниже. Правила для указанного робота заканчиваются перед следующим User-agent. Если директива имеет значение «*» (звёздочка), то эти правила относятся ко всем роботам. Каждый робот поисковой системы имеет своё имя, у многих поисковых систем есть по несколько роботов с разными именами. Список популярных User-agent можете скачать по ссылке ниже.
Перед использованием, извлеките из архива.
- Disallow. Эта директива запрещает индексирование частей сайта, путь к которым в ней указан. Так, «Disallow: /wp-admin» — означает, что «example.ru/wp-admin» в поиске участвовать не будет. Правило «Disallow: */trackback» означает, что «example.ru/любое_значение/trackback» не будет индексироваться. Установка символа «*» означает любое значение. Аналогично с «Disallow: /*?*» — это правило показывает, что не будут индексироваться все страницы, имеющие в адресе знак «?», независимо от того, что написано до этого знака и после.
- Allow. Правильный robots.txt для WordPress обычно не содержит этой директивы, но она может иногда пригодиться. Это то же самое, что и «Disallow», только наоборот, то есть, это разрешающее правило. Так, например, если вы заблокировали «example.ru/wp-admin», но вам нужно проиндексировать какою-то одну страницу в каталоге «wp-admin», например «page.php», то необходимо создать такое правило «Allow: wp-admin/page.php». Тогда страница будет индексировать, несмотря на запрет.
Правильный robots.txt для WordPress в Яндексе
Правильный robots.txt для WordPress должен иметь отдельную часть для Яндекса, как в примере, который можно скачать выше. Для этого поисковика обязательно необходимо указать следующие директивы:
- Host. Это адрес главного зеркала сайта, либо с WWW, либо без WWW. Главное зеркало также должно быть настроено в файле .htaccess. Подробнее тут.
- Sitemap. Это адрес к карте сайта XML формата (для роботов). Необходимо указать полный путь до карты, например «https://example.ru/sitemap.xml».
Роботы Яндекса также понимают правило «Crawl-delay». Оно указывает, с какой периодичность робот может сканировать сайт. Указывается в секундах, например, «Crawl-delay: 2.5» указывает, что робот может посещать страницу не чаще, чем один раз в 2,5 секунды. Эта директива может быть полезна, если сканирующий робот оказывает слишком большую нагрузку на сайт.
Если хотите, то можно узнать, как выглядит файл robots.txt на любом сайте. Для этого напишите в браузере адрес «https://example.ru/robots.txt» (вместо «example.ru» целевой сайт).