Корректный robots.txt для WordPress

Файл robots.txt позволяет указать поисковым роботам, какие страницы вашего сайте не нужно индексировать и выводить в результатах поиска. Все страницы тегов, категорий, поиска не должны попадать в результаты поиска и должны быть закрыты от роботов этим файлом. В результаты поиска должны попадать только индивидуальные статьи и главная страница вашего сайта.

Файл должен размещаться в корне вашего сайта. Например, у меня он находится в https://urvanov.ru/robots.txt, а у вас он должен быть расположен в http://ваш_сайт/robots.txt соответственно. Файл в основном состоит из строк User-agent: и Disallow: . User-agent позволяет указать блок для какого-нибудь определённого поискового робота. Disallow запрещает индексирование по пути. Можно использовать символ звёздочка «*» — он заменяет любую последовательность символов.

Вот какое содержимое имеет файл robots.txt на моём сайте:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /category
Disallow: /author
Disallow: /page
Sitemap: https://urvanov.ru/sitemap.xml.gz
Sitemap: https://urvanov.ru/sitemap.xml

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /category
Disallow: /author
Disallow: /page
Host: urvanov.ru
Sitemap: https://urvanov.ru/sitemap.xml.gz
Sitemap: https://urvanov.ru/sitemap.xml

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Disallow: /category

Disallow: /author

Disallow: /page

Sitemap: https://urvanov.ru/sitemap.xml.gz

Sitemap: https://urvanov.ru/sitemap.xml

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Disallow: /category

Disallow: /author

Disallow: /page

Host: urvanov.ru

Sitemap: https://urvanov.ru/sitemap.xml.gz

Sitemap: https://urvanov.ru/sitemap.xml

То есть я закрыл от роботов все страницы, адреса которых начинаются на /tag (это страницы тегов), /category (страницы категорий). Также закрыл все RSS-ленты (feed) и панель администратора.

Строка Host: urvanov.ru указывает основной адрес сайта. Вам нужно будет прописать туда адрес своего сайта. То есть у меня сайт открывается на http://www.urvanov.ru и https://urvanov.ru, но основной адрес второй. Sitemap указывает на файл с картой сайта для поисковых роботов. Обязательно установите какой-нибудь плагин, генерирующий этот файл, например Google XML Sitemaps.

Этот файл не закрывает страницы архивов вида https://urvanov.ru/2015/09/. Я не смог придумать нормальное правило для этого файла, чтобы оно корректно закрывало все подобные страницы, но не трогало страницы статей, например https://urvanov.ru/2015/09/25/the-witcher-on-my-way-to-the-salamandra-hideout/. Чтобы запретить индексацию страниц архива, я отредактировал файл functions.php шаблона темы. Если вы ещё не сделали дочернюю тему, то самое время сделать это. Откройте файл functions.php вашей дочерней темы и добавьте туда код:

<?php
...


function add_head_meta($content) {
    if (is_archive()) {
        // Все остальные служебные страницы исключены из индекса
        // в robots.txt
        echo '<meta name="robots" content="noindex"/>';
    }
    return $content;
}
add_action('wp_head', 'add_head_meta');

?>

<?php

...

function add_head_meta($content) {

if (is_archive()) {

// Все остальные служебные страницы исключены из индекса

// в robots.txt

echo '<meta name="robots" content="noindex"/>';

}

return $content;

}

add_action('wp_head', 'add_head_meta');

Троеточие здесь — это остальное содержимое файла. Этот кусок кода подписывается на событие wp_head, которое возникает при выводе заголовка страницы, и добавляет тег <meta name="robots" content="noindex"/> в страницы архива статей, который запрещает индексацию страниц поисковыми роботами

Корректный robots.txt для WordPress: 2 комментария

Здравствуйте! спасибо за статью! возник вопрос, буду очень благодарна, если ответите.
Зачем закрывать от индексации архив статей?

Ответить

Урванов Фёдор:

13.10.2015 в 17:27

Архивы статей не должны попадать в поисковые выдачи, потому что они не содержат уникальной информации. Архивы статей содержат только ссылки на статьи и начало статей до тега «Читать далее». В поисковую выдачу Google и Yandex должны попадать только сами статьи, так как именно они содержат полезную информацию, а все страницы навигации по сайту: ленты новостей, страницы результатами поиска, страницы рубрик, страницы меток — они в поисковой выдаче будут лишними.
Например, https://urvanov.ru/2015/09/. Это архив статей за сентябрь 2015 года. Там нет ничего уникального только ссылки на статьи.

Ответить

Пн	Вт	Ср	Чт	Пт	Сб	Вс
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Корректный robots.txt для WordPress: 2 комментария

Добавить комментарий Отменить ответ