Файл robots.txt позволяет указать поисковым роботам, какие страницы вашего сайте не нужно индексировать и выводить в результатах поиска. Все страницы тегов, категорий, поиска не должны попадать в результаты поиска и должны быть закрыты от роботов этим файлом. В результаты поиска должны попадать только индивидуальные статьи и главная страница вашего сайта.
Файл должен размещаться в корне вашего сайта. Например, у меня он находится в https://urvanov.ru/robots.txt, а у вас он должен быть расположен в http://ваш_сайт/robots.txt соответственно. Файл в основном состоит из строк User-agent: и Disallow: . User-agent позволяет указать блок для какого-нибудь определённого поискового робота. Disallow запрещает индексирование по пути. Можно использовать символ звёздочка «*» — он заменяет любую последовательность символов.
Вот какое содержимое имеет файл robots.txt на моём сайте:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /author Disallow: /page Sitemap: https://urvanov.ru/sitemap.xml.gz Sitemap: https://urvanov.ru/sitemap.xml User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /author Disallow: /page Host: urvanov.ru Sitemap: https://urvanov.ru/sitemap.xml.gz Sitemap: https://urvanov.ru/sitemap.xml |
То есть я закрыл от роботов все страницы, адреса которых начинаются на /tag (это страницы тегов), /category (страницы категорий). Также закрыл все RSS-ленты (feed) и панель администратора.
Строка Host: urvanov.ru указывает основной адрес сайта. Вам нужно будет прописать туда адрес своего сайта. То есть у меня сайт открывается на http://www.urvanov.ru и https://urvanov.ru, но основной адрес второй. Sitemap указывает на файл с картой сайта для поисковых роботов. Обязательно установите какой-нибудь плагин, генерирующий этот файл, например Google XML Sitemaps.
Этот файл не закрывает страницы архивов вида https://urvanov.ru/2015/09/. Я не смог придумать нормальное правило для этого файла, чтобы оно корректно закрывало все подобные страницы, но не трогало страницы статей, например https://urvanov.ru/2015/09/25/the-witcher-on-my-way-to-the-salamandra-hideout/. Чтобы запретить индексацию страниц архива, я отредактировал файл functions.php шаблона темы. Если вы ещё не сделали дочернюю тему, то самое время сделать это. Откройте файл functions.php вашей дочерней темы и добавьте туда код:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
<?php ... function add_head_meta($content) { if (is_archive()) { // Все остальные служебные страницы исключены из индекса // в robots.txt echo '<meta name="robots" content="noindex"/>'; } return $content; } add_action('wp_head', 'add_head_meta'); ?> |
Троеточие здесь — это остальное содержимое файла. Этот кусок кода подписывается на событие wp_head, которое возникает при выводе заголовка страницы, и добавляет тег <meta name="robots" content="noindex"/> в страницы архива статей, который запрещает индексацию страниц поисковыми роботами
Поделиться:
Здравствуйте! спасибо за статью! возник вопрос, буду очень благодарна, если ответите.
Зачем закрывать от индексации архив статей?
Архивы статей не должны попадать в поисковые выдачи, потому что они не содержат уникальной информации. Архивы статей содержат только ссылки на статьи и начало статей до тега «Читать далее». В поисковую выдачу Google и Yandex должны попадать только сами статьи, так как именно они содержат полезную информацию, а все страницы навигации по сайту: ленты новостей, страницы результатами поиска, страницы рубрик, страницы меток — они в поисковой выдаче будут лишними.
Например, https://urvanov.ru/2015/09/. Это архив статей за сентябрь 2015 года. Там нет ничего уникального только ссылки на статьи.