Файл robots.txt позволяет указать поисковым роботам, какие страницы вашего сайте не нужно индексировать и выводить в результатах поиска. Все страницы тегов, категорий, поиска не должны попадать в результаты поиска и должны быть закрыты от роботов этим файлом. В результаты поиска должны попадать только индивидуальные статьи и главная страница вашего сайта.
Файл должен размещаться в корне вашего сайта. Например, у меня он находится в https://urvanov.ru/robots.txt, а у вас он должен быть расположен в http://ваш_сайт/robots.txt соответственно. Файл в основном состоит из строк User-agent: и Disallow: . User-agent позволяет указать блок для какого-нибудь определённого поискового робота. Disallow запрещает индексирование по пути. Можно использовать символ звёздочка «*» — он заменяет любую последовательность символов.
Вот какое содержимое имеет файл robots.txt на моём сайте:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /author Disallow: /page Sitemap: https://urvanov.ru/sitemap.xml.gz Sitemap: https://urvanov.ru/sitemap.xml User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /author Disallow: /page Host: urvanov.ru Sitemap: https://urvanov.ru/sitemap.xml.gz Sitemap: https://urvanov.ru/sitemap.xml |
То есть я закрыл от роботов все страницы, адреса которых начинаются на /tag (это страницы тегов), /category (страницы категорий). Также закрыл все RSS-ленты (feed) и панель администратора.
Строка Host: urvanov.ru указывает основной адрес сайта. Вам нужно будет прописать туда адрес своего сайта. То есть у меня сайт открывается на http://www.urvanov.ru и https://urvanov.ru, но основной адрес второй. Sitemap указывает на файл с картой сайта для поисковых роботов. Обязательно установите какой-нибудь плагин, генерирующий этот файл, например Google XML Sitemaps.
Этот файл не закрывает страницы архивов вида https://urvanov.ru/2015/09/. Я не смог придумать нормальное правило для этого файла, чтобы оно корректно закрывало все подобные страницы, но не трогало страницы статей, например https://urvanov.ru/2015/09/25/the-witcher-on-my-way-to-the-salamandra-hideout/. Чтобы запретить индексацию страниц архива, я отредактировал файл functions.php шаблона темы. Если вы ещё не сделали дочернюю тему, то самое время сделать это. Откройте файл functions.php вашей дочерней темы и добавьте туда код:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
<?php ... function add_head_meta($content) { if (is_archive()) { // Все остальные служебные страницы исключены из индекса // в robots.txt echo '<meta name="robots" content="noindex"/>'; } return $content; } add_action('wp_head', 'add_head_meta'); ?> |
Троеточие здесь — это остальное содержимое файла. Этот кусок кода подписывается на событие wp_head, которое возникает при выводе заголовка страницы, и добавляет тег <meta name="robots" content="noindex"/> в страницы архива статей, который запрещает индексацию страниц поисковыми роботами
Здравствуйте! спасибо за статью! возник вопрос, буду очень благодарна, если ответите.
Зачем закрывать от индексации архив статей?
Архивы статей не должны попадать в поисковые выдачи, потому что они не содержат уникальной информации. Архивы статей содержат только ссылки на статьи и начало статей до тега «Читать далее». В поисковую выдачу Google и Yandex должны попадать только сами статьи, так как именно они содержат полезную информацию, а все страницы навигации по сайту: ленты новостей, страницы результатами поиска, страницы рубрик, страницы меток — они в поисковой выдаче будут лишними.
Например, https://urvanov.ru/2015/09/. Это архив статей за сентябрь 2015 года. Там нет ничего уникального только ссылки на статьи.