Корректный robots.txt для WordPress

Файл robots.txt позволяет указать поисковым роботам, какие страницы вашего сайте не нужно индексировать и выводить в результатах поиска. Все страницы тегов, категорий, поиска не должны попадать в результаты поиска и должны быть закрыты от роботов этим файлом. В результаты поиска должны попадать только индивидуальные статьи и главная страница вашего сайта.

Файл должен размещаться в корне вашего сайта. Например, у меня он находится в https://urvanov.ru/robots.txt, а у вас он должен быть расположен в http://ваш_сайт/robots.txt соответственно. Файл в основном состоит из строк User-agent: и Disallow: . User-agent позволяет указать блок для какого-нибудь определённого поискового робота. Disallow запрещает индексирование по пути. Можно использовать символ звёздочка «*» — он заменяет любую последовательность символов.

Вот какое содержимое имеет файл robots.txt на моём сайте:

То есть я закрыл от роботов все страницы, адреса которых начинаются на /tag (это страницы тегов), /category (страницы категорий). Также закрыл все RSS-ленты (feed) и  панель администратора.

Строка Host: urvanov.ru указывает основной адрес сайта. Вам нужно будет прописать туда адрес своего сайта. То есть у меня сайт открывается на http://www.urvanov.ru и https://urvanov.ru, но основной адрес второй. Sitemap указывает на файл с картой сайта для поисковых роботов. Обязательно установите какой-нибудь плагин, генерирующий этот файл, например Google XML Sitemaps.

Этот файл не закрывает страницы архивов вида https://urvanov.ru/2015/09/. Я не смог придумать нормальное правило для этого файла, чтобы оно корректно закрывало все подобные страницы, но не трогало страницы статей, например https://urvanov.ru/2015/09/25/the-witcher-on-my-way-to-the-salamandra-hideout/. Чтобы запретить индексацию страниц архива, я отредактировал файл functions.php шаблона темы. Если вы ещё не сделали дочернюю тему, то самое время сделать это. Откройте файл functions.php вашей дочерней темы и добавьте туда код:

Троеточие здесь — это остальное содержимое файла. Этот кусок кода подписывается на событие wp_head, которое возникает при выводе заголовка страницы, и добавляет тег <meta name="robots" content="noindex"/> в страницы архива статей, который запрещает индексацию страниц поисковыми роботами

Корректный robots.txt для WordPress: 2 комментария

  1. Здравствуйте! спасибо за статью! возник вопрос, буду очень благодарна, если ответите.
    Зачем закрывать от индексации архив статей?

    1. Архивы статей не должны попадать в поисковые выдачи, потому что они не содержат уникальной информации. Архивы статей содержат только ссылки на статьи и начало статей до тега «Читать далее». В поисковую выдачу Google и Yandex должны попадать только сами статьи, так как именно они содержат полезную информацию, а все страницы навигации по сайту: ленты новостей, страницы результатами поиска, страницы рубрик, страницы меток — они в поисковой выдаче будут лишними.
      Например, https://urvanov.ru/2015/09/. Это архив статей за сентябрь 2015 года. Там нет ничего уникального только ссылки на статьи.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *