Правильный Robots.txt для WordPress 2024 — подробная настройка

Правильный Robots.txt для WordPress Сайты
Правильный Robots.txt для WordPress. Несколько версий под разные нужды: простая базовая и расширенная - с проработкой под каждую поисковую систему.

Одной из важнейших вещей при создании и оптимизации сайта для поисковых систем считают Robots.txt. Небольшой файлик, где прописаны правила индексирования для поисковых роботов.

Если файл будет настроен неправильно, то сайт может неправильно индексироваться и терять большие доли трафика. Грамотная настройка наоборот позволяет улучшить SEO, и вывести ресурс в топы.

Сегодня мы поговорим о настройке Robots.txt для WordPress. Я покажу вам правильный вариант, который сам использую для своих проектов.

Что такое Robots.txt

Как я уже и сказал, robots.txt — текстовой файлик, где прописаны правила для поисковых систем. Стандартный robots.txt для WordPress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Именно в таком виде он создается плагином Yoast SEO. Некоторые считают, что этого хватит для правильной индексации. Я же считаю, что нужна более детальная проработка. А если речь идет о нестандартных проектах, то проработка нужна и подавно. Давайте разберемся в основных директивах:

ДирективаЗначениеПояснение
User-agent:Yandex, Googlebot и т.д.В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал.
Disallow:Относительная ссылкаДиректива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами.
Allow:Относительная ссылкаРазрешающая директива. Ссылки, которые указаны с ней будут проиндексированы.
Sitemap:Абсолютная ссылкаЗдесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console).
Crawl-delay:Время в секундах (пример: 2.0 — 2 секунды)Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг.
Clean-param:Динамический параметрЕсли на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть.

В принципе, ничего сложного. Дам дополнительные пояснения по директивам Clean-param (откройте вкладку).

Подробнее о Clean-param

Параметры, как правило, используются на динамических сайтах. Они могут передавать поисковым системам лишнюю информацию — создавать дубли. Чтобы избежать этого, мы должны указать в Robots.txt директиву Clean-param с указанием параметра и ссылки, к которой это параметр применяется.

В нашем примере site.ru/statia?uid=32 — site.ru/statia — ссылка, а все, что после знака вопроса — параметр. Здесь это uid=32. Он динамический, и это значит, что параметр uid может принимать другие значения.

Например, uid=33, uid=34…uid=123434. В теории их может быть сколько угодно, поэтому мы должны закрыть от индексации все параметры uid. Для этого директива должна принять такой вид:

Clean-param: uid /statia # все параметры uid для statia будут закрыты

Более подробно о том, что такое Robots.txt можно узнать из Яндекс.Помощи. Или из этого видеоролика:

Базовый Robots.txt для WordPress

Совсем недавно я приобрел плагин Clearfy Pro для своих проектов. Там очень много разных функций, и одна из них — создание идеального Robots.txt. На самом деле насколько он идеален — я не знаю, вебмастера расходятся во мнениях.

Кто-то предпочитает делать более краткие версии роботса, указывая правила для всех поисковых систем сразу. Другие прописывают отдельные правила для каждого поисковика (в основном для Яндекса и Гугла).

Что из этого правильно — точно сказать не могу. Однако я предлагаю вам ознакомиться с базовой версией Robots.txt для WordPress от Clearfy Pro. Сейчас я использую именно ее как для этого, так и для большинства других своих проектов.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /wp-includes/*.css
Allow: /wp-includes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Allow: /*.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml

Расширенный Robots.txt для WordPress

Теперь посмотрим на расширенную версию Robots.txt для WordPress. Наверняка вы знаете, что все сайты на WP имеют одинаковую структуру. Одинаковые названия папок, файлов и т. д. позволяют специалистам выявить наиболее приемлемый вариант роботса.

От предыдущего отличается более детальной проработкой под роботы Яндекса и Гугла. Кто-то считает, что таким образом эти ПС будут реагировать на правила лучше. Также здесь закрыты дополнительные технические страницы, фиды.

User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads   

User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.

Ранее в Robots.txt использовалась директива Host. Она указывала главное зеркало сайта. Теперь это делается при помощи редиректа. Подробнее об этом можно почитать в блоге Яндекса.

Комментарии (текст после #) можно удалить. Указываю Sitemap с https протоколом, т.к. большинство сайтов сейчас используют защищенное соединение. Если у вас нет SSL, то измените протокол на http.

Обратите внимание на то, что я закрываю метки (теги). Делаю это потому, что они создают большое количество дублей. Это плохо сказывается на SEO, но если вы хотите открыть метки, тогда уберите строчку disallow: /tag/ из файла.

Заключение

В общем-то, вот так выглядит правильный Robots.txt для WordPress. Смело копируйте данные в файл и пользуйтесь. Отмечу, что этот вариант подходит только для стандартных информационных сайтов.

В других ситуациях может потребоваться индивидуальная проработка. На этом все. Спасибо за внимание. Буду благодарен, если вы подпишитесь на мой телеграм-канал и мою группу ВК.

Поделишься в соцсетях? 🙂 Спасибо 💪🏻

Интернет-предприниматель и создатель этого блога. Работаю удаленно и развиваю бизнес в интернете с 2017-го года.

Сейчас занимаюсь: инвестированием, развитием интернет-проектов, торговлей на маркетплейсах.

Оцените автора
( 32 оценки, среднее 5 из 5 )
AWayne.Biz
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

  1. Алексей

    Спасибо, попробуем-с.

    Ответить
  2. Андрей

    А можно не удалять disallow: /tag/, а вместо этого поставить # в начале строчки ?
    вот так #Disallow: /tag/
    Если оставить как есть с отключенными метками, то поисковики не будут находить статьи по тэгам ?

    Ответить
    1. Александр Смирнов автор

      А зачем ставить # в начале строчки, если она просто не нужна?)
      Только вес файла будет увеличивать, хоть и очень-очень незначительно.
      Если оставить все, как в моем варианте — теги не будут индексироваться ПС.
      У себя на сайте я использую их чисто для внутренней навигации. Считаю, что в поисковой выдаче они будут лишними — создают дубли.
      Но если у вас другое мнение, то можете просто убрать эти строчки из файла.

      Ответить
  3. Лот №2

    А зачем хост удалять?
    Куча гайдов и кто во что горазд, думаю оставить минималку и вообще там не ковыряться.. я не опытный ещё)

    Ответить
    1. Александр Смирнов автор

      Раньше Хост держали только для Яндекса. Потом они выкатили апдейт своих алгоритмов, и сообщили, что теперь главное зеркало будет учитываться через редирект. Короче говоря, теперь это строка вообще не воспринимается поисковыми системами — то есть лишняя.
      Вы можете оставить ее, но она бесполезная.

      Ответить
      1. Валерий

        Здравствуйте! А что нужно сделать, чтобы всё правильно работало, где и как этот редирект настроить?

        Ответить
  4. Лот №2

    К стати, если у тебя скопировать и вставить, то вон какая каша получается, не правильно ты как-то список залил..
    Посмотри: (ссылка удалена)

    Ответить
    1. Александр Смирнов автор

      Спасибо за замечание! Плагин для антиплагиата, который добавлял ссылку в конец скопированного текста мешал все в кашу. Сейчас отключил, можно копировать — все будет в нормальном виде.

      Ответить
  5. Татьяна

    Здравствуйте ! Скажите пожалуйста как закрыть вот такие ссылки в роботс: сайт.ру/baton-v-hlebopechke/1-165/

    Ответить
    1. Василий

      Здравствуйте. Закрываются ссылки так же, как и все остальные.

      Disallow: /baton-v-hlebopechke/1-165/

      Ответить
  6. Александр

    Здравствуйте, копировать и вставить весь код для робота?

    Ответить
    1. Александр Смирнов автор

      Да, все верно.

      Ответить
      1. Алёна

        Здравствуйте, а Host прописывать не надо?

        Ответить
        1. Александр Смирнов автор

          Не надо, сейчас от него отказались все популярные поисковики.

          Ответить
  7. Rusfetbiz

    Спасибо за статью. Мучаюсь с метками — попадают в поиск. Оказалось неправильно закрыл в роботсе.

    Ответить
    1. Александр Смирнов автор

      Рад, что статья вам помогла. Метки можно закрыть не только при помощи Роботса, но и через Yoast SEO)

      Ответить
  8. Виктор

    что думаете по поводу
    Disallow: */print/
    Disallow: *?print=*

    Ответить
    1. Александр Смирнов автор

      Первый закроет все ссылки, которые заканчиваются на /print/
      Второй закроет все ссылки, в которых есть параметр *?print=* с любым содержанием.

      Ответить
  9. Красноармеец Сухов

    Добрый день! А чем вам не нравится Robots.txt от Clearfy Pro? Там ведь в плагине все лишнее можно закрыть, вот оно и не прописывается лишний раз в Robots.txt, да и уверяют они, что это лучший выбор. Вы как считаете?

    Ответить
    1. Александр Смирнов автор

      У них слишком короткий вариант «сразу для всех ПС». Конкретно мне такое не подходит, потому что для Яндекса нужно открывать турбо-страницы. Для Гугла их открывать не нужно 🙂
      И еще: я считаю, что проработка файла под каждую поисковую систему лучше скажется на SEO.
      Но вы можете поставить вариант Clearfy, с этим нет никаких проблем) Не думаю, что будет слишком большая разница.

      Ответить
  10. Андрей

    Здравствуйте скопировал роботс в вордпресс вставил и после проверки пишет кучу ошибок а почему так ?
    Вот смотрите проверял на этом сайте robots.txt — websiteplanet
    А вот скрин ошибок его — (ссылка удалена)

    Ответить
    1. Александр Смирнов автор

      Добрый день! Проверил ваш инструмент, какой-то он мутный. Не думаю, что его рекомендациям стоит следовать. Но это мое мнение, вы можете попробовать сделать вариант, который будет «проходить» в этом инструменте без ошибок.
      Лично я бы советовал проверять Robots на ошибки через официальные инструменты — Яндекс.Вебмастер и Search Console.

      PS Ваш инструмент показывает не ошибки, а предупреждения. И там их всего два вида: ошибка шаблонов (когда указываются не адреса, а шаблоны адресов) — инструмент не считает это «оптимальной практикой»; директива Allow, которая стоит после директивы Disallow. Можете поставить сначала Allow, а уже потом Disallow — возможно инструмент не будет выдавать ошибку. Из-за кривого перевода я не особо понял, что инструмент конкретно требует + он рассматривает только Google и Bing, что уже наводит на определенные мысли)

      Ответить
  11. Марина

    Здравствуйте! Вопрос по последней строчке – Sitemap: site.com/sitemap_index.xml #
    Почему карта сайта файлом «sitemap_index.xml»? У меня называется файл просто «sitemap.xml». Мне как нужно файл прописывать с «_index» или как есть (sitemap.xml).
    Извините, может, вопрос глупый. Я только учусь. Буду благодарна за ответ.

    Ответить
    1. Александр Смирнов автор

      Если ваша карта называется Sitemap.xml, то вы должны вставить в Роботс: вашдомен.ру/sitemap.xml — как есть. Я поставил такой вариант, т. к. подавляющее большинство использует плагин Yoast SEO и XML-карту сайта от него.
      А вопрос совсем не глупый, все мы были новичками =).

      Ответить
      1. Марина

        Спасибо за ответ! Как ни странно, но я тоже использую плагин Yoast SEO)). А карту сайта я создала вручную и назвав Sitemap.xml, положила в корень. И в яндекс-вебмастер и гугл серч консоле прописала дорогу к ней.
        После вашего ответа проверила, действительно 2 карты теперь есть и Sitemap.xml и sitemap_index.xml. Только sitemap_index.xml какая-то странная, из 8 пунктов. Теперь не знаю, что делать. Может, имеет смысл удалить сделанную мной Sitemap.xml? Не возникает ли путанница у поисковиков из-за того, что у меня 2 карты активны?
        Надеюсь, понятно все изложила. Спасибо большое за ваш ответы! Для меня это очень ценно.

        Ответить
        1. Александр Смирнов автор

          Лучше использовать одну карту сайта. Можете либо удалить sitemap.xml, оставив карту от Yoast, либо отключить карту от Yoast и оставить созданную вами.
          Yoast SEO создает несколько карт сайта. Sitemap_index — это такой список всех карт сайта (отдельно карта для постов, отдельно для страниц, отдельно для тегов и т. д.). Поисковые системы отлично понимают этот принцип работы. Они заходят в sitemap_index, видят там ссылки на другие карты сайта и индексируют их.
          Кстати, советую вам глянуть эту статью про Sitemap.xml. В ней я описываю наиболее популярные способы создания карты сайта.

          Ответить
          1. Марина

            Так и сделаю — удалю одну карту. Спасибо за такой исчерпывающий ответ, поняла почему Sitemap_index странно выглядит на первый взгляд. Статью обязательно прочитаю.

  12. Rusfetbiz

    Вы предлагаете закрывать довольно много. Но я тут недавно читал, что самый лучший вариант роботса это тот, который не закрывает доступ практически вообще. Что скажите по этому поводу? Если закрыть только админку — достаточно ли этого будет?

    Ответить
    1. Александр Смирнов автор

      Слышал про ваш вариант. Можете попробовать, но я считаю, что более тщательная проработка файла лучше скажется на SEO.

      Ваш вариант, кстати, возможно применим для Гугла. Яндекс же в любом случае будет накладывать санкции за плохо проработанный файл — слишком много мусорных страниц попадет в поиск и это, в общем, плохо скажется на продвижении.

      Ответить
  13. Адик

    Стояло изначально от ClearfyPro, но очень плохо индексировались картинки, точнее только процентов 20 показывает в поиске, у меня кулинарный сайт, и картинки очень важное звено, поэтому попробую Ваш вариант.
    но Гугл выдает 2 ошибки
    Clean-Param: utm_source&utm_medium&utm_campaign
    Clean-Param: openstat
    хоть и прописано что это для яндекса, но матерится -_- это терпимо? что это за параметры? может их просто удалить, что бы гугл не злился.
    и смущает этот набор букв utm_source&utm_medium&utm_campaign, он правильно прописан?

    Ответить
    1. Александр Смирнов автор

      Да, гугл ругается, потому что не использует такой синтаксис. Можно забить. Прописан он правильно, можете проверить на ошибки в Яндекс.Вебмастере)

      По поводу удаления — если вам так режет глаза, то можно удалить. Эта строка просто чисти UTM-метки (так рекомендует делать сам Яндекс). Для гугла эти UTM-метки просто закрываются.

      Ответить
      1. Адик

        ок, спасибо 🙂 надеюсь на лучшее.

        Ответить
  14. Азамат

    Спасибо за статью. Хотел спросить у вас, у меня вроде как уникальная ситуация))) В общем WordPress генерирует дубликаты страниц через комментарии, такие ссылки выглядят так site.ru/post123#comment-номер комментария. Пытался закрыть в роботсе через директиву Disallow: /*comment-* Но не получается, все равно робот индексирует такие ссылки, а нормальные (т.е. site.ru/post123) считает дублем и удаляет из выдачи. Неужели в директиве нужно указывать спецсимвол # (Disallow: /*#comment-*) ??? не будет ли конфликта, ведь он в роботсе отвечает за комментарий для ПС?

    Ответить
    1. Александр Смирнов автор

      Символ # отвечает за комментарии для пользователей и обычно эти комментарии удаляются из Роботса, чтобы лишний раз не нагружать файл. Обычно комментарий выглядит так: «# Какой-то комментарий». То есть с пробелом.

      Попробуйте добавить вашу запись (Disallow: /*#comment-*) и проверить Роботс через Яндекс.Вебмастер. Добавьте запись в Роботс, зайдите в ЯВМ, раздел «Инструменты» — «Анализ robots.txt» и проверьте доступность этих ссылок-дубликатов.

      Ответить
  15. Навигатор

    Было бы замечательно, если бы в статье было разъяснение для чего нужно закрывать некоторые папки. В частности меня интересуют папки /cgi-bin и /wp-

    Ответить
    1. Александр Смирнов автор

      Их закрывают, чтобы технические страницы не попадали в поиск. Скрипты, файлы со стилями и т . д.

      Ответить
  16. Альберт

    # Что скажите про мой роботс.тхт от плагина All in One SEO Pack:

    User-agent: Yandex
    Allow: /yandex/news/ # установлен плагин Yandex.News Feed by Teplitsa

    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php # вордпресс рекомендует индексировать

    User-agent: Yandex
    Disallow: /*wp-admin* # админ
    Disallow: /*wp-includes* # папки и подпапки includes
    Disallow: /*plugins* # папки и подпапки плагина
    Disallow: /*cache* # папки и подпапки кеша
    Disallow: /*author* # нашел в яндекс метрики на страницы входа
    Disallow: /*?fbclid=* # страницы поиска от темы кассандра
    Disallow: /*?_gl=* # нашел в яндекс метрики на страницы входа
    Disallow: /*?amp* # установлен плагин AMP нашел в яндекс метрики на страницы входа
    Disallow: /*?s=* # страница поиска от вордпресс
    Allow: /*.css* # css файлы
    Allow: /*.js* # ява скрипты
    Allow: /*uploads* # папку и подпапки фотографий

    User-agent: YandexDirect
    Allow: / # разрешил рекламу от яндекс директ

    Ответить
    1. Александр Смирнов автор

      Зачем два раза User-Agent: Yandex? — код с открытием фида нужно поместить после «Allow: /*uploads* # папку и подпапки фотографий»

      Ответить
      1. Альберт

        Плагин All in One SEO Pack сразу же после активации его блока роботс.тхт прописал вот так (см. ниже) и изменить эту запись уже невозможно.

        User-agent: Yandex
        Allow: /yandex/news/

        User-agent: *
        Disallow: /wp-admin/
        Allow: /wp-admin/admin-ajax.php

        Когда прописываю Disallow и Allow: в User-agent: * это как мы знаем для всех ботов при проверке в Яндекс вебмастере где есть инструмент Анализ robots.txt, выходит ошибка. Если прописать Disallow и Allow: в User-agent: Yandex, как в примере (см. выше) то ошибку не выдает. И также плагин All in One SEO Pack не позволяет прописать рекомендации Disallow и Allow: отдельно дважды для каждого поисковика User-agent: * и User-agent: Yandex. То есть дважды не разрешает плагин повторять рекомендации Disallow и Allow. По-моему, поисковик Гугла не индексирует «мусорные» повторяющиеся с одинаковым контентом, но с разными url страницы и не учитывает запреты Disallow: в роботс.тхт. Выходит роботу Гугла все равно ставите вы запреты или нет, а робот Яндекса учитывает роботс.тхт. В Яндекс метрики где «страницы входа» у меня на сайтах есть мусорные страницы и их нужно закрывать, что я и проделал (см. выше) пример моего роботс. тхт. У меня возникает вопрос, стоит ли прописать рекомендации только в User-agent: * и, игнорировать ошибку в Яндекс инструменте Анализ robots.txt либо оставить мой роботс.тхт, как есть (см. выше) в комментарии?

        Ответить
  17. Сергей

    Спасибо. Но у меня гугл ругается на то, что в Роботс закрыт фид: Disallow: /feed
    Search Console has identified that your site is affected by 1 Coverage issues:
    Top Warnings
    Вот скрин (ссылка удалена)
    Так что, получается открывать фид в роботс?

    Ответить
    1. Александр Смирнов автор

      Да, для Гугла можете открыть (просто убрать строчку эту).

      Ответить
  18. Андрей

    Здравствуйте! Спасибо за статью. А «license.txt» тоже может закрыть надо?

    Ответить
  19. Анисимова

    Караул. А кто мне сделает няшную карту сайта? Есть для этого правильный плагин забисплатно?

    Ответить
    1. Сайтотворец

      All in Seo Pack в помощь!
      Аднафамилица

      Ответить
  20. Евгений

    Доброго времени суток. Подскажите пожалуйста, я воспользовался расширенным ribots.txt для wp и при сканировании страницы в Google search выскакивает следующие:
    Роботу Googlebot заблокирован доступ в файле robots.txt
    Скрипт
    https://mc.yandex.ru/metrika/tag.js

    Так и должно быть или в чем-то проблема?

    P.S сильно не пугайте за глупые вопросы

    Ответить
  21. Виталий

    почему для яндекс утм не закрыли?

    Ответить
  22. Олег

    Здравствуйте!

    Воспользовался вашим Robots.txt
    Добавил сайт в гугл и яндекс. Через несколько дней с Google Search Console пришло письмо предупреждение
    «Проиндексировано, несмотря на блокировку в файле robots.txt»
    Как выяснилось проиндексированы три страницы:
    tag/vremya
    tag/zhizn
    tag/rost
    Но почему гугл их проиндексировал, если они закрыты в robots.txt?
    Подскажите пожалуйста как мне исправить эту проблему?

    Ответить
    1. Александр Смирнов автор

      Добрый день!

      Есть несколько вариантов:

      1) Вы можете открыть /tag/ для Гугла (то есть удалить строчку), и тогда Гугл будет индексировать теги и эта ошибка исчезнет. Насколько я знаю, то наличие таких страниц в Гугле не дают негативных последствий (поэтому Гугл и индексирует их, даже несмотря на блокировку в файле).
      2) Вы можете закрыть эти страницы с помощью тега noindex nofollow через настройки Yoast SEO (если он у вас установлен).
      3) Можно удалить эти страницы с помощью функционала Search Console (в боковом меню — Удаления). Так делать НЕ рекомендую, потому что смысла не очень много (возможно страницы опять будут залетать).

      Ответить
      1. Олег

        Так и сделал, открыл /tag/ и с помощью плагина SEO Rank Math закрыл эти страницы от индексации
        Ещё раз спасибо за информацию!

        Ответить
  23. Дмитрий

    Добрый день! Ставлю последний робот себе на сайт, посмотрю как пойдут дела у Яндекса. Все вылетело из-за смены названия сайта. Никто не объяснит, когда вернется все на позиции

    Ответить
  24. Олег

    Alexander Здравствуйте!
    Ещё один вопрос:
    скажите, что это за параметр в robots
    Clean-Param: utm_source&utm_medium&utm_campaign
    Clean-Param: openstat
    ??
    При проверке в Гугл вебмастера у меня выдало ошибку на этих двух директивах.
    Они обязательно нужны в роботсе?

    Ответить
    1. Олег

      Вопрос про Clean-Param больше не актуален, прочитал комментарий выше.

      Ответить
  25. ilyaz

    Если мы используем ваш ротоб то нужен ли плагин Google XML Sitemap Generator ?

    Ответить
  26. Иван

    Чел, спасибо огромное. Но я пока что совсем нулёвый, потому вот такой вопрос: А не должен ли я заменить https на http в определённых пунктах, если ещё не перешёл на защищённое соединение?

    Ответить
    1. Александр Смирнов автор

      Все правильно, должен. Потом ток не забудь заменить обратно на https.

      Ответить
  27. Mercury-9

    /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif

    svg-те сразу нет, шрифты наверняка там же.
    А потом горе-seoшники жалуются, что фавиконки не читаются

    Ответить
    1. Александр Смирнов автор

      Не использую этот формат, но согласен, можно добавить правила для svg, webp, pdf.

      Ответить
      1. Владимир

        А что если у меня большинство изображений не имеют в названии префикса «wp-*» ??? Как тогда правильно открывать графику для индексации ?

        Ответить
        1. Александр Смирнов автор

          Это не так работает. Тут прописаны правила, чтобы в папках, которые начинаются с wp- (а так начинаются все папки с контентом по-умолчанию в WordPress) индексировались файлы с указанными форматами.

          То есть без разницы какие названия имеют сами изображения, они все равно будут индексироваться.

          Ответить
  28. Сергей

    Здравствуйте. Сейчас на моём сайте висит уведомление от All in One SEO:
    «Обнаружен физический файл Robots.txt
    8 дней назад
    AIOSEO обнаружила физический файл robots.txt в корневой папке вашей установки WordPress. Мы рекомендуем удалить этот файл, так как он может вызвать конфликт с динамически созданным файлом WordPress. AIOSEO может импортировать этот файл и удалить его, или вы можете просто удалить его.»
    Подскажите что мне с этим делать?

    Ответить
    1. Александр Смирнов автор

      Добрый день. Нужно просто удалить файл robots.txt через файловый менеджер — в ПУ хостинга, либо просто удалите файл через плагин All In One SEO, если есть такая возможность.

      Ответить
      1. Ирина

        Спасибо за статью.
        Можно еще вопрос?
        Как закрыть для индексации страницы типа:
        /page.php?ID=377

        Ответить
        1. Александр Смирнов автор

          Здравствуйте.

          Disallow: /page.php?ID=* — как вариант.

          Ответить
  29. Дмитрий

    Спасибо вам за статью, пересмотрел достаточно статей у вас самая актуальная. 5+++

    Ответить
  30. михаил

    Интересная статья

    Ответить
  31. Платон

    Добрый вечер
    Не увидел в предложенном варианте директивы Disallow: */page
    Очень часто рекомендуют закрывать для избежания дублей. Как можете прокомментировать причину отсутствия в вашем варианте?

    Ответить
    1. Александр Смирнов автор

      Обычно я закрываю пагинацию через Canonical или noindex с помощью Clearfy Pro. Но можно и так, через роботс.

      Ответить
  32. Александр

    Здравствуйте!
    Вот я новичок и немного путаюсь во всех сложностях создания.
    Как-то проходил курс по созданию сайтов и автором был предложен следующий robots.txt.

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Disallow: *utm*=
    Disallow: *openstat=
    Allow: */uploads

    # Укажите файл Sitemap
    Sitemap: https://домен.ру/sitemap_index.xml
    Host: aleksryasnoy.ru

    Несколько отличается от предложенного Вами варианта. Но при проверке в Вебмастере – ошибок 0. Может имеется в виду ошибки орфографические или грамматические?
    А вот что это такое: # Укажите файл Sitemap

    Ещё в плагине Clearfy , но не PRO
    При активации создайте правильный robots.txt — кнопка ВКЛ, и в поле появляется:
    User-Agent: *
    Host: https://домен.ру

    А при нажатии на знак вопроса пишет, что плагин автоматически создает идеальный robots.txt. Это и есть автоматически созданный?

    Буду благодарен за ваш ответ.
    с уважением Александр.

    Ответить
    1. Александр Смирнов автор

      Добрый день!
      Ваш вариант неплох, его можно использовать.
      # Укажите файл Sitemap — закомментированный комментарий, который не нужен роботам, обычно используется для того, чтобы указать за что отвечает конкретная строчка. Его можно удалить.
      Директива Host: (домен) сейчас уже не актуален, его тоже можно удалить.
      Плагин Clearfy создает плохой вариант robots.txt, в котором нет ничего. Может это ошибка какая-то, лучше выключить и вручную вставить строчки в robots через Yoast SEO или что-то еще.

      Ответить
  33. Пётр

    Здравствуйте подскажите пожалуйста к примеру я в файл роботс хочу поставить данные яндекса, и гугл прописывать Sitemap нужно отдельно для яндекса и гугл, или можно вконце прописать ?

    Ответить
  34. Vlad

    Зачем разрешать Allow: /*/*.js и Allow: /*/*.css ?
    Там же нет контента который будет чувствовать в поиске.

    Ответить
  35. Петька

    Я много читал и в итоге составил по другому. Но не пойму немного, если настройки для всех роботов одни, то можно User-agent: * заполнить и все? Или обязательно надо Яндекс и Гугл дублировать команды?

    Ответить
    1. Александр Смирнов автор

      Да, можно оставить только User-agent: *

      Ответить
  36. Андрей

    Впервые нашёл адекватный и полный robots.txt, но к меня вопрос относительно карты сайта и как быть с ней…
    Дело в том, что Yoast SEO генерирует (как я понимаю вирутальную карту) sitemap_index.xml, а стандартная sitemap.xml, которая обычно помещается в корневую папку сайта.
    Но как быть в этом случае? Нужно ли sitemap.xml помещать в корневу папку и, если нужно, то в robots.txt прописывать две карты сайта или только sitemap_index.xml ?

    Ответить
    1. Александр Смирнов автор

      Думаю, можно оставить только карту сайта от yoast seo, и ее прописать в роботсе. Я так и делаю на всех своих проектах.

      Ответить
      1. Андрей

        А в корневой папке сайта нужно ли создавать классический sitemap.xml ? Но, как я понимаю, хуже от этого не будет… Или какой-то возможен конфликт?

        Ответить
  37. Владимир

    А для чего надо закрывать все папки Disallow: /….. по отдельности??
    Одна строка — Disallow: / — не работает?
    Если мы делаем:
    User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
    Disallow: /cgi-bin
    Disallow: /? и так далее…,
    то почему не сделать (работает ли этот способ??) просто — Юзер-агент:* закрыть:/ и всё. почему так не работает?

    Ответить
    1. Александр Смирнов автор

      Disallow: / — закроет вообще весь сайт от индексации, его не будет в поиске.

      Ответить
  38. Сергей

    Смешно — у этого сайта робот короткий, почему вопрос ?
    В статье пишите что вы используете длинный и всем рекомендуете, а сами используете короткий.

    Ответить
    1. Александр Смирнов автор

      Старая статья, раньше использовал расширенный, сейчас поставил короткий. Поправлю.

      Ответить
  39. Сергей

    disallow: /tag/ — а это относится к рубрикам?

    Ответить
    1. Александр Смирнов автор

      Нет, это «Теги» — отдельная таксономия вордпресса. Если они не используются, то можно не добавлять эту строчку в роботс.

      Ответить