Правильный Robots.txt для WordPress 2024 — подробная настройка

Автор Александр Смирнов На чтение 6 мин Просмотров 33.7к. Комментарии 82 Обновлено 15.02.2024

Правильный Robots.txt для WordPress. Несколько версий под разные нужды: простая базовая и расширенная - с проработкой под каждую поисковую систему.

Одной из важнейших вещей при создании и оптимизации сайта для поисковых систем считают Robots.txt. Небольшой файлик, где прописаны правила индексирования для поисковых роботов.

Если файл будет настроен неправильно, то сайт может неправильно индексироваться и терять большие доли трафика. Грамотная настройка наоборот позволяет улучшить SEO, и вывести ресурс в топы.

Сегодня мы поговорим о настройке Robots.txt для WordPress. Я покажу вам правильный вариант, который сам использую для своих проектов.

✅ Содержание

Что такое Robots.txt

Как я уже и сказал, robots.txt — текстовой файлик, где прописаны правила для поисковых систем. Стандартный robots.txt для WordPress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Именно в таком виде он создается плагином Yoast SEO. Некоторые считают, что этого хватит для правильной индексации. Я же считаю, что нужна более детальная проработка. А если речь идет о нестандартных проектах, то проработка нужна и подавно. Давайте разберемся в основных директивах:

Директива	Значение	Пояснение
User-agent:	Yandex, Googlebot и т.д.	В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал.
Disallow:	Относительная ссылка	Директива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами.
Allow:	Относительная ссылка	Разрешающая директива. Ссылки, которые указаны с ней будут проиндексированы.
Sitemap:	Абсолютная ссылка	Здесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console).
Crawl-delay:	Время в секундах (пример: 2.0 — 2 секунды)	Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг.
Clean-param:	Динамический параметр	Если на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть.

В принципе, ничего сложного. Дам дополнительные пояснения по директивам Clean-param (откройте вкладку).

Подробнее о Clean-param

Параметры, как правило, используются на динамических сайтах. Они могут передавать поисковым системам лишнюю информацию — создавать дубли. Чтобы избежать этого, мы должны указать в Robots.txt директиву Clean-param с указанием параметра и ссылки, к которой это параметр применяется.

В нашем примере site.ru/statia?uid=32 — site.ru/statia — ссылка, а все, что после знака вопроса — параметр. Здесь это uid=32. Он динамический, и это значит, что параметр uid может принимать другие значения.

Например, uid=33, uid=34…uid=123434. В теории их может быть сколько угодно, поэтому мы должны закрыть от индексации все параметры uid. Для этого директива должна принять такой вид:

Clean-param: uid /statia # все параметры uid для statia будут закрыты

Более подробно о том, что такое Robots.txt можно узнать из Яндекс.Помощи. Или из этого видеоролика:

Базовый Robots.txt для WordPress

Совсем недавно я приобрел плагин Clearfy Pro для своих проектов. Там очень много разных функций, и одна из них — создание идеального Robots.txt. На самом деле насколько он идеален — я не знаю, вебмастера расходятся во мнениях.

Кто-то предпочитает делать более краткие версии роботса, указывая правила для всех поисковых систем сразу. Другие прописывают отдельные правила для каждого поисковика (в основном для Яндекса и Гугла).

Что из этого правильно — точно сказать не могу. Однако я предлагаю вам ознакомиться с базовой версией Robots.txt для WordPress от Clearfy Pro. Сейчас я использую именно ее как для этого, так и для большинства других своих проектов.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /wp-includes/*.css
Allow: /wp-includes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Allow: /*.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml

Расширенный Robots.txt для WordPress

Теперь посмотрим на расширенную версию Robots.txt для WordPress. Наверняка вы знаете, что все сайты на WP имеют одинаковую структуру. Одинаковые названия папок, файлов и т. д. позволяют специалистам выявить наиболее приемлемый вариант роботса.

От предыдущего отличается более детальной проработкой под роботы Яндекса и Гугла. Кто-то считает, что таким образом эти ПС будут реагировать на правила лучше. Также здесь закрыты дополнительные технические страницы, фиды.

User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads   

User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.

Ранее в Robots.txt использовалась директива Host. Она указывала главное зеркало сайта. Теперь это делается при помощи редиректа. Подробнее об этом можно почитать в блоге Яндекса.

Комментарии (текст после #) можно удалить. Указываю Sitemap с https протоколом, т.к. большинство сайтов сейчас используют защищенное соединение. Если у вас нет SSL, то измените протокол на http.

Читайте также: Как правильно настроить WordPress

Обратите внимание на то, что я закрываю метки (теги). Делаю это потому, что они создают большое количество дублей. Это плохо сказывается на SEO, но если вы хотите открыть метки, тогда уберите строчку disallow: /tag/ из файла.

Заключение

В общем-то, вот так выглядит правильный Robots.txt для WordPress. Смело копируйте данные в файл и пользуйтесь. Отмечу, что этот вариант подходит только для стандартных информационных сайтов.

В других ситуациях может потребоваться индивидуальная проработка. На этом все. Спасибо за внимание. Буду благодарен, если вы подпишитесь на мой телеграм-канал и мою группу ВК.

( 32 оценки, среднее 5 из 5 )

Александр Смирнов

Интернет-предприниматель и создатель этого блога. Работаю удаленно и развиваю бизнес в интернете с 2017-го года.

Сейчас занимаюсь: инвестированием, развитием интернет-проектов, торговлей на маркетплейсах.

Мои соцсети:

Оцените автора

( 32 оценки, среднее 5 из 5 )

Добавить комментарий

Алексей 05.01.2019 в 22:21

Спасибо, попробуем-с.

Ответить
Андрей 06.02.2019 в 21:21

А можно не удалять disallow: /tag/, а вместо этого поставить # в начале строчки ?
вот так #Disallow: /tag/
Если оставить как есть с отключенными метками, то поисковики не будут находить статьи по тэгам ?

Ответить
1. Александр Смирнов автор 07.02.2019 в 12:03
  
  А зачем ставить # в начале строчки, если она просто не нужна?)
  Только вес файла будет увеличивать, хоть и очень-очень незначительно.
  Если оставить все, как в моем варианте — теги не будут индексироваться ПС.
  У себя на сайте я использую их чисто для внутренней навигации. Считаю, что в поисковой выдаче они будут лишними — создают дубли.
  Но если у вас другое мнение, то можете просто убрать эти строчки из файла.
  
  Ответить
Лот №2 21.02.2019 в 20:09

А зачем хост удалять?
Куча гайдов и кто во что горазд, думаю оставить минималку и вообще там не ковыряться.. я не опытный ещё)

Ответить
1. Александр Смирнов автор 21.02.2019 в 22:06
  
  Раньше Хост держали только для Яндекса. Потом они выкатили апдейт своих алгоритмов, и сообщили, что теперь главное зеркало будет учитываться через редирект. Короче говоря, теперь это строка вообще не воспринимается поисковыми системами — то есть лишняя.
  Вы можете оставить ее, но она бесполезная.
  
  Ответить
  1. Валерий 27.03.2020 в 12:39
    
    Здравствуйте! А что нужно сделать, чтобы всё правильно работало, где и как этот редирект настроить?
    
    Ответить
Лот №2 21.02.2019 в 20:36

К стати, если у тебя скопировать и вставить, то вон какая каша получается, не правильно ты как-то список залил..
Посмотри: (ссылка удалена)

Ответить
1. Александр Смирнов автор 21.02.2019 в 22:07
  
  Спасибо за замечание! Плагин для антиплагиата, который добавлял ссылку в конец скопированного текста мешал все в кашу. Сейчас отключил, можно копировать — все будет в нормальном виде.
  
  Ответить
Татьяна 01.03.2019 в 08:10

Здравствуйте ! Скажите пожалуйста как закрыть вот такие ссылки в роботс: сайт.ру/baton-v-hlebopechke/1-165/

Ответить
1. Василий 14.03.2019 в 02:04
  
  Здравствуйте. Закрываются ссылки так же, как и все остальные.
  
  Disallow: /baton-v-hlebopechke/1-165/
  
  Ответить
Александр 04.04.2019 в 19:58

Здравствуйте, копировать и вставить весь код для робота?

Ответить
1. Александр Смирнов автор 06.04.2019 в 13:49
  
  Да, все верно.
  
  Ответить
  1. Алёна 08.04.2019 в 13:45
    
    Здравствуйте, а Host прописывать не надо?
    
    Ответить
    1. Александр Смирнов автор 11.04.2019 в 09:41
      
      Не надо, сейчас от него отказались все популярные поисковики.
      
      Ответить
Rusfetbiz 27.05.2019 в 13:08

Спасибо за статью. Мучаюсь с метками — попадают в поиск. Оказалось неправильно закрыл в роботсе.

Ответить
1. Александр Смирнов автор 27.05.2019 в 13:29
  
  Рад, что статья вам помогла. Метки можно закрыть не только при помощи Роботса, но и через Yoast SEO)
  
  Ответить
Виктор 27.05.2019 в 16:24

что думаете по поводу
Disallow: */print/
Disallow: *?print=*

Ответить
1. Александр Смирнов автор 30.09.2019 в 10:42
  
  Первый закроет все ссылки, которые заканчиваются на /print/
  Второй закроет все ссылки, в которых есть параметр *?print=* с любым содержанием.
  
  Ответить
Красноармеец Сухов 09.06.2019 в 09:37

Добрый день! А чем вам не нравится Robots.txt от Clearfy Pro? Там ведь в плагине все лишнее можно закрыть, вот оно и не прописывается лишний раз в Robots.txt, да и уверяют они, что это лучший выбор. Вы как считаете?

Ответить
1. Александр Смирнов автор 09.06.2019 в 12:08
  
  У них слишком короткий вариант «сразу для всех ПС». Конкретно мне такое не подходит, потому что для Яндекса нужно открывать турбо-страницы. Для Гугла их открывать не нужно 🙂
  И еще: я считаю, что проработка файла под каждую поисковую систему лучше скажется на SEO.
  Но вы можете поставить вариант Clearfy, с этим нет никаких проблем) Не думаю, что будет слишком большая разница.
  
  Ответить
Андрей 14.07.2019 в 11:00

Здравствуйте скопировал роботс в вордпресс вставил и после проверки пишет кучу ошибок а почему так ?
Вот смотрите проверял на этом сайте robots.txt — websiteplanet
А вот скрин ошибок его — (ссылка удалена)

Ответить
1. Александр Смирнов автор 14.07.2019 в 13:33
  
  Добрый день! Проверил ваш инструмент, какой-то он мутный. Не думаю, что его рекомендациям стоит следовать. Но это мое мнение, вы можете попробовать сделать вариант, который будет «проходить» в этом инструменте без ошибок.
  Лично я бы советовал проверять Robots на ошибки через официальные инструменты — Яндекс.Вебмастер и Search Console.
  
  PS Ваш инструмент показывает не ошибки, а предупреждения. И там их всего два вида: ошибка шаблонов (когда указываются не адреса, а шаблоны адресов) — инструмент не считает это «оптимальной практикой»; директива Allow, которая стоит после директивы Disallow. Можете поставить сначала Allow, а уже потом Disallow — возможно инструмент не будет выдавать ошибку. Из-за кривого перевода я не особо понял, что инструмент конкретно требует + он рассматривает только Google и Bing, что уже наводит на определенные мысли)
  
  Ответить
Марина 17.07.2019 в 08:23

Здравствуйте! Вопрос по последней строчке – Sitemap: site.com/sitemap_index.xml #
Почему карта сайта файлом «sitemap_index.xml»? У меня называется файл просто «sitemap.xml». Мне как нужно файл прописывать с «_index» или как есть (sitemap.xml).
Извините, может, вопрос глупый. Я только учусь. Буду благодарна за ответ.

Ответить
1. Александр Смирнов автор 17.07.2019 в 10:21
  
  Если ваша карта называется Sitemap.xml, то вы должны вставить в Роботс: вашдомен.ру/sitemap.xml — как есть. Я поставил такой вариант, т. к. подавляющее большинство использует плагин Yoast SEO и XML-карту сайта от него.
  А вопрос совсем не глупый, все мы были новичками =).
  
  Ответить
  1. Марина 17.07.2019 в 14:12
    
    Спасибо за ответ! Как ни странно, но я тоже использую плагин Yoast SEO)). А карту сайта я создала вручную и назвав Sitemap.xml, положила в корень. И в яндекс-вебмастер и гугл серч консоле прописала дорогу к ней.
    После вашего ответа проверила, действительно 2 карты теперь есть и Sitemap.xml и sitemap_index.xml. Только sitemap_index.xml какая-то странная, из 8 пунктов. Теперь не знаю, что делать. Может, имеет смысл удалить сделанную мной Sitemap.xml? Не возникает ли путанница у поисковиков из-за того, что у меня 2 карты активны?
    Надеюсь, понятно все изложила. Спасибо большое за ваш ответы! Для меня это очень ценно.
    
    Ответить
    1. Александр Смирнов автор 17.07.2019 в 18:38
      
      Лучше использовать одну карту сайта. Можете либо удалить sitemap.xml, оставив карту от Yoast, либо отключить карту от Yoast и оставить созданную вами.
      Yoast SEO создает несколько карт сайта. Sitemap_index — это такой список всех карт сайта (отдельно карта для постов, отдельно для страниц, отдельно для тегов и т. д.). Поисковые системы отлично понимают этот принцип работы. Они заходят в sitemap_index, видят там ссылки на другие карты сайта и индексируют их.
      Кстати, советую вам глянуть эту статью про Sitemap.xml. В ней я описываю наиболее популярные способы создания карты сайта.
      
      Ответить
      1. Марина 17.07.2019 в 20:04
        
        Так и сделаю — удалю одну карту. Спасибо за такой исчерпывающий ответ, поняла почему Sitemap_index странно выглядит на первый взгляд. Статью обязательно прочитаю.
Rusfetbiz 26.07.2019 в 21:32

Вы предлагаете закрывать довольно много. Но я тут недавно читал, что самый лучший вариант роботса это тот, который не закрывает доступ практически вообще. Что скажите по этому поводу? Если закрыть только админку — достаточно ли этого будет?

Ответить
1. Александр Смирнов автор 26.07.2019 в 21:40
  
  Слышал про ваш вариант. Можете попробовать, но я считаю, что более тщательная проработка файла лучше скажется на SEO.
  
  Ваш вариант, кстати, возможно применим для Гугла. Яндекс же в любом случае будет накладывать санкции за плохо проработанный файл — слишком много мусорных страниц попадет в поиск и это, в общем, плохо скажется на продвижении.
  
  Ответить
Адик 17.08.2019 в 09:43

Стояло изначально от ClearfyPro, но очень плохо индексировались картинки, точнее только процентов 20 показывает в поиске, у меня кулинарный сайт, и картинки очень важное звено, поэтому попробую Ваш вариант.
но Гугл выдает 2 ошибки
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
хоть и прописано что это для яндекса, но матерится -_- это терпимо? что это за параметры? может их просто удалить, что бы гугл не злился.
и смущает этот набор букв utm_source&utm_medium&utm_campaign, он правильно прописан?

Ответить
1. Александр Смирнов автор 17.08.2019 в 20:37
  
  Да, гугл ругается, потому что не использует такой синтаксис. Можно забить. Прописан он правильно, можете проверить на ошибки в Яндекс.Вебмастере)
  
  По поводу удаления — если вам так режет глаза, то можно удалить. Эта строка просто чисти UTM-метки (так рекомендует делать сам Яндекс). Для гугла эти UTM-метки просто закрываются.
  
  Ответить
  1. Адик 18.08.2019 в 19:28
    
    ок, спасибо 🙂 надеюсь на лучшее.
    
    Ответить
Азамат 26.08.2019 в 22:36

Спасибо за статью. Хотел спросить у вас, у меня вроде как уникальная ситуация))) В общем WordPress генерирует дубликаты страниц через комментарии, такие ссылки выглядят так site.ru/post123#comment-номер комментария. Пытался закрыть в роботсе через директиву Disallow: /*comment-* Но не получается, все равно робот индексирует такие ссылки, а нормальные (т.е. site.ru/post123) считает дублем и удаляет из выдачи. Неужели в директиве нужно указывать спецсимвол # (Disallow: /*#comment-*) ??? не будет ли конфликта, ведь он в роботсе отвечает за комментарий для ПС?

Ответить
1. Александр Смирнов автор 29.08.2019 в 13:19
  
  Символ # отвечает за комментарии для пользователей и обычно эти комментарии удаляются из Роботса, чтобы лишний раз не нагружать файл. Обычно комментарий выглядит так: «# Какой-то комментарий». То есть с пробелом.
  
  Попробуйте добавить вашу запись (Disallow: /*#comment-*) и проверить Роботс через Яндекс.Вебмастер. Добавьте запись в Роботс, зайдите в ЯВМ, раздел «Инструменты» — «Анализ robots.txt» и проверьте доступность этих ссылок-дубликатов.
  
  Ответить
Навигатор 30.09.2019 в 10:18

Было бы замечательно, если бы в статье было разъяснение для чего нужно закрывать некоторые папки. В частности меня интересуют папки /cgi-bin и /wp-

Ответить
1. Александр Смирнов автор 30.09.2019 в 10:38
  
  Их закрывают, чтобы технические страницы не попадали в поиск. Скрипты, файлы со стилями и т . д.
  
  Ответить
Альберт 30.09.2019 в 11:51

# Что скажите про мой роботс.тхт от плагина All in One SEO Pack:

User-agent: Yandex
Allow: /yandex/news/ # установлен плагин Yandex.News Feed by Teplitsa

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php # вордпресс рекомендует индексировать

User-agent: Yandex
Disallow: /*wp-admin* # админ
Disallow: /*wp-includes* # папки и подпапки includes
Disallow: /*plugins* # папки и подпапки плагина
Disallow: /*cache* # папки и подпапки кеша
Disallow: /*author* # нашел в яндекс метрики на страницы входа
Disallow: /*?fbclid=* # страницы поиска от темы кассандра
Disallow: /*?_gl=* # нашел в яндекс метрики на страницы входа
Disallow: /*?amp* # установлен плагин AMP нашел в яндекс метрики на страницы входа
Disallow: /*?s=* # страница поиска от вордпресс
Allow: /*.css* # css файлы
Allow: /*.js* # ява скрипты
Allow: /*uploads* # папку и подпапки фотографий

User-agent: YandexDirect
Allow: / # разрешил рекламу от яндекс директ

Ответить
1. Александр Смирнов автор 30.09.2019 в 16:12
  
  Зачем два раза User-Agent: Yandex? — код с открытием фида нужно поместить после «Allow: /*uploads* # папку и подпапки фотографий»
  
  Ответить
  1. Альберт 01.10.2019 в 13:15
    
    Плагин All in One SEO Pack сразу же после активации его блока роботс.тхт прописал вот так (см. ниже) и изменить эту запись уже невозможно.
    
    User-agent: Yandex
    Allow: /yandex/news/
    
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    
    Когда прописываю Disallow и Allow: в User-agent: * это как мы знаем для всех ботов при проверке в Яндекс вебмастере где есть инструмент Анализ robots.txt, выходит ошибка. Если прописать Disallow и Allow: в User-agent: Yandex, как в примере (см. выше) то ошибку не выдает. И также плагин All in One SEO Pack не позволяет прописать рекомендации Disallow и Allow: отдельно дважды для каждого поисковика User-agent: * и User-agent: Yandex. То есть дважды не разрешает плагин повторять рекомендации Disallow и Allow. По-моему, поисковик Гугла не индексирует «мусорные» повторяющиеся с одинаковым контентом, но с разными url страницы и не учитывает запреты Disallow: в роботс.тхт. Выходит роботу Гугла все равно ставите вы запреты или нет, а робот Яндекса учитывает роботс.тхт. В Яндекс метрики где «страницы входа» у меня на сайтах есть мусорные страницы и их нужно закрывать, что я и проделал (см. выше) пример моего роботс. тхт. У меня возникает вопрос, стоит ли прописать рекомендации только в User-agent: * и, игнорировать ошибку в Яндекс инструменте Анализ robots.txt либо оставить мой роботс.тхт, как есть (см. выше) в комментарии?
    
    Ответить
Сергей 18.10.2019 в 09:18

Спасибо. Но у меня гугл ругается на то, что в Роботс закрыт фид: Disallow: /feed
Search Console has identified that your site is affected by 1 Coverage issues:
Top Warnings
Вот скрин (ссылка удалена)
Так что, получается открывать фид в роботс?

Ответить
1. Александр Смирнов автор 18.10.2019 в 11:02
  
  Да, для Гугла можете открыть (просто убрать строчку эту).
  
  Ответить
Андрей 12.01.2020 в 03:55

Здравствуйте! Спасибо за статью. А «license.txt» тоже может закрыть надо?

Ответить
Анисимова 13.01.2020 в 19:51

Караул. А кто мне сделает няшную карту сайта? Есть для этого правильный плагин забисплатно?

Ответить
1. Сайтотворец 24.03.2020 в 08:42
  
  All in Seo Pack в помощь!
  Аднафамилица
  
  Ответить
Евгений 27.01.2020 в 00:21

Доброго времени суток. Подскажите пожалуйста, я воспользовался расширенным ribots.txt для wp и при сканировании страницы в Google search выскакивает следующие:
Роботу Googlebot заблокирован доступ в файле robots.txt
Скрипт
https://mc.yandex.ru/metrika/tag.js

Так и должно быть или в чем-то проблема?

P.S сильно не пугайте за глупые вопросы

Ответить
Виталий 11.02.2020 в 23:24

почему для яндекс утм не закрыли?

Ответить
Олег 17.05.2020 в 13:36

Здравствуйте!

Воспользовался вашим Robots.txt
Добавил сайт в гугл и яндекс. Через несколько дней с Google Search Console пришло письмо предупреждение
«Проиндексировано, несмотря на блокировку в файле robots.txt»
Как выяснилось проиндексированы три страницы:
tag/vremya
tag/zhizn
tag/rost
Но почему гугл их проиндексировал, если они закрыты в robots.txt?
Подскажите пожалуйста как мне исправить эту проблему?

Ответить
1. Александр Смирнов автор 17.05.2020 в 17:31
  
  Добрый день!
  
  Есть несколько вариантов:
  
  1) Вы можете открыть /tag/ для Гугла (то есть удалить строчку), и тогда Гугл будет индексировать теги и эта ошибка исчезнет. Насколько я знаю, то наличие таких страниц в Гугле не дают негативных последствий (поэтому Гугл и индексирует их, даже несмотря на блокировку в файле).
  2) Вы можете закрыть эти страницы с помощью тега noindex nofollow через настройки Yoast SEO (если он у вас установлен).
  3) Можно удалить эти страницы с помощью функционала Search Console (в боковом меню — Удаления). Так делать НЕ рекомендую, потому что смысла не очень много (возможно страницы опять будут залетать).
  
  Ответить
  1. Олег 18.05.2020 в 13:13
    
    Так и сделал, открыл /tag/ и с помощью плагина SEO Rank Math закрыл эти страницы от индексации
    Ещё раз спасибо за информацию!
    
    Ответить
Дмитрий 19.05.2020 в 22:20

Добрый день! Ставлю последний робот себе на сайт, посмотрю как пойдут дела у Яндекса. Все вылетело из-за смены названия сайта. Никто не объяснит, когда вернется все на позиции

Ответить
Олег 19.05.2020 в 22:59

Alexander Здравствуйте!
Ещё один вопрос:
скажите, что это за параметр в robots
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
??
При проверке в Гугл вебмастера у меня выдало ошибку на этих двух директивах.
Они обязательно нужны в роботсе?

Ответить
1. Олег 20.05.2020 в 01:17
  
  Вопрос про Clean-Param больше не актуален, прочитал комментарий выше.
  
  Ответить
ilyaz 25.07.2020 в 08:31

Если мы используем ваш ротоб то нужен ли плагин Google XML Sitemap Generator ?

Ответить
Иван 31.07.2020 в 08:47

Чел, спасибо огромное. Но я пока что совсем нулёвый, потому вот такой вопрос: А не должен ли я заменить https на http в определённых пунктах, если ещё не перешёл на защищённое соединение?

Ответить
1. Александр Смирнов автор 31.07.2020 в 18:36
  
  Все правильно, должен. Потом ток не забудь заменить обратно на https.
  
  Ответить
Mercury-9 25.09.2020 в 14:11

/wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif

svg-те сразу нет, шрифты наверняка там же.
А потом горе-seoшники жалуются, что фавиконки не читаются

Ответить
1. Александр Смирнов автор 25.09.2020 в 14:23
  
  Не использую этот формат, но согласен, можно добавить правила для svg, webp, pdf.
  
  Ответить
  1. Владимир 03.05.2022 в 16:19
    
    А что если у меня большинство изображений не имеют в названии префикса «wp-*» ??? Как тогда правильно открывать графику для индексации ?
    
    Ответить
    1. Александр Смирнов автор 03.05.2022 в 17:51
      
      Это не так работает. Тут прописаны правила, чтобы в папках, которые начинаются с wp- (а так начинаются все папки с контентом по-умолчанию в WordPress) индексировались файлы с указанными форматами.
      
      То есть без разницы какие названия имеют сами изображения, они все равно будут индексироваться.
      
      Ответить
Сергей 03.02.2021 в 12:26

Здравствуйте. Сейчас на моём сайте висит уведомление от All in One SEO:
«Обнаружен физический файл Robots.txt
8 дней назад
AIOSEO обнаружила физический файл robots.txt в корневой папке вашей установки WordPress. Мы рекомендуем удалить этот файл, так как он может вызвать конфликт с динамически созданным файлом WordPress. AIOSEO может импортировать этот файл и удалить его, или вы можете просто удалить его.»
Подскажите что мне с этим делать?

Ответить
1. Александр Смирнов автор 03.02.2021 в 15:16
  
  Добрый день. Нужно просто удалить файл robots.txt через файловый менеджер — в ПУ хостинга, либо просто удалите файл через плагин All In One SEO, если есть такая возможность.
  
  Ответить
  1. Ирина 24.05.2021 в 11:25
    
    Спасибо за статью.
    Можно еще вопрос?
    Как закрыть для индексации страницы типа:
    /page.php?ID=377
    
    Ответить
    1. Александр Смирнов автор 24.05.2021 в 11:35
      
      Здравствуйте.
      
      Disallow: /page.php?ID=* — как вариант.
      
      Ответить
Дмитрий 10.10.2021 в 20:54

Спасибо вам за статью, пересмотрел достаточно статей у вас самая актуальная. 5+++

Ответить
михаил 17.10.2021 в 08:33

Интересная статья

Ответить
Платон 30.10.2021 в 00:21

Добрый вечер
Не увидел в предложенном варианте директивы Disallow: */page
Очень часто рекомендуют закрывать для избежания дублей. Как можете прокомментировать причину отсутствия в вашем варианте?

Ответить
1. Александр Смирнов автор 31.10.2021 в 09:14
  
  Обычно я закрываю пагинацию через Canonical или noindex с помощью Clearfy Pro. Но можно и так, через роботс.
  
  Ответить
Александр 19.12.2021 в 17:58

Здравствуйте!
Вот я новичок и немного путаюсь во всех сложностях создания.
Как-то проходил курс по созданию сайтов и автором был предложен следующий robots.txt.

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

# РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap
Sitemap: https://домен.ру/sitemap_index.xml
Host: aleksryasnoy.ru

Несколько отличается от предложенного Вами варианта. Но при проверке в Вебмастере – ошибок 0. Может имеется в виду ошибки орфографические или грамматические?
А вот что это такое: # РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap

Ещё в плагине Clearfy , но не PRO
При активации создайте правильный robots.txt — кнопка ВКЛ, и в поле появляется:
User-Agent: *
Host: https://домен.ру

А при нажатии на знак вопроса пишет, что плагин автоматически создает идеальный robots.txt. Это и есть автоматически созданный?

Буду благодарен за ваш ответ.
с уважением Александр.

Ответить
1. Александр Смирнов автор 20.12.2021 в 14:15
  
  Добрый день!
  Ваш вариант неплох, его можно использовать.
  # РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap — закомментированный комментарий, который не нужен роботам, обычно используется для того, чтобы указать за что отвечает конкретная строчка. Его можно удалить.
  Директива Host: (домен) сейчас уже не актуален, его тоже можно удалить.
  Плагин Clearfy создает плохой вариант robots.txt, в котором нет ничего. Может это ошибка какая-то, лучше выключить и вручную вставить строчки в robots через Yoast SEO или что-то еще.
  
  Ответить
Пётр 15.01.2022 в 16:14

Здравствуйте подскажите пожалуйста к примеру я в файл роботс хочу поставить данные яндекса, и гугл прописывать Sitemap нужно отдельно для яндекса и гугл, или можно вконце прописать ?

Ответить
Vlad 23.03.2022 в 21:23

Зачем разрешать Allow: /*/*.js и Allow: /*/*.css ?
Там же нет контента который будет чувствовать в поиске.

Ответить
Петька 07.04.2022 в 17:34

Я много читал и в итоге составил по другому. Но не пойму немного, если настройки для всех роботов одни, то можно User-agent: * заполнить и все? Или обязательно надо Яндекс и Гугл дублировать команды?

Ответить
1. Александр Смирнов автор 07.04.2022 в 21:19
  
  Да, можно оставить только User-agent: *
  
  Ответить
Андрей 18.08.2022 в 14:51

Впервые нашёл адекватный и полный robots.txt, но к меня вопрос относительно карты сайта и как быть с ней…
Дело в том, что Yoast SEO генерирует (как я понимаю вирутальную карту) sitemap_index.xml, а стандартная sitemap.xml, которая обычно помещается в корневую папку сайта.
Но как быть в этом случае? Нужно ли sitemap.xml помещать в корневу папку и, если нужно, то в robots.txt прописывать две карты сайта или только sitemap_index.xml ?

Ответить
1. Александр Смирнов автор 19.08.2022 в 10:23
  
  Думаю, можно оставить только карту сайта от yoast seo, и ее прописать в роботсе. Я так и делаю на всех своих проектах.
  
  Ответить
  1. Андрей 20.08.2022 в 03:38
    
    А в корневой папке сайта нужно ли создавать классический sitemap.xml ? Но, как я понимаю, хуже от этого не будет… Или какой-то возможен конфликт?
    
    Ответить
Владимир 11.07.2023 в 17:13

А для чего надо закрывать все папки Disallow: /….. по отдельности??
Одна строка — Disallow: / — не работает?
Если мы делаем:
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
Disallow: /cgi-bin
Disallow: /? и так далее…,
то почему не сделать (работает ли этот способ??) просто — Юзер-агент:* закрыть:/ и всё. почему так не работает?

Ответить
1. Александр Смирнов автор 12.07.2023 в 16:03
  
  Disallow: / — закроет вообще весь сайт от индексации, его не будет в поиске.
  
  Ответить
Сергей 10.11.2023 в 20:54

Смешно — у этого сайта робот короткий, почему вопрос ?
В статье пишите что вы используете длинный и всем рекомендуете, а сами используете короткий.

Ответить
1. Александр Смирнов автор 12.11.2023 в 20:37
  
  Старая статья, раньше использовал расширенный, сейчас поставил короткий. Поправлю.
  
  Ответить
Сергей 03.03.2024 в 15:05

disallow: /tag/ — а это относится к рубрикам?

Ответить
1. Александр Смирнов автор 06.03.2024 в 19:41
  
  Нет, это «Теги» — отдельная таксономия вордпресса. Если они не используются, то можно не добавлять эту строчку в роботс.
  
  Ответить

	Fonbet Partners
	Анкетка - платные опросы
	Work-Zilla - биржа фриланса
	Kwork - магазин IT-услуг
	Etxt - биржа копирайтинга
	WorkHard.Online
	Яндекс.Толока
	Qcomment
	FL.ru - фриланс биржа
	Advertise - CPA-сеть
	Admitad - CPA-сеть
	Криптекс