Одной из важнейших вещей при создании и оптимизации сайта для поисковых систем считают Robots.txt. Небольшой файлик, где прописаны правила индексирования для поисковых роботов.
Если файл будет настроен неправильно, то сайт может неправильно индексироваться и терять большие доли трафика. Грамотная настройка наоборот позволяет улучшить SEO, и вывести ресурс в топы.
Сегодня мы поговорим о настройке Robots.txt для WordPress. Я покажу вам правильный вариант, который сам использую для своих проектов.
Что такое Robots.txt
Как я уже и сказал, robots.txt — текстовой файлик, где прописаны правила для поисковых систем. Стандартный robots.txt для WordPress выглядит следующим образом:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Именно в таком виде он создается плагином Yoast SEO. Некоторые считают, что этого хватит для правильной индексации. Я же считаю, что нужна более детальная проработка. А если речь идет о нестандартных проектах, то проработка нужна и подавно. Давайте разберемся в основных директивах:
Директива | Значение | Пояснение |
User-agent: | Yandex, Googlebot и т.д. | В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал. |
Disallow: | Относительная ссылка | Директива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами. |
Allow: | Относительная ссылка | Разрешающая директива. Ссылки, которые указаны с ней будут проиндексированы. |
Sitemap: | Абсолютная ссылка | Здесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console). |
Crawl-delay: | Время в секундах (пример: 2.0 — 2 секунды) | Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг. |
Clean-param: | Динамический параметр | Если на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть. |
В принципе, ничего сложного. Дам дополнительные пояснения по директивам Clean-param (откройте вкладку).
Более подробно о том, что такое Robots.txt можно узнать из Яндекс.Помощи. Или из этого видеоролика:
Базовый Robots.txt для WordPress
Совсем недавно я приобрел плагин Clearfy Pro для своих проектов. Там очень много разных функций, и одна из них — создание идеального Robots.txt. На самом деле насколько он идеален — я не знаю, вебмастера расходятся во мнениях.
Кто-то предпочитает делать более краткие версии роботса, указывая правила для всех поисковых систем сразу. Другие прописывают отдельные правила для каждого поисковика (в основном для Яндекса и Гугла).
Что из этого правильно — точно сказать не могу. Однако я предлагаю вам ознакомиться с базовой версией Robots.txt для WordPress от Clearfy Pro. Сейчас я использую именно ее как для этого, так и для большинства других своих проектов.
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /wp-includes/*.css Allow: /wp-includes/*.js Allow: /wp-content/plugins/*.css Allow: /wp-content/plugins/*.js Allow: /*.css Allow: /*.js Sitemap: https://site.ru/sitemap.xml
Расширенный Robots.txt для WordPress
Теперь посмотрим на расширенную версию Robots.txt для WordPress. Наверняка вы знаете, что все сайты на WP имеют одинаковую структуру. Одинаковые названия папок, файлов и т. д. позволяют специалистам выявить наиболее приемлемый вариант роботса.
От предыдущего отличается более детальной проработкой под роботы Яндекса и Гугла. Кто-то считает, что таким образом эти ПС будут реагировать на правила лучше. Также здесь закрыты дополнительные технические страницы, фиды.
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Disallow: /tag/ # Закрываем метки Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне) Disallow: *?replytocom Allow: */uploads User-agent: GoogleBot # Для Гугла Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Disallow: /tag/ # Закрываем метки Disallow: /readme.html Disallow: *?replytocom Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php User-agent: Yandex # Для Яндекса Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: /xmlrpc.php Disallow: /tag/ # Закрываем метки Disallow: /readme.html Disallow: *?replytocom Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.
Ранее в Robots.txt использовалась директива Host. Она указывала главное зеркало сайта. Теперь это делается при помощи редиректа. Подробнее об этом можно почитать в блоге Яндекса.
Комментарии (текст после #) можно удалить. Указываю Sitemap с https протоколом, т.к. большинство сайтов сейчас используют защищенное соединение. Если у вас нет SSL, то измените протокол на http.
Обратите внимание на то, что я закрываю метки (теги). Делаю это потому, что они создают большое количество дублей. Это плохо сказывается на SEO, но если вы хотите открыть метки, тогда уберите строчку disallow: /tag/ из файла.
Заключение
В общем-то, вот так выглядит правильный Robots.txt для WordPress. Смело копируйте данные в файл и пользуйтесь. Отмечу, что этот вариант подходит только для стандартных информационных сайтов.
В других ситуациях может потребоваться индивидуальная проработка. На этом все. Спасибо за внимание. Буду благодарен, если вы подпишитесь на мой телеграм-канал и мою группу ВК.
Спасибо, попробуем-с.
А можно не удалять disallow: /tag/, а вместо этого поставить # в начале строчки ?
вот так #Disallow: /tag/
Если оставить как есть с отключенными метками, то поисковики не будут находить статьи по тэгам ?
А зачем ставить # в начале строчки, если она просто не нужна?)
Только вес файла будет увеличивать, хоть и очень-очень незначительно.
Если оставить все, как в моем варианте — теги не будут индексироваться ПС.
У себя на сайте я использую их чисто для внутренней навигации. Считаю, что в поисковой выдаче они будут лишними — создают дубли.
Но если у вас другое мнение, то можете просто убрать эти строчки из файла.
А зачем хост удалять?
Куча гайдов и кто во что горазд, думаю оставить минималку и вообще там не ковыряться.. я не опытный ещё)
Раньше Хост держали только для Яндекса. Потом они выкатили апдейт своих алгоритмов, и сообщили, что теперь главное зеркало будет учитываться через редирект. Короче говоря, теперь это строка вообще не воспринимается поисковыми системами — то есть лишняя.
Вы можете оставить ее, но она бесполезная.
Здравствуйте! А что нужно сделать, чтобы всё правильно работало, где и как этот редирект настроить?
К стати, если у тебя скопировать и вставить, то вон какая каша получается, не правильно ты как-то список залил..
Посмотри: (ссылка удалена)
Спасибо за замечание! Плагин для антиплагиата, который добавлял ссылку в конец скопированного текста мешал все в кашу. Сейчас отключил, можно копировать — все будет в нормальном виде.
Здравствуйте ! Скажите пожалуйста как закрыть вот такие ссылки в роботс: сайт.ру/baton-v-hlebopechke/1-165/
Здравствуйте. Закрываются ссылки так же, как и все остальные.
Disallow: /baton-v-hlebopechke/1-165/
Здравствуйте, копировать и вставить весь код для робота?
Да, все верно.
Здравствуйте, а Host прописывать не надо?
Не надо, сейчас от него отказались все популярные поисковики.
Спасибо за статью. Мучаюсь с метками — попадают в поиск. Оказалось неправильно закрыл в роботсе.
Рад, что статья вам помогла. Метки можно закрыть не только при помощи Роботса, но и через Yoast SEO)
что думаете по поводу
Disallow: */print/
Disallow: *?print=*
Первый закроет все ссылки, которые заканчиваются на /print/
Второй закроет все ссылки, в которых есть параметр *?print=* с любым содержанием.
Добрый день! А чем вам не нравится Robots.txt от Clearfy Pro? Там ведь в плагине все лишнее можно закрыть, вот оно и не прописывается лишний раз в Robots.txt, да и уверяют они, что это лучший выбор. Вы как считаете?
У них слишком короткий вариант «сразу для всех ПС». Конкретно мне такое не подходит, потому что для Яндекса нужно открывать турбо-страницы. Для Гугла их открывать не нужно 🙂
И еще: я считаю, что проработка файла под каждую поисковую систему лучше скажется на SEO.
Но вы можете поставить вариант Clearfy, с этим нет никаких проблем) Не думаю, что будет слишком большая разница.
Здравствуйте скопировал роботс в вордпресс вставил и после проверки пишет кучу ошибок а почему так ?
Вот смотрите проверял на этом сайте robots.txt — websiteplanet
А вот скрин ошибок его — (ссылка удалена)
Добрый день! Проверил ваш инструмент, какой-то он мутный. Не думаю, что его рекомендациям стоит следовать. Но это мое мнение, вы можете попробовать сделать вариант, который будет «проходить» в этом инструменте без ошибок.
Лично я бы советовал проверять Robots на ошибки через официальные инструменты — Яндекс.Вебмастер и Search Console.
PS Ваш инструмент показывает не ошибки, а предупреждения. И там их всего два вида: ошибка шаблонов (когда указываются не адреса, а шаблоны адресов) — инструмент не считает это «оптимальной практикой»; директива Allow, которая стоит после директивы Disallow. Можете поставить сначала Allow, а уже потом Disallow — возможно инструмент не будет выдавать ошибку. Из-за кривого перевода я не особо понял, что инструмент конкретно требует + он рассматривает только Google и Bing, что уже наводит на определенные мысли)
Здравствуйте! Вопрос по последней строчке – Sitemap: site.com/sitemap_index.xml #
Почему карта сайта файлом «sitemap_index.xml»? У меня называется файл просто «sitemap.xml». Мне как нужно файл прописывать с «_index» или как есть (sitemap.xml).
Извините, может, вопрос глупый. Я только учусь. Буду благодарна за ответ.
Если ваша карта называется Sitemap.xml, то вы должны вставить в Роботс: вашдомен.ру/sitemap.xml — как есть. Я поставил такой вариант, т. к. подавляющее большинство использует плагин Yoast SEO и XML-карту сайта от него.
А вопрос совсем не глупый, все мы были новичками =).
Спасибо за ответ! Как ни странно, но я тоже использую плагин Yoast SEO)). А карту сайта я создала вручную и назвав Sitemap.xml, положила в корень. И в яндекс-вебмастер и гугл серч консоле прописала дорогу к ней.
После вашего ответа проверила, действительно 2 карты теперь есть и Sitemap.xml и sitemap_index.xml. Только sitemap_index.xml какая-то странная, из 8 пунктов. Теперь не знаю, что делать. Может, имеет смысл удалить сделанную мной Sitemap.xml? Не возникает ли путанница у поисковиков из-за того, что у меня 2 карты активны?
Надеюсь, понятно все изложила. Спасибо большое за ваш ответы! Для меня это очень ценно.
Лучше использовать одну карту сайта. Можете либо удалить sitemap.xml, оставив карту от Yoast, либо отключить карту от Yoast и оставить созданную вами.
Yoast SEO создает несколько карт сайта. Sitemap_index — это такой список всех карт сайта (отдельно карта для постов, отдельно для страниц, отдельно для тегов и т. д.). Поисковые системы отлично понимают этот принцип работы. Они заходят в sitemap_index, видят там ссылки на другие карты сайта и индексируют их.
Кстати, советую вам глянуть эту статью про Sitemap.xml. В ней я описываю наиболее популярные способы создания карты сайта.
Так и сделаю — удалю одну карту. Спасибо за такой исчерпывающий ответ, поняла почему Sitemap_index странно выглядит на первый взгляд. Статью обязательно прочитаю.
Вы предлагаете закрывать довольно много. Но я тут недавно читал, что самый лучший вариант роботса это тот, который не закрывает доступ практически вообще. Что скажите по этому поводу? Если закрыть только админку — достаточно ли этого будет?
Слышал про ваш вариант. Можете попробовать, но я считаю, что более тщательная проработка файла лучше скажется на SEO.
Ваш вариант, кстати, возможно применим для Гугла. Яндекс же в любом случае будет накладывать санкции за плохо проработанный файл — слишком много мусорных страниц попадет в поиск и это, в общем, плохо скажется на продвижении.
Стояло изначально от ClearfyPro, но очень плохо индексировались картинки, точнее только процентов 20 показывает в поиске, у меня кулинарный сайт, и картинки очень важное звено, поэтому попробую Ваш вариант.
но Гугл выдает 2 ошибки
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
хоть и прописано что это для яндекса, но матерится -_- это терпимо? что это за параметры? может их просто удалить, что бы гугл не злился.
и смущает этот набор букв utm_source&utm_medium&utm_campaign, он правильно прописан?
Да, гугл ругается, потому что не использует такой синтаксис. Можно забить. Прописан он правильно, можете проверить на ошибки в Яндекс.Вебмастере)
По поводу удаления — если вам так режет глаза, то можно удалить. Эта строка просто чисти UTM-метки (так рекомендует делать сам Яндекс). Для гугла эти UTM-метки просто закрываются.
ок, спасибо 🙂 надеюсь на лучшее.
Спасибо за статью. Хотел спросить у вас, у меня вроде как уникальная ситуация))) В общем WordPress генерирует дубликаты страниц через комментарии, такие ссылки выглядят так site.ru/post123#comment-номер комментария. Пытался закрыть в роботсе через директиву Disallow: /*comment-* Но не получается, все равно робот индексирует такие ссылки, а нормальные (т.е. site.ru/post123) считает дублем и удаляет из выдачи. Неужели в директиве нужно указывать спецсимвол # (Disallow: /*#comment-*) ??? не будет ли конфликта, ведь он в роботсе отвечает за комментарий для ПС?
Символ # отвечает за комментарии для пользователей и обычно эти комментарии удаляются из Роботса, чтобы лишний раз не нагружать файл. Обычно комментарий выглядит так: «# Какой-то комментарий». То есть с пробелом.
Попробуйте добавить вашу запись (Disallow: /*#comment-*) и проверить Роботс через Яндекс.Вебмастер. Добавьте запись в Роботс, зайдите в ЯВМ, раздел «Инструменты» — «Анализ robots.txt» и проверьте доступность этих ссылок-дубликатов.
Было бы замечательно, если бы в статье было разъяснение для чего нужно закрывать некоторые папки. В частности меня интересуют папки /cgi-bin и /wp-
Их закрывают, чтобы технические страницы не попадали в поиск. Скрипты, файлы со стилями и т . д.
# Что скажите про мой роботс.тхт от плагина All in One SEO Pack:
User-agent: Yandex
Allow: /yandex/news/ # установлен плагин Yandex.News Feed by Teplitsa
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php # вордпресс рекомендует индексировать
User-agent: Yandex
Disallow: /*wp-admin* # админ
Disallow: /*wp-includes* # папки и подпапки includes
Disallow: /*plugins* # папки и подпапки плагина
Disallow: /*cache* # папки и подпапки кеша
Disallow: /*author* # нашел в яндекс метрики на страницы входа
Disallow: /*?fbclid=* # страницы поиска от темы кассандра
Disallow: /*?_gl=* # нашел в яндекс метрики на страницы входа
Disallow: /*?amp* # установлен плагин AMP нашел в яндекс метрики на страницы входа
Disallow: /*?s=* # страница поиска от вордпресс
Allow: /*.css* # css файлы
Allow: /*.js* # ява скрипты
Allow: /*uploads* # папку и подпапки фотографий
User-agent: YandexDirect
Allow: / # разрешил рекламу от яндекс директ
Зачем два раза User-Agent: Yandex? — код с открытием фида нужно поместить после «Allow: /*uploads* # папку и подпапки фотографий»
Плагин All in One SEO Pack сразу же после активации его блока роботс.тхт прописал вот так (см. ниже) и изменить эту запись уже невозможно.
User-agent: Yandex
Allow: /yandex/news/
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Когда прописываю Disallow и Allow: в User-agent: * это как мы знаем для всех ботов при проверке в Яндекс вебмастере где есть инструмент Анализ robots.txt, выходит ошибка. Если прописать Disallow и Allow: в User-agent: Yandex, как в примере (см. выше) то ошибку не выдает. И также плагин All in One SEO Pack не позволяет прописать рекомендации Disallow и Allow: отдельно дважды для каждого поисковика User-agent: * и User-agent: Yandex. То есть дважды не разрешает плагин повторять рекомендации Disallow и Allow. По-моему, поисковик Гугла не индексирует «мусорные» повторяющиеся с одинаковым контентом, но с разными url страницы и не учитывает запреты Disallow: в роботс.тхт. Выходит роботу Гугла все равно ставите вы запреты или нет, а робот Яндекса учитывает роботс.тхт. В Яндекс метрики где «страницы входа» у меня на сайтах есть мусорные страницы и их нужно закрывать, что я и проделал (см. выше) пример моего роботс. тхт. У меня возникает вопрос, стоит ли прописать рекомендации только в User-agent: * и, игнорировать ошибку в Яндекс инструменте Анализ robots.txt либо оставить мой роботс.тхт, как есть (см. выше) в комментарии?
Спасибо. Но у меня гугл ругается на то, что в Роботс закрыт фид: Disallow: /feed
Search Console has identified that your site is affected by 1 Coverage issues:
Top Warnings
Вот скрин (ссылка удалена)
Так что, получается открывать фид в роботс?
Да, для Гугла можете открыть (просто убрать строчку эту).
Здравствуйте! Спасибо за статью. А «license.txt» тоже может закрыть надо?
Караул. А кто мне сделает няшную карту сайта? Есть для этого правильный плагин забисплатно?
All in Seo Pack в помощь!
Аднафамилица
Доброго времени суток. Подскажите пожалуйста, я воспользовался расширенным ribots.txt для wp и при сканировании страницы в Google search выскакивает следующие:
Роботу Googlebot заблокирован доступ в файле robots.txt
Скрипт
https://mc.yandex.ru/metrika/tag.js
Так и должно быть или в чем-то проблема?
P.S сильно не пугайте за глупые вопросы
почему для яндекс утм не закрыли?
Здравствуйте!
Воспользовался вашим Robots.txt
Добавил сайт в гугл и яндекс. Через несколько дней с Google Search Console пришло письмо предупреждение
«Проиндексировано, несмотря на блокировку в файле robots.txt»
Как выяснилось проиндексированы три страницы:
tag/vremya
tag/zhizn
tag/rost
Но почему гугл их проиндексировал, если они закрыты в robots.txt?
Подскажите пожалуйста как мне исправить эту проблему?
Добрый день!
Есть несколько вариантов:
1) Вы можете открыть /tag/ для Гугла (то есть удалить строчку), и тогда Гугл будет индексировать теги и эта ошибка исчезнет. Насколько я знаю, то наличие таких страниц в Гугле не дают негативных последствий (поэтому Гугл и индексирует их, даже несмотря на блокировку в файле).
2) Вы можете закрыть эти страницы с помощью тега noindex nofollow через настройки Yoast SEO (если он у вас установлен).
3) Можно удалить эти страницы с помощью функционала Search Console (в боковом меню — Удаления). Так делать НЕ рекомендую, потому что смысла не очень много (возможно страницы опять будут залетать).
Так и сделал, открыл /tag/ и с помощью плагина SEO Rank Math закрыл эти страницы от индексации
Ещё раз спасибо за информацию!
Добрый день! Ставлю последний робот себе на сайт, посмотрю как пойдут дела у Яндекса. Все вылетело из-за смены названия сайта. Никто не объяснит, когда вернется все на позиции
Alexander Здравствуйте!
Ещё один вопрос:
скажите, что это за параметр в robots
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
??
При проверке в Гугл вебмастера у меня выдало ошибку на этих двух директивах.
Они обязательно нужны в роботсе?
Вопрос про Clean-Param больше не актуален, прочитал комментарий выше.
Если мы используем ваш ротоб то нужен ли плагин Google XML Sitemap Generator ?
Чел, спасибо огромное. Но я пока что совсем нулёвый, потому вот такой вопрос: А не должен ли я заменить https на http в определённых пунктах, если ещё не перешёл на защищённое соединение?
Все правильно, должен. Потом ток не забудь заменить обратно на https.
/wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
svg-те сразу нет, шрифты наверняка там же.
А потом горе-seoшники жалуются, что фавиконки не читаются
Не использую этот формат, но согласен, можно добавить правила для svg, webp, pdf.
А что если у меня большинство изображений не имеют в названии префикса «wp-*» ??? Как тогда правильно открывать графику для индексации ?
Это не так работает. Тут прописаны правила, чтобы в папках, которые начинаются с wp- (а так начинаются все папки с контентом по-умолчанию в WordPress) индексировались файлы с указанными форматами.
То есть без разницы какие названия имеют сами изображения, они все равно будут индексироваться.
Здравствуйте. Сейчас на моём сайте висит уведомление от All in One SEO:
«Обнаружен физический файл Robots.txt
8 дней назад
AIOSEO обнаружила физический файл robots.txt в корневой папке вашей установки WordPress. Мы рекомендуем удалить этот файл, так как он может вызвать конфликт с динамически созданным файлом WordPress. AIOSEO может импортировать этот файл и удалить его, или вы можете просто удалить его.»
Подскажите что мне с этим делать?
Добрый день. Нужно просто удалить файл robots.txt через файловый менеджер — в ПУ хостинга, либо просто удалите файл через плагин All In One SEO, если есть такая возможность.
Спасибо за статью.
Можно еще вопрос?
Как закрыть для индексации страницы типа:
/page.php?ID=377
Здравствуйте.
Disallow: /page.php?ID=* — как вариант.
Спасибо вам за статью, пересмотрел достаточно статей у вас самая актуальная. 5+++
Интересная статья
Добрый вечер
Не увидел в предложенном варианте директивы Disallow: */page
Очень часто рекомендуют закрывать для избежания дублей. Как можете прокомментировать причину отсутствия в вашем варианте?
Обычно я закрываю пагинацию через Canonical или noindex с помощью Clearfy Pro. Но можно и так, через роботс.
Здравствуйте!
Вот я новичок и немного путаюсь во всех сложностях создания.
Как-то проходил курс по созданию сайтов и автором был предложен следующий robots.txt.
User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
# Укажите файл Sitemap
Sitemap: https://домен.ру/sitemap_index.xml
Host: aleksryasnoy.ru
Несколько отличается от предложенного Вами варианта. Но при проверке в Вебмастере – ошибок 0. Может имеется в виду ошибки орфографические или грамматические?
А вот что это такое: # Укажите файл Sitemap
Ещё в плагине Clearfy , но не PRO
При активации создайте правильный robots.txt — кнопка ВКЛ, и в поле появляется:
User-Agent: *
Host: https://домен.ру
А при нажатии на знак вопроса пишет, что плагин автоматически создает идеальный robots.txt. Это и есть автоматически созданный?
Буду благодарен за ваш ответ.
с уважением Александр.
Добрый день!
Ваш вариант неплох, его можно использовать.
# Укажите файл Sitemap — закомментированный комментарий, который не нужен роботам, обычно используется для того, чтобы указать за что отвечает конкретная строчка. Его можно удалить.
Директива Host: (домен) сейчас уже не актуален, его тоже можно удалить.
Плагин Clearfy создает плохой вариант robots.txt, в котором нет ничего. Может это ошибка какая-то, лучше выключить и вручную вставить строчки в robots через Yoast SEO или что-то еще.
Здравствуйте подскажите пожалуйста к примеру я в файл роботс хочу поставить данные яндекса, и гугл прописывать Sitemap нужно отдельно для яндекса и гугл, или можно вконце прописать ?
Зачем разрешать Allow: /*/*.js и Allow: /*/*.css ?
Там же нет контента который будет чувствовать в поиске.
Я много читал и в итоге составил по другому. Но не пойму немного, если настройки для всех роботов одни, то можно User-agent: * заполнить и все? Или обязательно надо Яндекс и Гугл дублировать команды?
Да, можно оставить только User-agent: *
Впервые нашёл адекватный и полный robots.txt, но к меня вопрос относительно карты сайта и как быть с ней…
Дело в том, что Yoast SEO генерирует (как я понимаю вирутальную карту) sitemap_index.xml, а стандартная sitemap.xml, которая обычно помещается в корневую папку сайта.
Но как быть в этом случае? Нужно ли sitemap.xml помещать в корневу папку и, если нужно, то в robots.txt прописывать две карты сайта или только sitemap_index.xml ?
Думаю, можно оставить только карту сайта от yoast seo, и ее прописать в роботсе. Я так и делаю на всех своих проектах.
А в корневой папке сайта нужно ли создавать классический sitemap.xml ? Но, как я понимаю, хуже от этого не будет… Или какой-то возможен конфликт?
А для чего надо закрывать все папки Disallow: /….. по отдельности??
Одна строка — Disallow: / — не работает?
Если мы делаем:
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
Disallow: /cgi-bin
Disallow: /? и так далее…,
то почему не сделать (работает ли этот способ??) просто — Юзер-агент:* закрыть:/ и всё. почему так не работает?
Disallow: / — закроет вообще весь сайт от индексации, его не будет в поиске.
Смешно — у этого сайта робот короткий, почему вопрос ?
В статье пишите что вы используете длинный и всем рекомендуете, а сами используете короткий.
Старая статья, раньше использовал расширенный, сейчас поставил короткий. Поправлю.
disallow: /tag/ — а это относится к рубрикам?
Нет, это «Теги» — отдельная таксономия вордпресса. Если они не используются, то можно не добавлять эту строчку в роботс.