Правильный Robots.txt для WordPress 2024 — подробная настройка

Опубликовано: 19.09.2018

4 мин чтения

517

Содержание

Одной из важнейших вещей при создании и оптимизации сайта для поисковых систем считают Robots.txt. Небольшой файлик, где прописаны правила индексирования для поисковых роботов.

Если файл будет настроен неправильно, то сайт может неправильно индексироваться и терять большие доли трафика. Грамотная настройка наоборот позволяет улучшить SEO, и вывести ресурс в топы.

Сегодня мы поговорим о настройке Robots.txt для WordPress. Я покажу вам правильный вариант, который сам использую для своих проектов.

Что такое Robots.txt

Как я уже и сказал, robots.txt — текстовой файлик, где прописаны правила для поисковых систем. Стандартный robots.txt для WordPress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Именно в таком виде он создается плагином Yoast SEO. Некоторые считают, что этого хватит для правильной индексации. Я же считаю, что нужна более детальная проработка. А если речь идет о нестандартных проектах, то проработка нужна и подавно. Давайте разберемся в основных директивах:

Директива	Значение	Пояснение
User-agent:	Yandex, Googlebot и т.д.	В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал.
Disallow:	Относительная ссылка	Директива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами.
Allow:	Относительная ссылка	Разрешающая директива. Ссылки, которые указаны с ней будут проиндексированы.
Sitemap:	Абсолютная ссылка	Здесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console).
Crawl-delay:	Время в секундах (пример: 2.0 — 2 секунды)	Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг.
Clean-param:	Динамический параметр	Если на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть.

В принципе, ничего сложного. Дам дополнительные пояснения по директивам Clean-param (откройте вкладку).

Подробнее о Clean-param

Параметры, как правило, используются на динамических сайтах. Они могут передавать поисковым системам лишнюю информацию — создавать дубли. Чтобы избежать этого, мы должны указать в Robots.txt директиву Clean-param с указанием параметра и ссылки, к которой это параметр применяется.

В нашем примере site.ru/statia?uid=32 — site.ru/statia — ссылка, а все, что после знака вопроса — параметр. Здесь это uid=32. Он динамический, и это значит, что параметр uid может принимать другие значения.

Например, uid=33, uid=34…uid=123434. В теории их может быть сколько угодно, поэтому мы должны закрыть от индексации все параметры uid. Для этого директива должна принять такой вид:

Clean-param: uid /statia # все параметры uid для statia будут закрыты

Более подробно о том, что такое Robots.txt можно узнать из Яндекс.Помощи. Или из этого видеоролика:

Базовый Robots.txt для WordPress

Совсем недавно я приобрел плагин Clearfy Pro для своих проектов. Там очень много разных функций, и одна из них — создание идеального Robots.txt. На самом деле насколько он идеален — я не знаю, вебмастера расходятся во мнениях.

Кто-то предпочитает делать более краткие версии роботса, указывая правила для всех поисковых систем сразу. Другие прописывают отдельные правила для каждого поисковика (в основном для Яндекса и Гугла).

Что из этого правильно — точно сказать не могу. Однако я предлагаю вам ознакомиться с базовой версией Robots.txt для WordPress от Clearfy Pro. Сейчас я использую именно ее как для этого, так и для большинства других своих проектов.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /wp-includes/*.css
Allow: /wp-includes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Allow: /*.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml

Расширенный Robots.txt для WordPress

Теперь посмотрим на расширенную версию Robots.txt для WordPress. Наверняка вы знаете, что все сайты на WP имеют одинаковую структуру. Одинаковые названия папок, файлов и т. д. позволяют специалистам выявить наиболее приемлемый вариант роботса.

От предыдущего отличается более детальной проработкой под роботы Яндекса и Гугла. Кто-то считает, что таким образом эти ПС будут реагировать на правила лучше. Также здесь закрыты дополнительные технические страницы, фиды.

User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads   

User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.

Ранее в Robots.txt использовалась директива Host. Она указывала главное зеркало сайта. Теперь это делается при помощи редиректа. Подробнее об этом можно почитать в блоге Яндекса.

Комментарии (текст после #) можно удалить. Указываю Sitemap с https протоколом, т.к. большинство сайтов сейчас используют защищенное соединение. Если у вас нет SSL, то измените протокол на http.

Читайте также: Как правильно настроить WordPress

Обратите внимание на то, что я закрываю метки (теги). Делаю это потому, что они создают большое количество дублей. Это плохо сказывается на SEO, но если вы хотите открыть метки, тогда уберите строчку disallow: /tag/ из файла.

Заключение

В общем-то, вот так выглядит правильный Robots.txt для WordPress. Смело копируйте данные в файл и пользуйтесь. Отмечу, что этот вариант подходит только для стандартных информационных сайтов.

В других ситуациях может потребоваться индивидуальная проработка. На этом все. Спасибо за внимание. Буду благодарен, если вы подпишитесь на мой телеграм-канал и мою группу ВК.

Рубрики:

Для новичка,

Предыдущая статья

Настройка WordPress после установки

Следующая статья

Установка IPS Community Suite 4 (IPB4) на хостинг

Алексей написал(а) 05.01.2019

Спасибо, попробуем-с.

Ответить
Андрей написал(а) 06.02.2019

А можно не удалять disallow: /tag/, а вместо этого поставить # в начале строчки ?
вот так #Disallow: /tag/
Если оставить как есть с отключенными метками, то поисковики не будут находить статьи по тэгам ?

Ответить
- Alexander Wayne написал(а) 07.02.2019
  
  А зачем ставить # в начале строчки, если она просто не нужна?)
  Только вес файла будет увеличивать, хоть и очень-очень незначительно.
  Если оставить все, как в моем варианте — теги не будут индексироваться ПС.
  У себя на сайте я использую их чисто для внутренней навигации. Считаю, что в поисковой выдаче они будут лишними — создают дубли.
  Но если у вас другое мнение, то можете просто убрать эти строчки из файла.
  
  Ответить
Лот №2 написал(а) 21.02.2019

А зачем хост удалять?
Куча гайдов и кто во что горазд, думаю оставить минималку и вообще там не ковыряться.. я не опытный ещё)

Ответить
- Alexander Wayne написал(а) 21.02.2019
  
  Раньше Хост держали только для Яндекса. Потом они выкатили апдейт своих алгоритмов, и сообщили, что теперь главное зеркало будет учитываться через редирект. Короче говоря, теперь это строка вообще не воспринимается поисковыми системами — то есть лишняя.
  Вы можете оставить ее, но она бесполезная.
  
  Ответить
  - Валерий написал(а) 27.03.2020
    
    Здравствуйте! А что нужно сделать, чтобы всё правильно работало, где и как этот редирект настроить?
    
    Ответить
Лот №2 написал(а) 21.02.2019

К стати, если у тебя скопировать и вставить, то вон какая каша получается, не правильно ты как-то список залил..
Посмотри: (ссылка удалена)

Ответить
- Alexander Wayne написал(а) 21.02.2019
  
  Спасибо за замечание! Плагин для антиплагиата, который добавлял ссылку в конец скопированного текста мешал все в кашу. Сейчас отключил, можно копировать — все будет в нормальном виде.
  
  Ответить
Татьяна написал(а) 01.03.2019

Здравствуйте ! Скажите пожалуйста как закрыть вот такие ссылки в роботс: сайт.ру/baton-v-hlebopechke/1-165/

Ответить
- Василий написал(а) 14.03.2019
  
  Здравствуйте. Закрываются ссылки так же, как и все остальные.
  
  Disallow: /baton-v-hlebopechke/1-165/
  
  Ответить
Александр написал(а) 04.04.2019

Здравствуйте, копировать и вставить весь код для робота?

Ответить
- Alexander Wayne написал(а) 06.04.2019
  
  Да, все верно.
  
  Ответить
  - Алёна написал(а) 08.04.2019
    
    Здравствуйте, а Host прописывать не надо?
    
    Ответить
    - Alexander Wayne написал(а) 11.04.2019
      
      Не надо, сейчас от него отказались все популярные поисковики.
      
      Ответить
Rusfetbiz написал(а) 27.05.2019

Спасибо за статью. Мучаюсь с метками — попадают в поиск. Оказалось неправильно закрыл в роботсе.

Ответить
- Alexander Wayne написал(а) 27.05.2019
  
  Рад, что статья вам помогла. Метки можно закрыть не только при помощи Роботса, но и через Yoast SEO)
  
  Ответить
Виктор написал(а) 27.05.2019

что думаете по поводу
Disallow: */print/
Disallow: *?print=*

Ответить
- Alexander Wayne написал(а) 30.09.2019
  
  Первый закроет все ссылки, которые заканчиваются на /print/
  Второй закроет все ссылки, в которых есть параметр *?print=* с любым содержанием.
  
  Ответить
Красноармеец Сухов написал(а) 09.06.2019

Добрый день! А чем вам не нравится Robots.txt от Clearfy Pro? Там ведь в плагине все лишнее можно закрыть, вот оно и не прописывается лишний раз в Robots.txt, да и уверяют они, что это лучший выбор. Вы как считаете?

Ответить
- Alexander Wayne написал(а) 09.06.2019
  
  У них слишком короткий вариант «сразу для всех ПС». Конкретно мне такое не подходит, потому что для Яндекса нужно открывать турбо-страницы. Для Гугла их открывать не нужно 🙂
  И еще: я считаю, что проработка файла под каждую поисковую систему лучше скажется на SEO.
  Но вы можете поставить вариант Clearfy, с этим нет никаких проблем) Не думаю, что будет слишком большая разница.
  
  Ответить
Андрей написал(а) 14.07.2019

Здравствуйте скопировал роботс в вордпресс вставил и после проверки пишет кучу ошибок а почему так ?
Вот смотрите проверял на этом сайте robots.txt — websiteplanet
А вот скрин ошибок его — (ссылка удалена)

Ответить
- Alexander Wayne написал(а) 14.07.2019
  
  Добрый день! Проверил ваш инструмент, какой-то он мутный. Не думаю, что его рекомендациям стоит следовать. Но это мое мнение, вы можете попробовать сделать вариант, который будет «проходить» в этом инструменте без ошибок.
  Лично я бы советовал проверять Robots на ошибки через официальные инструменты — Яндекс.Вебмастер и Search Console.
  
  PS Ваш инструмент показывает не ошибки, а предупреждения. И там их всего два вида: ошибка шаблонов (когда указываются не адреса, а шаблоны адресов) — инструмент не считает это «оптимальной практикой»; директива Allow, которая стоит после директивы Disallow. Можете поставить сначала Allow, а уже потом Disallow — возможно инструмент не будет выдавать ошибку. Из-за кривого перевода я не особо понял, что инструмент конкретно требует + он рассматривает только Google и Bing, что уже наводит на определенные мысли)
  
  Ответить
Марина написал(а) 17.07.2019

Здравствуйте! Вопрос по последней строчке – Sitemap: site.com/sitemap_index.xml #
Почему карта сайта файлом «sitemap_index.xml»? У меня называется файл просто «sitemap.xml». Мне как нужно файл прописывать с «_index» или как есть (sitemap.xml).
Извините, может, вопрос глупый. Я только учусь. Буду благодарна за ответ.

Ответить
- Alexander Wayne написал(а) 17.07.2019
  
  Если ваша карта называется Sitemap.xml, то вы должны вставить в Роботс: вашдомен.ру/sitemap.xml — как есть. Я поставил такой вариант, т. к. подавляющее большинство использует плагин Yoast SEO и XML-карту сайта от него.
  А вопрос совсем не глупый, все мы были новичками =).
  
  Ответить
  - Марина написал(а) 17.07.2019
    
    Спасибо за ответ! Как ни странно, но я тоже использую плагин Yoast SEO)). А карту сайта я создала вручную и назвав Sitemap.xml, положила в корень. И в яндекс-вебмастер и гугл серч консоле прописала дорогу к ней.
    После вашего ответа проверила, действительно 2 карты теперь есть и Sitemap.xml и sitemap_index.xml. Только sitemap_index.xml какая-то странная, из 8 пунктов. Теперь не знаю, что делать. Может, имеет смысл удалить сделанную мной Sitemap.xml? Не возникает ли путанница у поисковиков из-за того, что у меня 2 карты активны?
    Надеюсь, понятно все изложила. Спасибо большое за ваш ответы! Для меня это очень ценно.
    
    Ответить
    - Alexander Wayne написал(а) 17.07.2019
      
      Лучше использовать одну карту сайта. Можете либо удалить sitemap.xml, оставив карту от Yoast, либо отключить карту от Yoast и оставить созданную вами.
      Yoast SEO создает несколько карт сайта. Sitemap_index — это такой список всех карт сайта (отдельно карта для постов, отдельно для страниц, отдельно для тегов и т. д.). Поисковые системы отлично понимают этот принцип работы. Они заходят в sitemap_index, видят там ссылки на другие карты сайта и индексируют их.
      Кстати, советую вам глянуть эту статью про Sitemap.xml. В ней я описываю наиболее популярные способы создания карты сайта.
      
      Ответить
      - Марина написал(а) 17.07.2019
        
        Так и сделаю — удалю одну карту. Спасибо за такой исчерпывающий ответ, поняла почему Sitemap_index странно выглядит на первый взгляд. Статью обязательно прочитаю.
Rusfetbiz написал(а) 26.07.2019

Вы предлагаете закрывать довольно много. Но я тут недавно читал, что самый лучший вариант роботса это тот, который не закрывает доступ практически вообще. Что скажите по этому поводу? Если закрыть только админку — достаточно ли этого будет?

Ответить
- Alexander Wayne написал(а) 26.07.2019
  
  Слышал про ваш вариант. Можете попробовать, но я считаю, что более тщательная проработка файла лучше скажется на SEO.
  
  Ваш вариант, кстати, возможно применим для Гугла. Яндекс же в любом случае будет накладывать санкции за плохо проработанный файл — слишком много мусорных страниц попадет в поиск и это, в общем, плохо скажется на продвижении.
  
  Ответить
Адик написал(а) 17.08.2019

Стояло изначально от ClearfyPro, но очень плохо индексировались картинки, точнее только процентов 20 показывает в поиске, у меня кулинарный сайт, и картинки очень важное звено, поэтому попробую Ваш вариант.
но Гугл выдает 2 ошибки
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
хоть и прописано что это для яндекса, но матерится -_- это терпимо? что это за параметры? может их просто удалить, что бы гугл не злился.
и смущает этот набор букв utm_source&utm_medium&utm_campaign, он правильно прописан?

Ответить
- Alexander Wayne написал(а) 17.08.2019
  
  Да, гугл ругается, потому что не использует такой синтаксис. Можно забить. Прописан он правильно, можете проверить на ошибки в Яндекс.Вебмастере)
  
  По поводу удаления — если вам так режет глаза, то можно удалить. Эта строка просто чисти UTM-метки (так рекомендует делать сам Яндекс). Для гугла эти UTM-метки просто закрываются.
  
  Ответить
  - Адик написал(а) 18.08.2019
    
    ок, спасибо 🙂 надеюсь на лучшее.
    
    Ответить
Азамат написал(а) 26.08.2019

Спасибо за статью. Хотел спросить у вас, у меня вроде как уникальная ситуация))) В общем WordPress генерирует дубликаты страниц через комментарии, такие ссылки выглядят так site.ru/post123#comment-номер комментария. Пытался закрыть в роботсе через директиву Disallow: /*comment-* Но не получается, все равно робот индексирует такие ссылки, а нормальные (т.е. site.ru/post123) считает дублем и удаляет из выдачи. Неужели в директиве нужно указывать спецсимвол # (Disallow: /*#comment-*) ??? не будет ли конфликта, ведь он в роботсе отвечает за комментарий для ПС?

Ответить
- Alexander Wayne написал(а) 29.08.2019
  
  Символ # отвечает за комментарии для пользователей и обычно эти комментарии удаляются из Роботса, чтобы лишний раз не нагружать файл. Обычно комментарий выглядит так: «# Какой-то комментарий». То есть с пробелом.
  
  Попробуйте добавить вашу запись (Disallow: /*#comment-*) и проверить Роботс через Яндекс.Вебмастер. Добавьте запись в Роботс, зайдите в ЯВМ, раздел «Инструменты» — «Анализ robots.txt» и проверьте доступность этих ссылок-дубликатов.
  
  Ответить
Навигатор написал(а) 30.09.2019

Было бы замечательно, если бы в статье было разъяснение для чего нужно закрывать некоторые папки. В частности меня интересуют папки /cgi-bin и /wp-

Ответить
- Alexander Wayne написал(а) 30.09.2019
  
  Их закрывают, чтобы технические страницы не попадали в поиск. Скрипты, файлы со стилями и т . д.
  
  Ответить
Альберт написал(а) 30.09.2019

# Что скажите про мой роботс.тхт от плагина All in One SEO Pack:

User-agent: Yandex
Allow: /yandex/news/ # установлен плагин Yandex.News Feed by Teplitsa

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php # вордпресс рекомендует индексировать

User-agent: Yandex
Disallow: /*wp-admin* # админ
Disallow: /*wp-includes* # папки и подпапки includes
Disallow: /*plugins* # папки и подпапки плагина
Disallow: /*cache* # папки и подпапки кеша
Disallow: /*author* # нашел в яндекс метрики на страницы входа
Disallow: /*?fbclid=* # страницы поиска от темы кассандра
Disallow: /*?_gl=* # нашел в яндекс метрики на страницы входа
Disallow: /*?amp* # установлен плагин AMP нашел в яндекс метрики на страницы входа
Disallow: /*?s=* # страница поиска от вордпресс
Allow: /*.css* # css файлы
Allow: /*.js* # ява скрипты
Allow: /*uploads* # папку и подпапки фотографий

User-agent: YandexDirect
Allow: / # разрешил рекламу от яндекс директ

Ответить
- Alexander Wayne написал(а) 30.09.2019
  
  Зачем два раза User-Agent: Yandex? — код с открытием фида нужно поместить после «Allow: /*uploads* # папку и подпапки фотографий»
  
  Ответить
  - Альберт написал(а) 01.10.2019
    
    Плагин All in One SEO Pack сразу же после активации его блока роботс.тхт прописал вот так (см. ниже) и изменить эту запись уже невозможно.
    
    User-agent: Yandex
    Allow: /yandex/news/
    
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    
    Когда прописываю Disallow и Allow: в User-agent: * это как мы знаем для всех ботов при проверке в Яндекс вебмастере где есть инструмент Анализ robots.txt, выходит ошибка. Если прописать Disallow и Allow: в User-agent: Yandex, как в примере (см. выше) то ошибку не выдает. И также плагин All in One SEO Pack не позволяет прописать рекомендации Disallow и Allow: отдельно дважды для каждого поисковика User-agent: * и User-agent: Yandex. То есть дважды не разрешает плагин повторять рекомендации Disallow и Allow. По-моему, поисковик Гугла не индексирует «мусорные» повторяющиеся с одинаковым контентом, но с разными url страницы и не учитывает запреты Disallow: в роботс.тхт. Выходит роботу Гугла все равно ставите вы запреты или нет, а робот Яндекса учитывает роботс.тхт. В Яндекс метрики где «страницы входа» у меня на сайтах есть мусорные страницы и их нужно закрывать, что я и проделал (см. выше) пример моего роботс. тхт. У меня возникает вопрос, стоит ли прописать рекомендации только в User-agent: * и, игнорировать ошибку в Яндекс инструменте Анализ robots.txt либо оставить мой роботс.тхт, как есть (см. выше) в комментарии?
    
    Ответить
Сергей написал(а) 18.10.2019

Спасибо. Но у меня гугл ругается на то, что в Роботс закрыт фид: Disallow: /feed
Search Console has identified that your site is affected by 1 Coverage issues:
Top Warnings
Вот скрин (ссылка удалена)
Так что, получается открывать фид в роботс?

Ответить
- Alexander Wayne написал(а) 18.10.2019
  
  Да, для Гугла можете открыть (просто убрать строчку эту).
  
  Ответить
Андрей написал(а) 12.01.2020

Здравствуйте! Спасибо за статью. А «license.txt» тоже может закрыть надо?

Ответить
Анисимова написал(а) 13.01.2020

Караул. А кто мне сделает няшную карту сайта? Есть для этого правильный плагин забисплатно?

Ответить
- Сайтотворец написал(а) 24.03.2020
  
  All in Seo Pack в помощь!
  Аднафамилица
  
  Ответить
Евгений написал(а) 27.01.2020

Доброго времени суток. Подскажите пожалуйста, я воспользовался расширенным ribots.txt для wp и при сканировании страницы в Google search выскакивает следующие:
Роботу Googlebot заблокирован доступ в файле robots.txt
Скрипт
https://mc.yandex.ru/metrika/tag.js

Так и должно быть или в чем-то проблема?

P.S сильно не пугайте за глупые вопросы

Ответить
Виталий написал(а) 11.02.2020

почему для яндекс утм не закрыли?

Ответить
Олег написал(а) 17.05.2020

Здравствуйте!

Воспользовался вашим Robots.txt
Добавил сайт в гугл и яндекс. Через несколько дней с Google Search Console пришло письмо предупреждение
«Проиндексировано, несмотря на блокировку в файле robots.txt»
Как выяснилось проиндексированы три страницы:
tag/vremya
tag/zhizn
tag/rost
Но почему гугл их проиндексировал, если они закрыты в robots.txt?
Подскажите пожалуйста как мне исправить эту проблему?

Ответить
- Alexander Wayne написал(а) 17.05.2020
  
  Добрый день!
  
  Есть несколько вариантов:
  
  1) Вы можете открыть /tag/ для Гугла (то есть удалить строчку), и тогда Гугл будет индексировать теги и эта ошибка исчезнет. Насколько я знаю, то наличие таких страниц в Гугле не дают негативных последствий (поэтому Гугл и индексирует их, даже несмотря на блокировку в файле).
  2) Вы можете закрыть эти страницы с помощью тега noindex nofollow через настройки Yoast SEO (если он у вас установлен).
  3) Можно удалить эти страницы с помощью функционала Search Console (в боковом меню — Удаления). Так делать НЕ рекомендую, потому что смысла не очень много (возможно страницы опять будут залетать).
  
  Ответить
  - Олег написал(а) 18.05.2020
    
    Так и сделал, открыл /tag/ и с помощью плагина SEO Rank Math закрыл эти страницы от индексации
    Ещё раз спасибо за информацию!
    
    Ответить
Дмитрий написал(а) 19.05.2020

Добрый день! Ставлю последний робот себе на сайт, посмотрю как пойдут дела у Яндекса. Все вылетело из-за смены названия сайта. Никто не объяснит, когда вернется все на позиции

Ответить
Олег написал(а) 19.05.2020

Alexander Здравствуйте!
Ещё один вопрос:
скажите, что это за параметр в robots
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
??
При проверке в Гугл вебмастера у меня выдало ошибку на этих двух директивах.
Они обязательно нужны в роботсе?

Ответить
- Олег написал(а) 20.05.2020
  
  Вопрос про Clean-Param больше не актуален, прочитал комментарий выше.
  
  Ответить
ilyaz написал(а) 25.07.2020

Если мы используем ваш ротоб то нужен ли плагин Google XML Sitemap Generator ?

Ответить
Иван написал(а) 31.07.2020

Чел, спасибо огромное. Но я пока что совсем нулёвый, потому вот такой вопрос: А не должен ли я заменить https на http в определённых пунктах, если ещё не перешёл на защищённое соединение?

Ответить
- Alexander Wayne написал(а) 31.07.2020
  
  Все правильно, должен. Потом ток не забудь заменить обратно на https.
  
  Ответить
Mercury-9 написал(а) 25.09.2020

/wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif

svg-те сразу нет, шрифты наверняка там же.
А потом горе-seoшники жалуются, что фавиконки не читаются

Ответить
- Александр Смирнов написал(а) 25.09.2020
  
  Не использую этот формат, но согласен, можно добавить правила для svg, webp, pdf.
  
  Ответить
  - Владимир написал(а) 03.05.2022
    
    А что если у меня большинство изображений не имеют в названии префикса «wp-*» ??? Как тогда правильно открывать графику для индексации ?
    
    Ответить
    - Александр Смирнов написал(а) 03.05.2022
      
      Это не так работает. Тут прописаны правила, чтобы в папках, которые начинаются с wp- (а так начинаются все папки с контентом по-умолчанию в WordPress) индексировались файлы с указанными форматами.
      
      То есть без разницы какие названия имеют сами изображения, они все равно будут индексироваться.
      
      Ответить
Сергей написал(а) 03.02.2021

Здравствуйте. Сейчас на моём сайте висит уведомление от All in One SEO:
«Обнаружен физический файл Robots.txt
8 дней назад
AIOSEO обнаружила физический файл robots.txt в корневой папке вашей установки WordPress. Мы рекомендуем удалить этот файл, так как он может вызвать конфликт с динамически созданным файлом WordPress. AIOSEO может импортировать этот файл и удалить его, или вы можете просто удалить его.»
Подскажите что мне с этим делать?

Ответить
- Александр Смирнов написал(а) 03.02.2021
  
  Добрый день. Нужно просто удалить файл robots.txt через файловый менеджер — в ПУ хостинга, либо просто удалите файл через плагин All In One SEO, если есть такая возможность.
  
  Ответить
  - Ирина написал(а) 24.05.2021
    
    Спасибо за статью.
    Можно еще вопрос?
    Как закрыть для индексации страницы типа:
    /page.php?ID=377
    
    Ответить
    - Александр Смирнов написал(а) 24.05.2021
      
      Здравствуйте.
      
      Disallow: /page.php?ID=* — как вариант.
      
      Ответить
Дмитрий написал(а) 10.10.2021

Спасибо вам за статью, пересмотрел достаточно статей у вас самая актуальная. 5+++

Ответить
михаил написал(а) 17.10.2021

Интересная статья

Ответить
Платон написал(а) 30.10.2021

Добрый вечер
Не увидел в предложенном варианте директивы Disallow: */page
Очень часто рекомендуют закрывать для избежания дублей. Как можете прокомментировать причину отсутствия в вашем варианте?

Ответить
- Александр Смирнов написал(а) 31.10.2021
  
  Обычно я закрываю пагинацию через Canonical или noindex с помощью Clearfy Pro. Но можно и так, через роботс.
  
  Ответить
Александр написал(а) 19.12.2021

Здравствуйте!
Вот я новичок и немного путаюсь во всех сложностях создания.
Как-то проходил курс по созданию сайтов и автором был предложен следующий robots.txt.

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

# РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap
Sitemap: https://домен.ру/sitemap_index.xml
Host: aleksryasnoy.ru

Несколько отличается от предложенного Вами варианта. Но при проверке в Вебмастере – ошибок 0. Может имеется в виду ошибки орфографические или грамматические?
А вот что это такое: # РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap

Ещё в плагине Clearfy , но не PRO
При активации создайте правильный robots.txt — кнопка ВКЛ, и в поле появляется:
User-Agent: *
Host: https://домен.ру

А при нажатии на знак вопроса пишет, что плагин автоматически создает идеальный robots.txt. Это и есть автоматически созданный?

Буду благодарен за ваш ответ.
с уважением Александр.

Ответить
- Александр Смирнов написал(а) 20.12.2021
  
  Добрый день!
  Ваш вариант неплох, его можно использовать.
  # РЈРєР°Р¶РёС‚Рµ С„Р°Р№Р» Sitemap — закомментированный комментарий, который не нужен роботам, обычно используется для того, чтобы указать за что отвечает конкретная строчка. Его можно удалить.
  Директива Host: (домен) сейчас уже не актуален, его тоже можно удалить.
  Плагин Clearfy создает плохой вариант robots.txt, в котором нет ничего. Может это ошибка какая-то, лучше выключить и вручную вставить строчки в robots через Yoast SEO или что-то еще.
  
  Ответить
Пётр написал(а) 15.01.2022

Здравствуйте подскажите пожалуйста к примеру я в файл роботс хочу поставить данные яндекса, и гугл прописывать Sitemap нужно отдельно для яндекса и гугл, или можно вконце прописать ?

Ответить
Vlad написал(а) 23.03.2022

Зачем разрешать Allow: /*/*.js и Allow: /*/*.css ?
Там же нет контента который будет чувствовать в поиске.

Ответить
Петька написал(а) 07.04.2022

Я много читал и в итоге составил по другому. Но не пойму немного, если настройки для всех роботов одни, то можно User-agent: * заполнить и все? Или обязательно надо Яндекс и Гугл дублировать команды?

Ответить
- Александр Смирнов написал(а) 07.04.2022
  
  Да, можно оставить только User-agent: *
  
  Ответить
Андрей написал(а) 18.08.2022

Впервые нашёл адекватный и полный robots.txt, но к меня вопрос относительно карты сайта и как быть с ней…
Дело в том, что Yoast SEO генерирует (как я понимаю вирутальную карту) sitemap_index.xml, а стандартная sitemap.xml, которая обычно помещается в корневую папку сайта.
Но как быть в этом случае? Нужно ли sitemap.xml помещать в корневу папку и, если нужно, то в robots.txt прописывать две карты сайта или только sitemap_index.xml ?

Ответить
- Александр Смирнов написал(а) 19.08.2022
  
  Думаю, можно оставить только карту сайта от yoast seo, и ее прописать в роботсе. Я так и делаю на всех своих проектах.
  
  Ответить
  - Андрей написал(а) 20.08.2022
    
    А в корневой папке сайта нужно ли создавать классический sitemap.xml ? Но, как я понимаю, хуже от этого не будет… Или какой-то возможен конфликт?
    
    Ответить
Владимир написал(а) 11.07.2023

А для чего надо закрывать все папки Disallow: /….. по отдельности??
Одна строка — Disallow: / — не работает?
Если мы делаем:
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
Disallow: /cgi-bin
Disallow: /? и так далее…,
то почему не сделать (работает ли этот способ??) просто — Юзер-агент:* закрыть:/ и всё. почему так не работает?

Ответить
- Александр Смирнов написал(а) 12.07.2023
  
  Disallow: / — закроет вообще весь сайт от индексации, его не будет в поиске.
  
  Ответить
Сергей написал(а) 10.11.2023

Смешно — у этого сайта робот короткий, почему вопрос ?
В статье пишите что вы используете длинный и всем рекомендуете, а сами используете короткий.

Ответить
- Александр Смирнов написал(а) 12.11.2023
  
  Старая статья, раньше использовал расширенный, сейчас поставил короткий. Поправлю.
  
  Ответить
Сергей написал(а) 03.03.2024

disallow: /tag/ — а это относится к рубрикам?

Ответить
- Александр Смирнов написал(а) 06.03.2024
  
  Нет, это «Теги» — отдельная таксономия вордпресса. Если они не используются, то можно не добавлять эту строчку в роботс.
  
  Ответить

Нажмите ESC чтобы закрыть

Что такое Robots.txt

Базовый Robots.txt для WordPress

Расширенный Robots.txt для WordPress

Заключение

Настройка WordPress после установки

Установка IPS Community Suite 4 (IPB4) на хостинг

Больше статей в рубрикеДля новичка

С какой суммы можно начать торговать на бирже и как: советы для начинающих

Как молодому парню зарабатывать от 100 тыс. рублей в месяц: легальные способы

ТОП-15 нейросетей для музыкантов: ИИ для работы с музыкой в 2024 году

Нейросети для работы с текстом и сайтами: подборка лучших и самых эффективных в 2024 году

Комментарии

Добавить комментарий Отменить ответ