Как делается с помощью robots txt запрет индексации?

Как делается с помощью файла robots.txt запрет индексации страниц на сайте?

Добрый день!

Данная задача решается с помощью команды Disallow.

Приведу конкретные примеры:

1. Если нужно закрыть конкретные страницы (например, адрес RSS ленты):

User-agent: *
Disallow: /page1.html
Disallow: /posts/page2.html

2. Если нужно закрыть раздел сайта — на примере раздела posts закроем саму страницу сайт.ру/posts + все страницы типа сайт.ру/posts/page1.html, сайт.ру/posts/page2.html и т.д.:

User-agent: *
Disallow: /posts/

3. Если нужно закрыть все страницы или разделы (папки), в названии которых встречается слово ‘posts’:

User-agent: *
Disallow: posts

4. Если нужно закрыть динамически генерирующиеся страницы, имеющие адрес сайт.ру/?page=xxx:

User-agent: *
Disallow: /*?page*

5. Если нужно с помощью robots txt запретить индексацию сайта целиком (да, порой и такое требуется):

User-agent: *
Disallow: /

Также более подробно про файл robots txt можно почитать в моей статье по указанной ссылке.

В качестве дополнительной меры можно также использовать мета-тег, если движок позволяет его разместить на отдельных страницах (для WordPress, в частности, это делает плагин All in Seo Pack):

<meta name="robots" content="noindex">

В целом, запрет от индексации — очень важная вещь в поисковой оптимизации, так как большинство движков сейчас создают страницы, на которых дублируется один и тот же контент, и эти дубли очень важно закрывать вышеописанными методами.

Если Вы нашли для себя что-то полезное на этой странице, пожалуйста, нажмите на одну из этих кнопок:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>