Как делается с помощью файла robots.txt запрет индексации страниц на сайте?
Добрый день!
Данная задача решается с помощью команды Disallow.
Приведу конкретные примеры:
1. Если нужно закрыть конкретные страницы (например, адрес RSS ленты):
[code]
User-agent: *
Disallow: /page1.html
Disallow: /posts/page2.html
[/code]
2. Если нужно закрыть раздел сайта — на примере раздела posts закроем саму страницу сайт.ру/posts + все страницы типа сайт.ру/posts/page1.html, сайт.ру/posts/page2.html и т.д.:
[code]
User-agent: *
Disallow: /posts/
[/code]
3. Если нужно закрыть все страницы или разделы (папки), в названии которых встречается слово ‘posts’:
[code]
User-agent: *
Disallow: posts
[/code]
4. Если нужно закрыть динамически генерирующиеся страницы, имеющие адрес сайт.ру/?page=xxx:
[code]
User-agent: *
Disallow: /*?page*
[/code]
5. Если нужно с помощью robots txt запретить индексацию сайта целиком (да, порой и такое требуется):
[code]
User-agent: *
Disallow: /
[/code]
Также более подробно про файл robots txt можно почитать в моей статье по указанной ссылке.
В качестве дополнительной меры можно также использовать мета-тег, если движок позволяет его разместить на отдельных страницах (для WordPress, в частности, это делает плагин All in Seo Pack):
[code]
<meta name="robots" content="noindex">
[/code]
В целом, запрет от индексации — очень важная вещь в поисковой оптимизации, так как большинство движков сейчас создают страницы, на которых дублируется один и тот же контент, и эти дубли очень важно закрывать вышеописанными методами.