Как делается с помощью файла robots.txt запрет индексации страниц на сайте?
Добрый день!
Данная задача решается с помощью команды Disallow.
Приведу конкретные примеры:
1. Если нужно закрыть конкретные страницы (например,
User-agent: * Disallow: /page1.html Disallow: /posts/page2.html
2. Если нужно закрыть раздел сайта — на примере раздела posts закроем саму страницу сайт.ру/posts + все страницы типа сайт.ру/posts/page1.html, сайт.ру/posts/page2.html и т.д.:
User-agent: * Disallow: /posts/
3. Если нужно закрыть все страницы или разделы (папки), в названии которых встречается слово ‘posts’:
User-agent: * Disallow: posts
4. Если нужно закрыть динамически генерирующиеся страницы, имеющие адрес сайт.ру/?page=xxx:
User-agent: * Disallow: /*?page*
5. Если нужно с помощью robots txt запретить индексацию сайта целиком (да, порой и такое требуется):
User-agent: * Disallow: /
Также более подробно про файл robots txt можно почитать в моей статье по указанной ссылке.
В качестве дополнительной меры можно также использовать мета-тег, если движок позволяет его разместить на отдельных страницах (для WordPress, в частности, это делает плагин All in Seo Pack):
<meta name="robots" content="noindex">
В целом, запрет от индексации — очень важная вещь в поисковой оптимизации, так как большинство движков сейчас создают страницы, на которых дублируется один и тот же контент, и эти дубли очень важно закрывать вышеописанными методами.
Спасибо.
Спасибо за интересную статью.