Наверное иногда веб-мастеру или владельцу какого-нибудь ресурса нужно закрыть от индексации часть сайта, определенный файл или каталог.
Почти все роботы позволяют это сделать:
- - Разместить в корневой папке своего сайта текстовый файл robots.txt, выгладить будет так coder.v-tanke.ru/robots.txt
- Также это можно сделать в html файле используя специальный META тэг
- Использовать нестандартные приемы, работающие для конкретных поисковых роботов роботов. Например запретить роботу следовать по ссылке при помощи rel=”nofollow”(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).
Помните, что файл robots.txt нужно класть только в корневую директорию вашего сайта, и не забывайте, что название файла robots.txt должно быть написано в нижнем регистре.
Теперь давайте разберемся с содержимым файла robots.txt. Обычно в этом файле пишут, нечто похожее этому:
В этом примере запрещена индексация двух директорий сайта, это папка cgi-bin и папка download. Нужно помнить, что нужно писать каждую директорию с новой строчки, а не подряд.User-agent: *
Disallow: /cgi-bin/
Disallow: /download/
Строчка User-agent: * означает, что это относится ко всем поисковым роботам, но можно и указать самому поисковых роботов, которые должны соблюдать эти правила, например
Код: Выделить всё
User-agent: GOOGLE BOT
Если вы хотите полностью запретить свой сайт от индексации поисковыми роботами, напишите в файле robots.txt следующий код:
Это полностью запретит индексировать ваш сайт, и относится это будет ко всем поисковым роботам.User-agent: *
Disallow: /
Противоположный пример предыдущему, здесь мы разрешаем индексировать сайт любому роботу:
Или вы можете просто создать пустой файл robots.txt, это тоже будет означать, что поисковые роботы могут индексировать ваш сайт без запретов и ограничений.User-agent: *
Disallow:
В этом примере показано как разрешить индексацию сайта одному роботу и запретить всем остальным роботам:
Здесь мы разрешили индексацию сайта, только одному поисковому роботу, это Rambler (http://www.rambler.ru)User-agent: Rambler
Disallow:
User-agent: *
Disallow: /
Если вам нужно запретить в индексации определенные файлы, например страничку aboutme.htm или passwords.html и.т.п,для этого воспользуйтесь следующим кодом:
Здесь мы запретили к индексации три файла, это: aboutme.htm, passwords.html, icq.txt, вы можете указать больше файлов.User-agent: *
Disallow: /aboutme.htm
Disallow: /passwords.html
Disallow: /icq.txt
Но стоит учитывать, что файл robots.txt смотрят не только боты, но и хакеры, которые с помощью него могут вычислить расположение админок и других системных папок, если вы опишите запрет их индексации.
В самом начале я говорил, что индексацией своего сайта можно управлять через специальные META тэги, пора о них поговорить. Итак, существуйте два атрибута META тэга, которые за это отвечают, это NOFOLLOW и NOINDEX. Рассмотрите два примеры с применением META тэгов.
В этом случае документ не будет проиндексирован. Напомню эту строчку надо вставлять в свою страничку, вы можете указывать для каждой странички свои значения META тэгов.
Данная страничка будет проиндексирована поисковым роботом, но он не будет переходить по ссылкам, которые находятся на этой странички.<META NAME=”ROBOTS” CONTENT=”NOINDEX”>
<META NAME=”ROBOTS” CONTENT=”NOFOLLOW”>
На этом все, думаю вы разберетесь с этим файлом! Удачи!
первоначальный источник http://flashripper.net/2007/10/22/rabot ... tstxt.html