robots.txt

Ответить
Аватара пользователя
Distructor
Администратор
Сообщения: 1607
Зарегистрирован: 28.12.2009
В этой статей я постараюсь описать как можно управлять индексацией своего сайта с помощью одного файла robots.txt и что он представляет из себя.

Наверное иногда веб-мастеру или владельцу какого-нибудь ресурса нужно закрыть от индексации часть сайта, определенный файл или каталог.
Почти все роботы позволяют это сделать:
  • - Разместить в корневой папке своего сайта текстовый файл robots.txt, выгладить будет так coder.v-tanke.ru/robots.txt
    - Также это можно сделать в html файле используя специальный META тэг
    - Использовать нестандартные приемы, работающие для конкретных поисковых роботов роботов. Например запретить роботу следовать по ссылке при помощи rel=”nofollow”(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).
Следует помнить, что все эти методы не дают стопроцентной гарантии. Некоторые поисковые роботы могут попросту не обращать на них внимание.

Помните, что файл robots.txt нужно класть только в корневую директорию вашего сайта, и не забывайте, что название файла robots.txt должно быть написано в нижнем регистре.

Теперь давайте разберемся с содержимым файла robots.txt. Обычно в этом файле пишут, нечто похожее этому:
User-agent: *
Disallow: /cgi-bin/
Disallow: /download/
В этом примере запрещена индексация двух директорий сайта, это папка cgi-bin и папка download. Нужно помнить, что нужно писать каждую директорию с новой строчки, а не подряд.
Строчка User-agent: * означает, что это относится ко всем поисковым роботам, но можно и указать самому поисковых роботов, которые должны соблюдать эти правила, например

Код: Выделить всё

User-agent: GOOGLE BOT
Строчка Disallow: /cgi-bin/ запрещает индексировать папку cgi-bin, которая находится у вас на сервере

Если вы хотите полностью запретить свой сайт от индексации поисковыми роботами, напишите в файле robots.txt следующий код:
User-agent: *
Disallow: /
Это полностью запретит индексировать ваш сайт, и относится это будет ко всем поисковым роботам.

Противоположный пример предыдущему, здесь мы разрешаем индексировать сайт любому роботу:
User-agent: *
Disallow:
Или вы можете просто создать пустой файл robots.txt, это тоже будет означать, что поисковые роботы могут индексировать ваш сайт без запретов и ограничений.

В этом примере показано как разрешить индексацию сайта одному роботу и запретить всем остальным роботам:
User-agent: Rambler
Disallow:

User-agent: *
Disallow: /
Здесь мы разрешили индексацию сайта, только одному поисковому роботу, это Rambler (http://www.rambler.ru)

Если вам нужно запретить в индексации определенные файлы, например страничку aboutme.htm или passwords.html и.т.п,для этого воспользуйтесь следующим кодом:
User-agent: *
Disallow: /aboutme.htm
Disallow: /passwords.html
Disallow: /icq.txt
Здесь мы запретили к индексации три файла, это: aboutme.htm, passwords.html, icq.txt, вы можете указать больше файлов.
Но стоит учитывать, что файл robots.txt смотрят не только боты, но и хакеры, которые с помощью него могут вычислить расположение админок и других системных папок, если вы опишите запрет их индексации.

В самом начале я говорил, что индексацией своего сайта можно управлять через специальные META тэги, пора о них поговорить. Итак, существуйте два атрибута META тэга, которые за это отвечают, это NOFOLLOW и NOINDEX. Рассмотрите два примеры с применением META тэгов.

В этом случае документ не будет проиндексирован. Напомню эту строчку надо вставлять в свою страничку, вы можете указывать для каждой странички свои значения META тэгов.
<META NAME=”ROBOTS” CONTENT=”NOINDEX”>
Данная страничка будет проиндексирована поисковым роботом, но он не будет переходить по ссылкам, которые находятся на этой странички.
<META NAME=”ROBOTS” CONTENT=”NOFOLLOW”>


На этом все, думаю вы разберетесь с этим файлом! Удачи!

первоначальный источник http://flashripper.net/2007/10/22/rabot ... tstxt.html

Аватара пользователя
Distructor
Администратор
Сообщения: 1607
Зарегистрирован: 28.12.2009
Пример файла robots.txt для форума на phpBB3

Код: Выделить всё

User-Agent: *
Disallow: /search.php
Disallow: /memberlist.php
Disallow: /viewtopic.php?p=
Disallow: /faq.php
Allow: /
Небольшое пояснение:
Disallow: /memberlist.php
запрещает индексацию профилей и списка пользователей
Disallow: /viewtopic.php?p=
запрет индексации ссылок на конкретные сообщения

Ответить