Разведение и
содержание пауков.
Что произойдет,
если подсунуть роботу поисковой системы
незащищенный сайт? Правильно, он сделает свое
черное дело :)
У вас есть шанс увернуться от него, избежать его
путешествий! Но если у вас нет маленького
текстового файлика в корневом каталоге сервера,
ваш сайт может стать таким же доступным, как
Клаудиа Шиффер в прозрачном полиэтиленовом
бикини.
Поисковые системы типа Excite или Altavista используют
веб-пауки, также известных как роботы, для того,
что бы создавать индексы в их базах данных. Эти
роботы прочесывают каталоги HTML файлов, загружая
страницы одну за другой по обычным ссылкам на них,
и обновляя базу, в зависимости от того какую
текстовую или meta-информацию они нашли.
Далее — для таких же как я противников того, что
какое-то там виртуальное насекомое будет
неконтролируемо лазить по вашим файлам. Это
чуток смахивает на муравьёв под брюками —
незабываемые ощущения, но все-таки хочется как-то
контролировать ситуацию. Это можно делать с
помощью специального файла.
К файлу robots.txt обращается каждый уважающий себя
паук перед тем как отправиться в путешествие; в
нем указано, как именно следует каталогизировать
ваш сайт. Это должен быть текстовый файл ASCII,
лежащий в корневой директории сервера. Обычно
это директория, где расположена «домашняя»
страничка. Файл определяет, какие директории и
файлы пауку индексировать нельзя.
Протокол ограничения действий робота был
представлен Мартином Костером в 1994 году для
решения проблемы веб-пауков при том, что их
популярность тогда резко возрастала. Страшна,
прежде всего, ресурсная проблема — поскольку
роботы слабо контролируемы, они стреляли
запросами как из пулемета. Естественно, сервера
пытались с такой же скоростью «отдавать» файлы.
Другая проблема — в том, что роботы при
индесировании информации глубоко зарывались в
дерево каталогов, доставая даже до cgi-скриптов.
Протокол этот быстро нашел поддержку среди веб-разработчиков
как метод организации процесса индексирования.
С тех пор размеры интернета поразительно
увеличились, теперь его используют миллионы
людей. А веб-пауков только прибавилось. И сейчас,
как никогда, всем веб-разработчикам необходимо
иметь правильнонаписанный файл robots.txt .
В синтаксисе этого файла есть свои ньюансы. Если
все должно работать безотказно и не позволять
роботам смотреть на «служебные» страницы, вам
следует быть предельно внимательными, что б не
допустить *ни одной* ошибки или опечатки. В
завершенном robots.txt фактически не на что смотреть,
но если у вас сложный сайт можете пойти по
легкому пути и принять первокласную помощь,
которую вам предлагает RoboGen на http://www.rietta.com/robogen/
. Он хорош для Windows9x, но, на момент написания
статьи, под WindowsNT он не запускался.
RoboGen распространяется в двух версиях: полная и
ограниченная. Ограниченная (Limited) — это голый
скелет: она просто создает файлы исключения
(robots.txt). В ней недостает возможности открытия
существующих файлов и авто-заливки их прямо на FTP
сервер. Полная (Standart) версия более функциональна.
Она делает все то же, что и ограниченная, плюс то,
чего она не делает. Это открытие существующих
файлов и заливка файлов на FTP сервер. Бесплатная
ознакомительная версия полной программы
доступна для загрузки, а стоимость программы
составляет всего $12.95. Довольно дешево для такого
инструмента!
Если вы предпочитаете держать деньги в кармане,
тогда можете разогревать пальцы — сейчас будем
стучать по клавиатуре, осваивая азы кодирования
— а почему бы и нет? Это не сложно - просто
кропотливо. Скорость набора тут, пожалуй, важнее,
чем познания в компьютерах.
Каждая секция включает в себя имя
пользовательской программы (робота) и пути,
которые он не должен видеть. Вы не знали, что у
поисковых пауков есть имена? Да — Сеть очень
дружественное место и многое называется не
своими первичными именами :)
У основных поисковых систем имена такие:
ALTA VISTA - Scooter, VScooter, Mercator
EXCITE - Architext
HOTBOT/AOL - Inktomi's Slurp
INFOSEEK - Sidewinder, Mozilla
LYCOS - T-Rex, Mozilla
INKTOMI - Slurp
GOOGLE - Backrub, Googlebot
N. LIGHT - Gulliver
WEBCRAWLER - Excites Architext
Вскоре вы сможете отметить, какой их этих ребят с
чувством юмора, а какой ведет скучный образ жизни.
Мне симпатичен Inktomi :) Думаю, я смог бы иметь дело с
этими ребятами.
Нужно помнить, что роботы могут получить *все*
доступные файлы, если они явно не запрещены в
вашем robots.txt . Разрешено все, что не запрещено.
Обычно, вы можете прочесть этот файл просто
сделав запрос из броузера, например:
www.mydomain.com/robots.txt . Вы увидите кодированый
текстовый файл, но очень пригодный для чтения.
Всё это документировано Стандартом Исключения
Страниц Роботами, и
все роботы должны понимать и уважать правила в
файле robots.txt .
Примеры:
User-agent:
*
Disallow:
Пояснение:
Звездочка (*) в поле User-agent это сокращения для "всем
роботам". Потому что разрешено все, что не
запрещено.
User-agent:
*
Disallow:
/cgi-bin/
Disallow:
/tmp/
Disallow:
/private/
Пояснение:
В примере, все роботы могут видеть все директории
за исключением трех упомянутых.
User-agent:
BadBot
Disallow:
/
User-agent:
*
Disallow:
/private/
Тут: Роботу с именем BadBot запрещено все. Пустая строка
означает новую «запись» - команда для нового
робота. Все остальные роботы могут видеть все, за
исключением папки private .
User-agent:
WeirdBot
Disallow:
/tmp/
Disallow:
/private/
Disallow:
/links/listing.html
User-agent:
*
Disallow:
/tmp/
Disallow:
/private/
Этот код предотвращает просмотр страницы
листинга, временной папки и папки private роботом
WeirdBot. Все остальные роботы видят все, кроме
временной папки и private . Если думаете, что этот код
неэффективен -- вы правы :)
Ок — это довольно полный обзор концепции robots.txt .
Но перед тем как вы сорветесь с места в поисках
старого верного текстового редактора и напишете
свой супер модный контроллер роботов третьего
тысячелетия, есть одна очень, очень важная вещь
касаемо файлов robots.txt , особенно для тех, у кого
коммерческие веб-сайты или другая совершенно
секретная информация.
Как обычный коммерческий сайт вы можете
предлагать загрузить покупку со страницы после
ее оплаты. Понятно, что вы не хотите, что б пауки
лазили по таким страницам — если вы, конечно, не
хотите, что бы можно было бесплатно скачать вашу
продукцию с поисковой машины. Это нехорошо для
бизнеса — для счетчика скачиваний хорошо, а для
бизнеса — нехорошо. :) И вы честно пропишите все
эти адреса в robots.txt что бы избежать проблем, но...
Большое количество людей уже знают об этом robots.txt
файле... Некоторые не-очень-хорошие-гады подумают:
«Зачем платить? Я ж могу просто набрать в
броузере: http://www.yoursite.com/robots.txt »
Оййй! Очень чувствительный пункт из robots.txt теперь
открыт глазам всех. Любой может просто
перенаправить броузер в указанную директорию и,
зачастую, скачать программу бесплатно. Опять —
нехорошо для бизнеса, мои друзья!
Вот оно, решение.
Перестаньте беспокоиться о robots.txt . Наоборот,
перечислите все секретные папки, которые там и
должны быть — это для защиты от их
индексирования поисковыми движками. Но
убедитесь, что все файлы находятся в нессылаемых
неизвестных поддиректориях или, еще надежнее,
защищены CGI скриптом.
Если вы используете менее безопасный вариант с
неупомянутыми подпапками, не забудьте вставить в
коренную (ту, которую вы прописали в robots.txt ,
страничку index.html. Иначе сервер (с настройками по
умолчанию) покажет полный листинг файлов и
директорий. В самом index.html можно написать все, что
угодно.
Это может быть простенький html файл, который
сообщает посетителям, что им не разрешено
смотреть в эту подпапку, или можно сделать html
файл с перенаправлением на другую страницу. Но
запомните, никогда не давайте людям листинг чего-либо
в директории, не разместив index.html в какой бы это ни
было директории — это очень плохая привычка.
Пожалуйста, не делайте так *нигде*. Рано или
поздно это приведет к неприятностям.
Если сайт не коммерческий, все что оказывается в
robots.txt — только для косметических поправок или в
целях приватности. Понятно, это важные вещи, но на
коммерческом сайте мы говорим о потере денег —
куда более серьезно!
Если вы все это еще на воплотили в жизнь, тогда
маленький, старый и седой robots.txt должен получить
долю и вашего внимания в не очень отдаленном
будущем. Вы не пожалеете о проведенном времени.
Это я вам обещаю :) |