Разведение и содержание пауков.

Разведение и содержание пауков.

Что произойдет, если подсунуть роботу поисковой системы незащищенный сайт? Правильно, он сделает свое черное дело :)

У вас есть шанс увернуться от него, избежать его путешествий! Но если у вас нет маленького текстового файлика в корневом каталоге сервера, ваш сайт может стать таким же доступным, как Клаудиа Шиффер в прозрачном полиэтиленовом бикини.

Поисковые системы типа Excite или Altavista используют веб-пауки, также известных как роботы, для того, что бы создавать индексы в их базах данных. Эти роботы прочесывают каталоги HTML файлов, загружая страницы одну за другой по обычным ссылкам на них, и обновляя базу, в зависимости от того какую текстовую или meta-информацию они нашли.

Далее — для таких же как я противников того, что какое-то там виртуальное насекомое будет неконтролируемо лазить по вашим файлам. Это чуток смахивает на муравьёв под брюками — незабываемые ощущения, но все-таки хочется как-то контролировать ситуацию. Это можно делать с помощью специального файла.

К файлу robots.txt обращается каждый уважающий себя паук перед тем как отправиться в путешествие; в нем указано, как именно следует каталогизировать ваш сайт. Это должен быть текстовый файл ASCII, лежащий в корневой директории сервера. Обычно это директория, где расположена «домашняя» страничка. Файл определяет, какие директории и файлы пауку индексировать нельзя.

Протокол ограничения действий робота был представлен Мартином Костером в 1994 году для решения проблемы веб-пауков при том, что их популярность тогда резко возрастала. Страшна, прежде всего, ресурсная проблема — поскольку роботы слабо контролируемы, они стреляли запросами как из пулемета. Естественно, сервера пытались с такой же скоростью «отдавать» файлы.

Другая проблема — в том, что роботы при индесировании информации глубоко зарывались в дерево каталогов, доставая даже до cgi-скриптов. Протокол этот быстро нашел поддержку среди веб-разработчиков как метод организации процесса индексирования.

С тех пор размеры интернета поразительно увеличились, теперь его используют миллионы людей. А веб-пауков только прибавилось. И сейчас, как никогда, всем веб-разработчикам необходимо иметь правильнонаписанный файл robots.txt .

В синтаксисе этого файла есть свои ньюансы. Если все должно работать безотказно и не позволять роботам смотреть на «служебные» страницы, вам следует быть предельно внимательными, что б не допустить *ни одной* ошибки или опечатки. В завершенном robots.txt фактически не на что смотреть, но если у вас сложный сайт можете пойти по легкому пути и принять первокласную помощь, которую вам предлагает RoboGen на http://www.rietta.com/robogen/ . Он хорош для Windows9x, но, на момент написания статьи, под WindowsNT он не запускался.

RoboGen распространяется в двух версиях: полная и ограниченная. Ограниченная (Limited) — это голый скелет: она просто создает файлы исключения (robots.txt). В ней недостает возможности открытия существующих файлов и авто-заливки их прямо на FTP сервер. Полная (Standart) версия более функциональна. Она делает все то же, что и ограниченная, плюс то, чего она не делает. Это открытие существующих файлов и заливка файлов на FTP сервер. Бесплатная ознакомительная версия полной программы доступна для загрузки, а стоимость программы составляет всего $12.95. Довольно дешево для такого инструмента!

Если вы предпочитаете держать деньги в кармане, тогда можете разогревать пальцы — сейчас будем стучать по клавиатуре, осваивая азы кодирования — а почему бы и нет? Это не сложно - просто кропотливо. Скорость набора тут, пожалуй, важнее, чем познания в компьютерах.

Каждая секция включает в себя имя пользовательской программы (робота) и пути, которые он не должен видеть. Вы не знали, что у поисковых пауков есть имена? Да — Сеть очень дружественное место и многое называется не своими первичными именами :)

У основных поисковых систем имена такие:

ALTA VISTA - Scooter, VScooter, Mercator
EXCITE - Architext
HOTBOT/AOL - Inktomi's Slurp
INFOSEEK - Sidewinder, Mozilla
LYCOS - T-Rex, Mozilla
INKTOMI - Slurp
GOOGLE - Backrub, Googlebot
N. LIGHT - Gulliver
WEBCRAWLER - Excites Architext

Вскоре вы сможете отметить, какой их этих ребят с чувством юмора, а какой ведет скучный образ жизни. Мне симпатичен Inktomi :) Думаю, я смог бы иметь дело с этими ребятами.

Нужно помнить, что роботы могут получить *все* доступные файлы, если они явно не запрещены в вашем robots.txt . Разрешено все, что не запрещено. Обычно, вы можете прочесть этот файл просто сделав запрос из броузера, например: www.mydomain.com/robots.txt . Вы увидите кодированый текстовый файл, но очень пригодный для чтения.

Всё это документировано Стандартом Исключения Страниц Роботами, и
все роботы должны понимать и уважать правила в файле robots.txt .

Примеры:

User-agent: *
Disallow:

Пояснение:
Звездочка (*) в поле User-agent это сокращения для "всем роботам". Потому что разрешено все, что не запрещено.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Пояснение:
В примере, все роботы могут видеть все директории за исключением трех упомянутых.

User-agent: BadBot
Disallow: /

User-agent: *
Disallow: /private/

Тут: Роботу с именем BadBot запрещено все. Пустая строка означает новую «запись» - команда для нового робота. Все остальные роботы могут видеть все, за исключением папки private .

User-agent: WeirdBot
Disallow: /tmp/
Disallow: /private/
Disallow: /links/listing.html

User-agent: *
Disallow: /tmp/
Disallow: /private/

Этот код предотвращает просмотр страницы листинга, временной папки и папки private роботом WeirdBot. Все остальные роботы видят все, кроме временной папки и private . Если думаете, что этот код неэффективен -- вы правы :)

Ок — это довольно полный обзор концепции robots.txt . Но перед тем как вы сорветесь с места в поисках старого верного текстового редактора и напишете свой супер модный контроллер роботов третьего тысячелетия, есть одна очень, очень важная вещь касаемо файлов robots.txt , особенно для тех, у кого коммерческие веб-сайты или другая совершенно секретная информация.

Как обычный коммерческий сайт вы можете предлагать загрузить покупку со страницы после ее оплаты. Понятно, что вы не хотите, что б пауки лазили по таким страницам — если вы, конечно, не хотите, что бы можно было бесплатно скачать вашу продукцию с поисковой машины. Это нехорошо для бизнеса — для счетчика скачиваний хорошо, а для бизнеса — нехорошо. :) И вы честно пропишите все эти адреса в robots.txt что бы избежать проблем, но...

Большое количество людей уже знают об этом robots.txt файле... Некоторые не-очень-хорошие-гады подумают: «Зачем платить? Я ж могу просто набрать в броузере: http://www.yoursite.com/robots.txt »

Оййй! Очень чувствительный пункт из robots.txt теперь открыт глазам всех. Любой может просто перенаправить броузер в указанную директорию и, зачастую, скачать программу бесплатно. Опять — нехорошо для бизнеса, мои друзья!

Вот оно, решение.

Перестаньте беспокоиться о robots.txt . Наоборот, перечислите все секретные папки, которые там и должны быть — это для защиты от их индексирования поисковыми движками. Но убедитесь, что все файлы находятся в нессылаемых неизвестных поддиректориях или, еще надежнее, защищены CGI скриптом.

Если вы используете менее безопасный вариант с неупомянутыми подпапками, не забудьте вставить в коренную (ту, которую вы прописали в robots.txt , страничку index.html. Иначе сервер (с настройками по умолчанию) покажет полный листинг файлов и директорий. В самом index.html можно написать все, что угодно.

Это может быть простенький html файл, который сообщает посетителям, что им не разрешено смотреть в эту подпапку, или можно сделать html файл с перенаправлением на другую страницу. Но запомните, никогда не давайте людям листинг чего-либо в директории, не разместив index.html в какой бы это ни было директории — это очень плохая привычка. Пожалуйста, не делайте так *нигде*. Рано или поздно это приведет к неприятностям.

Если сайт не коммерческий, все что оказывается в robots.txt — только для косметических поправок или в целях приватности. Понятно, это важные вещи, но на коммерческом сайте мы говорим о потере денег — куда более серьезно!

Если вы все это еще на воплотили в жизнь, тогда маленький, старый и седой robots.txt должен получить долю и вашего внимания в не очень отдаленном будущем. Вы не пожалеете о проведенном времени.
Это я вам обещаю :)