ODP (DMOZ) неофициально: dmoz и 'Проект robots.txt'

23 сентября 2007 г.

dmoz и 'Проект robots.txt'

С легкой руки дяди Коли наткнулся на любопытнейшее исследование.

В двух словах. Товарищ Andrew Wooster взял базу Открытого Каталога (по его прикидкам, это около 4% Интернета), отпарсил ее, достав все домены (около 4,6 миллионов), а потом самописным пауком забрал с каждого домена robots.txt. Его мускульная база потянула на 12Гб.

Потом провел незатейливый анализ - если при запросе robots.txt сервер отдает 2хх - ОК, если 4хх - сакс. Код 200 отдали 1,2 миллиона сайтов, код 404 - 3 миллиона. Остальные 400 тысяч сайтов отдавали самую разнообразную петрушку. 21 сайт отдал код, о котором даже w3 Консорциум ничего не знает, типа 490 или 900.

Сводная таблица выглядит так:


Класс Количество Процентов
5xx 4,338 0.09
4xx 3,035,454 65.86
3xx 350,946 7.61
2xx 1,217,559 26.42
1xx 12 0.00
ХЗ 21 0.00

Ну и, натурально, начал глумиться над незадачливыми веб-мастерами и мастерицами.

Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.

Некоторые специалисты решили размещать свой robots.txt не в виде text, а чего-нибудь повеселее. Самыми частыми ошибками MIME Types были:

text/enriched

text/css

text/x-perl

text/vnd.wap.wml

Присутствуют перлы:

text/svg

Ну это лохи были. Теперь выступают настоящие мастера. Религиозные тексты, каталоги миди файлов, описания бассейнов, картинки... И, внимание (!) - сиськи (Миха, привет).

В общем, товарищ Andrew Wooster осмелился предположить, что Стандарт исключения слишком сложен для основной массы веб~~даунов~~мастеров. Отсутствие robots.txt означает, что вебмастер не знает о существовании роботов, и роботы должны держаться от него подальше (с).

2 комментария:

Анонимный комментирует...: Я не поленился полностью перевести - чего только в этот роботс не суют :); 23 сентября 2007 г. в 18:24
dmoze.blogspot.com комментирует...: Уважаю. Там еще есть исследование заголовков сервера, может быть сподоблюсь.; 23 сентября 2007 г. в 20:06

Отправить комментарий

ODP (DMOZ) неофициально

23 сентября 2007 г.

dmoz и 'Проект robots.txt'

2 комментария:

Дисклаймер

Подпишись на RSS

Форма для связи

Куда сходить

Блогролл

Архив

Разделы

Афтар

Кумиры молодежи

ODP (DMOZ) неофициально

23 сентября 2007 г.

dmoz и 'Проект robots.txt'

2 комментария:

Дисклаймер

Подпишись на RSS

Форма для связи

Куда сходить

Блогролл

Архив

Разделы

Афтар

Кумиры молодежи

23 сентября 2007 г.