Итак... мной и программистами нашей компании (Analog-group) был получен крайне ценный материал для исследований, а именно было скачано 1921562 главных страницы сайтов рунета. Всего, на момент скачивания в российском сегменте интернета было 2188475 сайтов, из них с 266913-ти сайтов не было получено содержание, по причине недоступности сайтов или их неделегированностью. На текущий момент по данным Stat.nic.ru в рунете зарегистрировано 2226799 доменов из них делегировано 2020838. Я выражаю благодарность моему колеге Jelu, за предоставление серверных мощностей под эту задачу.
Под главной страницей сайта понимается страница скачанная запросом типа "GET http://domain.ru/" или последующие страницы при наличие server-side редиректов. Т.е. если страница domain.ru перебрасывает хидером Location: на страницу http://www.domain.ru/index.html (а та ещё куда-нибудь перебрасывает) главной страницей считается последняя.
Когда меня спрашивают зачем же мне это скачивать мне становится скучно. Я рассчитываю получить следующие статистические данные:
- использование Gzip в рунете
- использование Doctype
- использование популярных CMS, таких как Bitrix, Netcat, UmiCMS, по специфическим параметрам.
- типы документов (text/html, application/xml+xhtml и т.п.)
- код ответа сервера о статусе страниц (200, 404, 301 и т.п.)
- кодировки возвращаемые сервером (text/html; charset=windows-1251)
- кодировки записанные в теге <meta http-equiv>
- поддержку Last-Modified: и Etag: хидеров
- вообще спектр разнообразных хидеров
Статистика из такого объёма данных собирается медленно, но я планирую закончить за неделю. Поэтому следите за блогом, в процессе сбора я буду публиковать результаты и указывать ссылки на них этой статье (в списке выше).
Комментарии: