01 августа 2009 :Статистика рунета.Итак... мной и программистами нашей компании (Analog-group) был получен крайне ценный материал для исследований, а именно было скачано 1921562 главных страницы сайтов рунета. Всего, на момент скачивания в российском сегменте интернета было 2188475 сайтов, из них с 266913-ти сайтов не было получено содержание, по причине недоступности сайтов или их неделегированностью. На текущий момент по данным Stat.nic.ru в рунете зарегистрировано 2226799 доменов из них делегировано 2020838. Я выражаю благодарность моему колеге Jelu, за предоставление серверных мощностей под эту задачу. Под главной страницей сайта понимается страница скачанная запросом типа "GET http://domain.ru/" или последующие страницы при наличие server-side редиректов. Т.е. если страница domain.ru перебрасывает хидером Location: на страницу http://www.domain.ru/index.html (а та ещё куда-нибудь перебрасывает) главной страницей считается последняя. Когда меня спрашивают зачем же мне это скачивать мне становится скучно. Я рассчитываю получить следующие статистические данные:
Статистика из такого объёма данных собирается медленно, но я планирую закончить за неделю. Поэтому следите за блогом, в процессе сбора я буду публиковать результаты и указывать ссылки на них этой статье (в списке выше). |
Либо волшебно используйте ваш логин в Google, Яндекс, рамблер или ЖЖ чтобы войти через Open_ID

Комментарии: