Извините что так долго ничего не писала, пришлось много работать, ну и отдыхать тоже много. Но наконец со всеми косяками статистика использования доктайпов собралась. Напомню что я рассматриваю 1921562 главных страницы сайтов рунета. Из них gzip оказался кривым у примерно 20000 сайтов, из них 216 сайтов намертво вешали скрипт, что сильно задержало распознавание.
Однако результаты статистики вполне нормальные, доктайп содержится примерно на половине всех сайтов рунета (959587 сайтов).
Не содержат доктайп 940614 сайтов.
Из них тегом <html> начинаются 850255 сайтов, ниже теги стоявшие в начале более чем у 500 сайтов:
850255|<html> 12494|<style type="text/css"> 11282|<head> 5252|<html xmlns="http://www.w3.org/1999/xhtml"> 5105|<br> 4381|<br /> 3888|<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> 3421|<html xmlns="http://www.w3.org/tr/rec-html40" xmlns:xf="http://www.w3.org/2002/08/xquery-functions"> 2577|<html dir="ltr"> 2537|<title> 2243|<h1> 1989|<script> 1539|<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns="http://www.w3.org/tr/rec-html40"> 1517|<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns="http://www.w3.org/tr/rec-html40"> 1203|<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:dt="uuid:c2f41010-65b3-11d1-a29f-00aa00c14882" xmlns="http://www.w3.org/tr/rec-html40"> 1002|<script type="text/javascript"> 953|<script language="javascript"> 902|<meta http-equiv="content-type" content="text/html; charset=windows-1251"> 759|<html lang="ru"> 714|<center> 700|<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/tr/rec-html40"> 699|<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ru" lang="ru"> 686|<body>
Общий список и различных начальных тегов и доктайпов весьма велик.
Насчитано 4834 варианта доктайпа и 14000 начальных тега отличных от него. Изобретательные вебмастера пишут что хотят. Например совершенно чудесно объявление доктайп сайта www.tdconst.ru:
<!doctype html public "производство бумажных полотенец туалетной бумаги" "http://www.tdconst.ru/index.html">
оно как ни странно считается валидным в мозилле, однако показывает что бумажные полотенца у вебмастера в голове.
10 самых распространённых вариантов doctype:
474974|<!doctype html public "-//w3c//dtd xhtml 1.0 transitional//en" "http://www.w3.org/tr/xhtml1/dtd/xhtml1-transitional.dtd"> 116844|<!doctype html public "-//w3c//dtd html 4.01 transitional//en"> 84897|<!doctype html public "-//w3c//dtd html 4.01 transitional//en" "http://www.w3.org/tr/html4/loose.dtd"> 82278|<!doctype html public "-//w3c//dtd xhtml 1.0 strict//en" "http://www.w3.org/tr/xhtml1/dtd/xhtml1-strict.dtd"> 69550|<!doctype html public "-//w3c//dtd html 4.0 transitional//en"> 41214|<!doctype html public "-//ietf//dtd html 2.0//en"> 20801|<!doctype html public "-//w3c//dtd html 4.01//en" "http://www.w3.org/tr/html4/strict.dtd"> 18250|<!doctype html public "-//w3c//dtd html 3.2 final//en"> 16414|<!doctype html public "-//w3c//dtd xhtml 1.1//en" "http://www.w3.org/tr/xhtml11/dtd/xhtml11.dtd"> 4182|<!doctype html public "-//w3c//dtd html 4.01 transitional//en" "http://www.w3c.org/tr/1999/rec-html401-19991224/loose.dtd">
Обратите внимание что второй по популярности тег - является невалидным. Что очень похоже на результаты фокус группы собранные месяц назад.
Вёрстку типа Strict используют всего 4% всех вебмастеров, и около 8% от вебмастеров использующих доктайп.
Доктайп стандарта html5 "<!doctype html>" находится на 23м месте по распространённости, его используют 493 сайта.
P.S. Если кому-то нужны будут более подробные данные просьба связаться со мной. Например через книгу отзывов.
Комментарии:
SelenIT
09.08.2009 17:48:38
Елена
09.08.2009 18:14:31
SelenIT
10.08.2009 09:58:09