Яндекс.Цитирования сайтов рунета в 4-м квартале 2006 г.
Цели, задачи и методы
В конце декабря 2006 года оптимизаторские форумы, рассылки и курилки наполнились стонами о пересчете
Яндексом тИЦ в меньшую
сторону. Накопленные ранее данные позволяют увидеть всю картину целиком.
Получение индексов цитирование производилось все той же тысячей китайцев,
данные по тИЦ получены 1 января 2007 года.
Данные
Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня
в TLD .RU и .SU.
При анализе изменений тИЦ рассматривались домены с ненулевым значением этого
параметра, причем из рассмотрения были исключены зеркала (по данным Яндекса).
203 805 доменов с ненулевым тИЦ на октябрь 2006 и январь 2007 гг. Из них:
193 569 сайтов успешно ответили на декабрьский запуск черного квадрата.
10 236 сайтов затруднились с ответом: 400-е и 500-е ошибки, зацикленные редиректы и т.п.
14 067 доменов, с ненулевым тИЦ на октябрь 2006 и нулевым тИЦ на январь-2007 (возможно, часть
сайтов стала за прошедший квартал чьими-то зеркалами)
24 509 доменов с нулевым тИЦ на октябрь-2006 и ненулевым тИЦ на январь-2007
Общие метрики
Для начала хочется проверить гипотезу о всеобщем падении индексов цитирования. Если просто просуммировать
все индексы цитирования для "хороших" сайтов (ненулевой ТИЦ в октябре и январе, успешный ответ черному квадрату),
получим:
Сумма за октябрь-2006 для 193 569 доменов - 30 973 530
Сумма за январь-2007 для того же списка доменов - 23 388 165
Таким образом, массовое падение ТИЦ - произошло, среднее изменилось на 24% (или на 40 пунктов ТИЦ).
Включение в расчет новых сайтов (неизвестных яндексу на октябрь) картину практически не меняет,
суммарный ТИЦ по ним менее миллиона, суммарный ТИЦ на октябрь по сайтам, неизвестным в январе - 720 тысяч т.е.
прибавка и убавка почти скомпенсированы. Относительно общей суммы невелико и изменение суммарных индексов
цитирования.
Чтобы не смешивать разные группы сайтов, разберемся сначала с "хорошими", а потом со всеми остальными.
Хорошие сайты
Хорошими назовем сайты с которыми ничего ужасного не случилось:
положительный ТИЦ и в октябре и в январе;
успешный ответ "черному квадрату" в декабре.
Всего таких сайтов, как указано выше, 193 569 (как всегда, рассматриваем только домены 2-го уровня
в RU/SU).
Если посмотреть только на знак изменения ТИЦ, то обнаружится такая картина:
У 108 174 сайтов (56%) из "хорошего" списка ТИЦ упал;
У 60 821 сайтов (31%) ТИЦ не изменился;
У 24 574 сайтов (13%) ТИЦ вырос.
Посмотрим на общую гистограмму изменения ТИЦ для рассматриваемой группы сайтов (показана центральная часть
гистограммы):
Несимметричность гистограммы прекрасно видна, среднее изменение ТИЦ, как и написано выше, отрицательное.
Не менее интересна гистограмма относительного (относительно значения на октябрь-2006) изменения ТИЦ:
Видно, что падение в процентах достаточно большое, видны максимумы на -30% и -50%. Пики на +100%,+200% и так
далее соответствуют увеличению ТИЦ с маленьких значений (10-20).
Рассмотрим изменение ТИЦ подробнее.
Анализ роста и падения
Разделим все хорошие сайты на группы по знаку изменения ТИЦ и посмотрим, как он у них менялся.
Сайты с ростом ТИЦ
Для 24574 сайтов с ростом ТИЦ
построим график, где по оси X будет значение ТИЦ на октябрь, а по оси Y - прирост цитируемости к январю:
Как мы видим, чем больше было исходное значение ТИЦ, тем (в среднем) больше оказался прирост.
Есть, конечно, исключения, у заметного количества сайтов с ТИЦем 10 он вырос до нескольких сотен.
За исключением spb.ru, причины роста цитируемости остальных сайтов совершенно очевидны - это
рост ссылочной базы, как естественной, так и околоестественной (партнерки и т.п.) и особенности расчета ТИЦ (склейка с зеркалами, как у eroplus.ru).
Уменьшение ТИЦ
Изменение ТИЦ в меньшую сторону отражено на следующем графике, охватывающем 108174 сайта: Внимание! Чтобы показать график в логарифмических координатах у изменения ТИЦ был изменен знак! Т.е.
чем выше точка на графике, тем больше УПАЛ ТИЦ
Линией под 45 градусов ограничена максимально-возможная величина падения: ТИЦ не может упасть ниже нуля.
Как мы видим, есть аномальное сгущение точек для сайтов с исходным ТИЦ в диапазоне 300-1200: это сайты,
индекс цитирования которых упал до нуля или почти до нуля.
Зависимость изменения цитируемости от исходной цитируемости
Попробуем разобраться, какие сайты более всех пострадали, а какие - более всех выиграли от изменений
расчета цитируемости.
Если опираться только на данные Яндекса, то мы можем разделить все "хорошие" сайты две группы
по величине среднего изменения цитируемости:
Сайты с цитируемостью до 100. Таких сайтов 125 022, средняя цитируемость у них уменьшилась
незначительно.
68 547 сайтов с цитируемостью более 100, средняя цитируемость у них упала более чем на четверть.
Все графики будем рисовать в относительных величинах.
Сайты с минимальной цитируемостью (ТИЦ 10-99)
Среднее значение ТИЦ у 125 022 сайтов с цитируемостью меньше 100 составляло 34.8 в октябре и составляет
32.8 в январе (изменение -5.6%). C октября по январь:
у 49860 сайтов ТИЦ упал;
у 18841 сайта ТИЦ увеличился;
у 57321 сайта ТИЦ остался неизменным.
Максимальное падение цитируемости для сайтов этой группы -80 (что неудивительно, при бОльшем падении
сайт выпадет из группы "хороших" сайтов), максимальный рост: 8050 единиц для сайта webmix.ru (вероятно, за счет склейки с data.ru, хотя на момент получения данных склейки еще не было),
все остальные приросты не превышают 1600 единиц.
Гистограмма относительных изменений цитируемости:
Падение цитируемости более чем вдвое для данной группы сайтов нехарактерно.
Сайты с цитируемостью >= 100
Среди 68 547 сайтов этой группы изменения цитируемости таковы:
58 314 сайтов (85%) потеряли в цитируемости;
6 733 сайта увеличили цитируемость;
у 3 500 сайтов цитируемость не изменилась
С октября по январь средний ТИЦ для сайтов этой группы упал с 388 до 281 или почти на 28%.
Максимальное падение цитируемости для сайтов этой группы: -16000, это сайт google.ru
(тут надо ехидно заметить "ну кто бы сомневался", но я не буду). Лидеры роста перечислены в таблице
выше.
Гистограмма относительных изменений цитируемости:
Гистограмма подтверждает сделанное ранее наблюдение: для сайтов с цитируемостью выше 100 характерно
существенное падение цитируемости, падение на 30-50% является вполне распространенным.
Новые сайты
С октября по ноябрь у 24509 сайтов появился ненулевой ТИЦ. Распределение показано на гистограмме:
Ничего удивительного не видно, у большинства новых сайтов ТИЦ в пределах нескольких десятков,
исключений мало, большинство из них - перенос сайта на новый домен.
Сломавшиеся сайты
"Сломавшиеся сайты" - это те, которые не смогли ответить без ошибки на HTTP-запрос в последней декаде декабря
в рамках тестирования черным квадратом, всего таких сайтов 10 236.
Среди этих сайтов:
У 5 026 сайтов (~50%) ТИЦ упал;
У 626 сайтов ТИЦ не изменился;
У 4 484 сайтов ТИЦ вырос.
Среднее значение ТИЦ на октябрь у этих сайтов было 90, среднее изменение составляет 27 (30%).
Гистограмма изменения абсолютных значений ТИЦ выглядит следующим образом (показана центральная часть
гистограммы):
Как мы видим, основные изменения цитируемости очень небольшие, в пределах нескольких десятков единиц.
Гистограмма изменения относительных значений ТИЦ выглядит следующим образом (показана центральная часть
гистограммы):
На этом графике видно, что падение ТИЦ в процентах для многих сайтов довольно велико - десятки
процентов. Сравнивая с предыдущим графиком, начинаем подозревать, что от падения ТИЦ пострадали
в первую очередь сайты, индекс цитирования которых был невелик.
В настоящее время часть этих сайтов вполне работоспособна, не исключено что и ТИЦ у части из них
со временем восстановится. Отдельное внимание стоит обратить на tass.ru: на момент написания
данного текста он уже склеен в каталоге Яндекса с itar-tass.com с индексом цитирования 5500,
а 1-го января для доменов itar-tass.ru и tass.ru выдавались разные значения ТИЦ (1000 и 2500, соответственно),
равно как и октябрьские значения для этих доменов тоже были разными (1100 и 7600). Возможно это поможет
кому-то рассчитать формулу склейки ТИЦ :).
За 4-й квартал 2007 года ТИЦ был обнулен у 14 тысяч доменов 2-го уровня в RU/SU. По этим доменам имеется
довольно много данных, которые позволяют установить причину обнуления ТИЦ для части из них:
Статус сайта на 25 декабря 2006
Количество
Домен более не обслуживается
1 081
Сайт отсутствует в DNS
542
Сайт не отвечает на HTTP-запрос, либо отвечает ошибкой
1 119
Редирект на другой сайт
1 106
Остальные 10 219 сайтов - вполне живые, отвечают на запросы (о содержании этих ответов - ниже).
72% из "обнуленных" сайтов имели на октябрь-2006 ТИЦ равный 10, еще 10% - ТИЦ равный 20. Общее распределение
показано на гистограмме:
Верхушка (сортировка по убыванию ТИЦ) списка доменов с обнуленным ТИЦ:
Как видно из таблицы, верхушку списка прикрыли за дело - либо нет сайта, либо на сайте контент с которым
Яндекс активно борется.
Выводы
Средний ТИЦ по Рунету действительно упал, средняя величина падения составила 24%.
Основное падение произошло за счет сайтов со значением ТИЦ от 100, среднее падение для них 27.6%.
Сайты у которых ТИЦ в октябре-2006 более 100 и к январю вырос - составляют 2% от всех сайтов рунета,
эти сайты могут гордиться своим ТИЦ.
В то же время, падение ТИЦ более чем у половины сайтов (и у 85% сайтов с высокой цитируемостью)
говорит о том, что произошла массовая переоценка ссылочной базы, а вовсе не падение тИЦ у некоторых сайтов
как утверждает Яндекс.