История Рунета в квадратах | Черный квадрат | Аналитика | О проекте |
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылокСодержание
Про что этот текстСтатья продолжает тему ссылок с головных страниц сайтов Рунета. В первой части исследования нами были рассмотрены доноры ссылок (сайты с главных страниц которых стоят ссылки на другие сайты), предложены критерии по которым можно отличить сайты со ссылочной рекламой от естественных ссылок, был оценен рынок поисковой рекламы в Рунете. В настоящем исследовании основное внимание уделено реципиентам (получателям) ссылок:
Роль ссылок в современном интернете подробно разобрана в первой статье, но на всякий случай напомним читателю, что ссылки (и их тексты) являются на сегодняшний день основным методом продвижения в поисковых машинах (SEO). При написании данного текста возник вопрос - упоминать ли реальные названия сайтов, - который был разрешен следующим образом:
Определения и терминыДанный текст написан, в первую очередь, для специалистов по SEO, для краткости часто приходится использовать жаргон из этой отрасли знания. В первой части статьи приведен краткий словарь SEO-терминов, который тут мы повторять не будем. Будем пользоваться определениями из первой части исследования, чтобы не ссылаться туда постоянно, кратко повторим классификацию здесь. Ссылки можно отклассифицировать по нескольким параметрам:
Так как одним из предметов исследования является рынок ссылок (т.е. размещенная за деньги ссылочная реклама), то рассматривать будем как совокупность из всех сайтов, так и сайты подозреваемые в линкоторговле. Подозреваемые сайты будем выделять по тем же критериям, что и в первой статье: ненулевые индексы цитирования, степень разнообразия более 0.7, количество внешних ссылок на странице от 5 до 50. Понятно, что сам подход оспорить трудно (см. обсуждение первой части исследования), но конкретные параметры назначаются достаточно произвольно. Для удобства сравнения, они такие же, как и в первой статье. С точки зрения рынка ссылок, наибольший интерес представляют внешние индексируемые текстовые ссылки . ДанныеВ исследовании использованы данные, полученные из Черного Квадрата на 2-4 апреля 2007 года. В дальнейшем тексте рассмотрены два подмножества сайтов:
Из второй выборки были удалены зеркала сайтов, в качестве детектора зеркал использовался каталог Яндекса. На кого ссылаютсяПолная ссылочная базаИз 625.5 тысяч сайтов только 468 393 (75%) имеют ненулевое количество внешних ссылок и 359 485 (58%) содержат внешние индексируемые текстовые ссылки. Таким образом, около 160 тысяч (25%) сайтов внешних ссылок вообще не содержат, а еще 110 тысяч (18%) не содержат внешних индексируемых ссылок с текстом. Внешние текстовые индексируемые ссылки ведут на 218 499 различных сайтов-реципиентов, чуть менее половины реципиентов (107 764) - это сайты в доменах 2-го уровня в .RU/SU: только каждый 6-й сайт из рассматриваемой выборки имеет ссылки на себя из этой же выборки. Если построить гистограмму распределения сайтов - реципиентов ссылок по числу ссылающихся сайтов и по числу входящих ссылок , учитывая все внешние ссылки, за исключением «родственных тип 0» (ссылки на тот же сайт с точностью до префикса WWW), включая, в том числе неиндексируемые ссылки , мы получим следующую любопытную картину: ВНИМАНИЕ! Логарифмический масштаб! Каждое деление по вертикальной оси - это уменьшение в 10 раз, каждые три деления по горизонтальной оси - это в 10 раз больше входящих ссылок. Кажущийся парадокс: в самом левом столбце синяя колонка выше красной. Если вдуматься, то сразу становится понятно: если на сайт ссылаются 1-2 сайта, то и ссылок будет 1-2 или больше. А если их будет больше, то по «красной» метрике сайт попадет уже в другой класс. В остальном - практически идеальный закон Парето - прямая в логарифмических координатах. Необходимо понимать, что логарифмические координаты сильно непривычны человеческому организму:
В гистограмму не вошли лидеры - 13 сайтов на которые ссылаются более 10 тысяч главных страниц и 20 сайтов на
которые указывают более 10 тысяч ссылок. Верхние 15 из списка лидеров
представлены в таблице:
Картина полностью ожидаемая, хотя и требует некоторых комментариев:
Если рассмотреть только внешние
индексируемые текстовые ссылки, то вид гистограммы распределения
практически не изменится:
Качественно картина не изменилась. Количественно всего стало меньше,
гистограмма «по сайтам» спадает чуть быстрее, чем «по ссылкам»,
но это поведение тоже вполне естественное.
В то же время, верхушка рейтинга по
цитируемости сильно другая:
Счетчики практически исчезают (стандартный код
счетчика не содержит текстовой ссылки), на первые 7 позиций выходят сайты,
занимавшие вторую половину предыдущего рейтинга. Помимо них, появляются хостеры
(в первую очередь - за счет заглушечных страниц).
Позиции 10-12 таблицы я бы назвал 'Sedoparking
plus' - эти сайты содержат ссылки на sedoparking плюс несколько баннеров, плюс
пара счетчиков, плюс ссылка. Все вместе - 2636 сайтов на одном IP-адресе (на
zvezdi.ru есть еще ссылки с 8 других сайтов).
Во всех рейтингах мы имеем одну полностью естественную ссылку - ICQ
и одну «почти естественную» - денежку Яндекса. Остальные счетчики,
рейтинги, службы подписки требуют ставить свой код (со ссылкой) без изменений
как условие получение сервиса. Ссылки на хостера обычно имеются в стандартных
темплейтах сайтов и их оставляют.
Если строить рейтинги не по количеству
ссылающихся сайтов, а по количеству текстовых ссылок, ведущих на сайт (таблица ниже)
, то картина несколько меняется, помимо уже обсужденных случаев мы видим
новые:
Помимо уже обсужденных позиций, появляются новые сайты-реципиенты.
На 10-й позиции - Verisign, при внимательном
рассмотрении это оказалось парковкой доменов с главной страницей по-умолчанию.
На позициях 9 и 13-15 мы видим сайты, на
которые ведут тысячи ссылок, идущих с нескольких десятков других
сайтов. Феномен крайне заинтересовал и был внимательно изучен. Ссылки на эти
сайты ведут на несуществующие страницы с примерно такими URL:
http://www.DOMAIN.ru/viagra/female-viagra.html
http://www.DOMAIN.ru/viagra/viagra-without-a-prescription.html
После установления этого факта, данные ссылки
были извлечены из полной базы по следующему словарю: valium casino viagra
xanax phentermine tramadol ultram charm gambling. Возможно, словарь не полный,
но для оценки масштаба явления его хватило. Было обнаружено:
Выборочная страница реципиентов показала что
это преимущественно нормальные сайты, причем страницы на которые
указывают ссылки на этих сайтах отсутствуют. Сайты-доноры - это обычные
мусорные сайты, 90% из них расположено на одном из хостеров, про взломы сайтов
которого достаточно много писали.
Предположительно, мы имеем дело с взломанными
сайтами-реципиентами (откуда, впрочем, целевые страницы успели удалить),
взломанными сайтами-донорами (исходя из репутации хостера) и все это - такое черное
SEO, что чернее уже и не бывает.
Как уже обсуждалось ранее, механически
отличить рекламную ссылку от естественной достаточно сложно. Использованные
автором критерии (ненулевые индексы цитирования, ограничения по числу ссылок и
их разнообразию) не имеют какого-либо «естественного» обоснования,
они выведены из эпизодических наблюдений за рынком ссылочной рекламы.
Отобранные 30.8 тысяч сайтов содержат 363.5
тысячи внешних ссылок, ведущих на 79 тысяч реципиентов.
Эта гистограмма выглядит не так гладко, как
гистограмма по всем главным страницам: количество сайтов на которые ведет от 6
до 100 ссылок сильно выше «нормы» (нормой считаем диагональную прямую
линию). Это отклонение скорее всего связано с искусственным увеличением
цитируемости. Заметим, что речь идет примерно об 11.5 тысячах сайтов-реципиентов
(часть из которых имеет естественную цитируемость).
Верхушка таблицы, отсортированная по
цитируемости выглядит так (для сайтов, где цитируемость является искусственной
URL заменены видом деятельности):
Бюджет на продвижение посчитан только для
ссылок с главных страниц по формуле Александра Кириллина.
Десять позиций из 15-ти (в том числе 6 первых)
занимают знакомые нам хостинги, счетчики и две естественных ссылки. Остающиеся
5 строчек - это, совершенно бесспорно, «платные ссылки на продажных
мордах». Автор проверил по несколько ключевых (по мнению автора) запросов
для каждого из этих сайтов и обнаружил, что 4 сайта из пяти находятся на
хороших местах в поисковой выдаче и в Яндексе и в Google, а пятый сайт
отсутствует в индексе Яндекса, но неплохо находится Google. Собственно, что
«ссылки с морд» работают известно и без автора.
Если отсортировать реципиентов по количеству
ссылок, то 14 из 15 участников таблицы остаются в ней, хотя и меняются
местами. Эта таблица была бы банальной, поэтому не приводится.
Менее банальна таблица лидеров по бюджетам (не
приводится: без названий сайтов скучно, а с названиями не хочется), если
суммировать по области деятельности, то в десятке по бюджетам мы находим:
Максимальный ссылочный бюджет (оцененный
только по главным страницам) несколько превышает $2000 в месяц, минимальный
бюджет в десятке - около $1600.
Необходимо заметить, что наши оценки бюджетов
не включают в себя:
7.4 миллиона ссылок полной ссылочной базы
содержат 897 тысяч разных текстов ссылок. Из них 630 тысяч текстов ссылок -
уникальны т.е. встречаются только один раз, еще 120.5 тысяч встречаются два раза,
а 45 текстов ссылок имеют частотность более 55 тысяч.
Частотные ссылки совершенно неинтересны - это
стандартные тексты из кодов систем статистики, стандартные ссылки от
sedoparking и текст «Этот домен возможно продается».
Если рассматривать только текстовые
индексируемые ссылки, то картина практически не меняется, разве только подписи
систем статистики выпадают из частотной части. Ссылок с единичными частотами
становится 506 тысяч (на 5.9 млн. ссылок), ссылок с частотой два - 90 тысяч.
Если рассматривать 363.5 тысячи внешних
индексируемых текстовых ссылок с сайтов «подозреваемых в
продажности», то картинка становится сильно интереснее. 171 тысяча (48%)
написаний встречается в единственном экземпляре (про склейку
одинаковых ссылок все уже выучили), еще 19 тысяч (5.4%)встречаются
два раза.
Если удалить из списка ссылки, размещенные на
киберсквоттерских сайтах, входящих в топ15, то получается такая табличка
частот:
Пункты 1,6,12,14 - это, по всей видимости,
естественные ссылки. Строчки 4 и 15 - под вопросом. Все остальные - очевидные
продажные ссылки, причем тематика их почти целиком повторяет лидеров по
бюджетам: разработка и продвижение сайтов, пластиковые окна, строительство и
ремонт.
Как мы видели выше, уникальных текстов ссылок
очень много, сопоставить их можно путем анализа словарного состава.
Для сопоставления различных форм слов
(сайта-сайтов и так далее) была использована бессловарная морфология для
русского и английского языков от нашей компании. Рассматривались
«поссылочные частоты» слов т.е. для текста ссылки «продажа
опилок, продажа стружек» слово «продажа» получит единичную
частоту .
5.9 миллионов внешних текстовых ссылок с
полного набора сайтов содержат 219 тысяч разных слов (не так и много, в 4 раза
меньше, чем уникальных текстов ссылок). Верхушка списка замусорена словами с
sedoparking и потому не очень интересна.
В 363.5 тысячах внешних индексируемых
текстовых ссылок с сайтов из «продажной» выборки содержатся 1.2 миллиона
слов (т.е. средняя длина текста ссылки - 4 слова), но словарный состав
относительно беден: уникальных слов всего 64.5 тысячи. Распределение по
частотам выглядит куда интереснее (из таблицы исключены знаки препинания,
предлоги и частицы и три технических слова: http, www и ru):
Как видим, все топ-25 слов в ссылках -
это коммерческая тематика по дорогим темам:
Ну и на закуску - рейтинг упоминаемости
англоязычных брендов в текстах ссылок.
Рейтинг довольно понятный: кондиционеры,
бытовая техника и электроника, автомобили. Не могу понять только одного: HP
есть и на высокой позиции, а никого из других компьютерщиков - нету. Может быть
HP возмещает часть бюджетов на SEO ?
Как мы видим, каждый отдельный бренд имеет
примерно на порядок меньшую популярность, чем лидеры списка (предыдущая
таблица), частоты близки к частотам таких слов как «принтер»,
«гидравлический», «мальдивы», «рыбалка»,
«автострахование» т.е. словам «второго эшелона». Подозреваю,
впрочем, что для продвижения по конкретным названиям товаров ссылками с
головных страниц пользуются уже мало.
Дальнейшая работа должна
включать, по всей видимости, анализ ссылочной базы по «всем сайтам минус
дорвеи», следует попытаться статистически различить естественные и платные
ссылки и, при возможности, установить более точные критерии продажности.
|
Казимир Малевич, дизайн Владимир Липка, тоже |
|
|
Спонсоры проекта | ||
---|---|---|
sexgeschichten-klub.de | купить керамогранит Laparet 15 х 60 | Купить кассовые чеки в Ставрополе |
Indexed: Ap:2010-11-01 20:49 | G:2024-11-11 09:54 | MSN:2011-07-23 00:04 | R:2011-06-16 01:14 | Yah:2018-02-15 18:39 | Я:2013-08-30 06:14 |