Webmaster Notes

Яндекс и дублирование контента.

29 января 2012, 13:00

Яндекс и дублирование контента.

В вебмастерской тусовке принято считать, что попасть в индекс Яндекса и в нём удержаться на протяжении длительного времени (годы) можно лишь с качественным и уникальным контентом. Когда каждая страница сайта являет собой чуть ли не шедевр копирайта и SEO-оптимизации. И по какой-то неведомой причине никто этот контент не копипастит на массу внешних сайтов.

Соответственно, если документы сайта не отвечают высоким идеалам образцово-показательного копирайта, то и не быть им в индексе.

Местному автору вышеозначенный постулат всегда казался не более чем выдумкой манимейкерствующих копирайтеров. Поэтому да не возбранится местному автору высказать пару мыслей на этот счёт публично.

С чем мы имеем дело.

Некоторое время тому назад, когда обитателей Раши осчастливили возможностью писать домены сайтов родными русскими буквами, Мастеру Ласто захотелось проверить, как его движки поведут себя под такими доменами. Скажем, в зоне .РФ

После проверки любопытство осталось удовлетворённым, а сам домен — ненужным. Ибо совершенно непонятно, с чего это вдруг люди не смогут жить без таких доменов, хотя раньше жили без них припеваючи. В данный момент, насколько местный автор в курсе, .РФ домены, будучи зарегистрированными, но так никому и не пригодившись, массово бросаются, и удаляются из реестра доменной зоны тысячами в день.

Но просто бросить домен — как-то не по-хозяйски. Так что в последний протестированный движок, которым оказался Ласто Блог, были влиты четыре поста. Про какую-то косметическую проблему, абсолютно не интересующую мужиков, но притягивающую женский трафик. Каковой мог бы конвертироваться в доход по партнёрке, но, скажем честно, так ни во что и не сконвертировался.

Теперь будьте внимательны.

Четыре поста по 300 (в среднем) слов представляют собой рерайт постов с блога на таком же движке, но хозяина партнёрки. Тот блог имеет многолетнюю историю, и жрёт с искалок приличный трафик. То есть гарантированно трастовый.

Сам рерайт делался без учёта критериев SEO, и без заточки под какие-то там ключевики и кейворды. Просто читаем абзац оригинального текста, и пишем своими словами то же самое в дырку для постинга. В стиле школьного изложения, не задумываясь.

То есть на старте мы имеем:

  1. Домен с именем, никак не коррелирующим с тематикой сайта.
    (В русском и нерусском языках даже и нету такого слова)

  2. Контент взят хорошо известный Яндексу, с трастового сайта.

  3. Рерайт без учёта SEO-специфики.
    Такой бы намалевал представитель школоло-поколения.

  4. Никакого оригинального дизайна сайту не давалось.

  5. Никаких мероприятий по ускорению индексации не проводилось.

  6. Внешних входящих ссылок тоже нет.
    Вообще и принципиально.


Да, верно. Внешние ссылки на этот сайт тоже не ставились. То есть PageRank и ТИЦ у него девственно нулевые, внешнее ссылочное ранжирование не задействовано никак, да вдобавок ко всему с сайта имеются продажные исходящие ссылки (ибо Хитрая Контора — наш друг).

Что это такое по всем параметрам?

Типичный сателлит, пытающийся сконвертировать трафик с помощью баннера в пользу партнёрки. С нулевой раскруткой, скормленный лишь Яндекс-Вебмастеру и Гуглу. Чтобы быть проиндексированным ими.

То есть сателлит к тому же ещё и предельно дефективный.

Как думаете, какова судьба этого сателлита?

Всякий SEO-шник без раздумий скажет, что прямая дорога ему в бан. Вторичный контент, никакой включённости в ссылочное ранжирование, и всего 20 килобайт HTML кода с контентом (совокупный вес всех четырёх постов). Фигня какая-то. Недоразумение.

Но.

Не забываем, что ввиду наличия на борту движка Ласто Блога фишки размножения контента спустя непродолжительное время на сайте возникает масса страниц (сотни, а в перспективе и тысячи), сконструированных из кусков исходных четырёх постов.

А это, господа, крайне циничное дублирование контента. Вернее, мешанинг ограниченного по объёму оригинального контента в промышленных масштабах.

Нас интересует вопрос, какова реакция искалок на это.
И пока интересует только это.
Но интерес наш принципиальный.

Яндекс и дублирование контента.

Внимательно отслеживая странички в индексе указанной искалки, местный автор был поражён одним обстоятельством.

Эта искалка периодически удаляет из своего индекса странички постов. То есть собственно полезный контент сайта, его основу. Считая (и возможно, небезосновательно) его несущественным. Недостойным присутствия в индексе.

Это не есть неожиданность. Примерно то же самое случается с сайтом при АГС.

Однако многочисленные документы с «результатами поиска по сайту» в индексе искалки почему-то остаются. Скорее всего, там большая тошнотность кейвордов, согласованность их контента с тайтлом, иерархическая упорядоченность, что-то ещё не менее важное, но не вполне очевидное для Яндекса.

Поскольку вся эта толпа страниц ссылается на посты, по мотивам которых толпа и родилась, в один из последующих апов Яндекса выкинутые им ранее посты возвращаются в индекс. Просто потому, что сам сайт интенсивно и обильно на посты ссылается (постов же всего четыре штуки, так что каждый белый дорвейчик линкуется на все четыре поста сразу) — а это предельно агрессивное линкование.

После чего фильтр дублирования контента, видимо, срабатывает снова, и процесс повторяется. С той или иной степенью решимости (могут выпасть два или три поста из четырёх, а не все одновременно).

Тем не менее процесс идёт на грани фола.

Наблюдая нечто подобное и для других сайтов, местный автор имеет смелость сформулировать обобщение, не претендующее на истину в последней инстанции, но логически непротиворечивое:

  1. Яндекс умеет детектировать страницы сайта с контентом на фоне вспомогательных.

  2. К таким страницам он применяет полный спектр фильтров.
    К вспомогательным страницам сайта, видимо, подход не столь суровый.
    И они выживают, если не дураки в плане SEO.

  3. Не играет особой роли, что именно за контент расположен на основных страницах. Копипаст, рерайт, копирайт — при недостаточной трастовости сайта контент любого качества выпадет из индекса запросто и только в путь.

  4. Противодействовать выпадению страниц способно правильное ссылочное — как внутреннее, так и внешнее.

  5. Дублирование контента внутри сайта, даже совершенно безбашенное, в стиле камикадзе, не является поводом для бана.


Разные намёки.

Когда мы на своих сайтах наблюдаем, как основные документы ресурса покидают индекс поисковика, то обычно виним себя. За то, что это копипаст, недостаточно качественный рерайт, либо не шибко изящный синонимайз. Но когда мы точно знаем, что выпавшие документы — вообще копирайт (собственноручно написанные тексты, например), то это конкретно озадачивает.

На самом деле никакой нашей вины в секир-серпе нет. Можно прекрасно жить с откровенным копипастом, с многократно дублированным в пределах сайта контентом, и при этом надёжно и безвылазно сидеть в индексе.

Главное, ссылаться на значимые документы изнутри сайта. А ещё лучше — снаружи, с других сайтов Сети. Заодно повышая тем самым свой траст.

Гугл и дублирование контента.

Естественно, всех интересует, как на тестового морального урода смотрит Гугл.

Как ни странно, абсолютно все страницы, в том числе и с дублированным контентом «в стиле обнаглевшего камикадзе» сидят у него в дополнительном индексе. Их 1250 на момент написания этого поста (Яндекс знает про семь сотен).

В основном же индексе 75 документов. Причём контентообразующие страницы (которые с постами) сидят в основном индексе всегда, и его не покидают. Тут Гугл молодец.

Остальные семь десятков — наиболее удачные из «камикадзе». Если их отсматривать вручную, то по формальным признакам они действительно напоминают анонсы материалов с линками на их полные версии.

Но.

Замечено, что примерно после пятидесятого «камикадзе» добавление новых в основной индекс идёт неохотно. За последний месяц вообще добавлена всего одна штука, хотя «камикадзе» порождаются на свет постоянно, регулярно, и в гораздо больших количествах.

Стало быть, с течением времени на сайт начинают налагаться фильтры, и в основной индекс Гугла просачивается всё меньше и меньше достойных того документов.

Чтобы это обойти, надо повышать траст. То есть как минимум наращивать ссылочное. И не просто ссылочное, а внешнее ссылочное.

Очевидное.

Сайты с малозначимым (или даже откровенно некачественным или почти отсутствующим) контентом вполне способны сидеть в индексе Яндекса. Долго и надёжно.

Суть и происхождение контента особой роли не играют.

Трастовому сайту прощается многое, нетрастовый может выкрутиться либо получением входящих ссылок, либо задействованием какой-нибудь хитрой внутренней перелинковки с многочисленных вспомогательных (пусть даже и откровенно нагенерированных) страниц на значимые документы.

Объединение хитрого движка с умелыми действиями вебмастера по наращиванию ссылочной массы даёт вебмастеру возможность не особо переживать по поводу недостаточной кошерности контента. А также за всякое там дублирование контента в пределах сайта и тому подобные «запретные» действия.

Комментарии к этой заметке больше не принимаются.
Все заметки категории «Search Engine Optimization»