Продвижение сайта: проблема дублированного контента

Андрей Волков

Андрей Волков

Системное, сетевое администрирование +DBA. И немного программист!))  Профиль автора.

Дубликаты контента и продвижение сайтаДублированный контент можно разделить на три большие категории: точный дубликат, где два URL-адреса имеют полностью идентичный контент, контент с небольшими отличиями (порядок предложений, немного другие изображения и т. д.) и кроссдоменные дубликаты, где точная или немного измененная копия существует на многих доменах.

Существуют две связанных концепции, которые не считаются Google тем же самым, что и дублированпый контент, но которые часто сбивают с толку издателей и неопытных SEO-специалистов:



Google не любит ни тонкий контент, ни тонкую нарезку. Любой из этих эффектов может быть выявлен алгоритмом «Панда». Как именно Bing отличает дубликацию контента, тонкий контент и нарезку контента не ясно, но точно известно, что издатели должны избегать создания этих типов страниц.

Дублированный контент может получиться по многим причинам, в том числе благодаря лицензированию контента вашего сайта, дефектам архитектуры сайта вследствие не опти­мизированной под поисковики системы управления контентом или из-за наличия плагиата. В последние пять лет спамеры, испытывающие чрезвычайную необходимость в контенте, начали «выцарапывать» контент из легальных источников, переставлять слова посредством множества сложных процессов и размещать полученный текст на своих страницах, чтобы привлечь операции поиска из «длинного хвоста» и продемонстрировать контекстную рек­ламу, а также и для прочих бесчестных целей.

Таким образом, сегодня мы живем в мире «проблем дублированного контента» и «штрафов за дублирование контента». Приведем некоторые определения, которые будут полезны для нашего обсуждения.

 

Последствия дублированного контента

Предполагая, что ваш дублированный контент является результатом безобидного недо­смотра со стороны ваших разработчиков, поисковый движок, скорее всего, отфильтрует все дублированные страницы (кроме одной), поскольку он хочет показать на страницах резуль­татов поиска только одну версию такого контента. В некоторых случаях поисковый движок может отфильтровать результаты до включения их в индекс, а в других случаях — допус­тить страницу в индекс и отфильтровать ее уже при подготовке результатов поиска в ответ на конкретный запрос. В этом последнем случае страница может быть отфильтрована в от­вет на некоторые определенные запросы и не отфильтрована для других.

Пользователи хотят видеть в результатах разнообразие (а не одни и те же результаты снова и снова). Поэтому поисковые движки стараются отфильтровывать дублированный контент, и это имеет такие последствия:

Несмотря на то, что отдельные специалисты по оптимизации могут поспорить с некоторы­ми из приведенных здесь положений, общая структура практически ни у кого не вызывает возражений. Однако по границам этой модели имеется несколько проблем.

Например, на вашем сайте есть группа товарных страниц, а также версии этих страниц для распечатывания. Поисковый движок может выбрать для показа в своих результатах именно версию для печати. Такое иногда случается, причем это может произойти даже тогда, когда страница для распечатывания имеет меньше «сока ссылок» и более низкий рейтинг, чем основная страница товара.

Для исправления такого положения надо применить атрибут ссылки rel=”canonical” ко всем дублированным версиям страницы, чтобы указать главную версию.

Второй вариант может появиться тогда, когда вы синдицируете свой контент (разрешаете перепечатку своего контента) сторонним организациям. Проблема состоит в том, что поис­ковый движок может выкинуть из результатов поиска ваш оригинал и предпочесть ему ту версию, которую использует человек, перепечатавший вашу статью. Есть три потенциаль­ных решения этой проблемы:

 

Как поисковые движки распознают дублированный контент?

Процесс поиска дублированного контента во Всемирной паутине для движка Google мы проиллюстрируем примерами. В примерах, представленных на рис. 1-4, сделаны три допущения:

Google обнаружила дублированный контент 

Рис. 1. Google обнаружила дублированный контент

Google сравнивает все копии дублированного контента 

Рис. 2. Google сравнивает все копии дублированного контента

Дублированные копии выбрасываются

Рис. 3. Дублированные копии выбрасываются

Google выбирает оригинал

Рис. 4. Google выбирает оригинал

Имеется несколько фактов, касающихся дублированного контента, которые заслуживают особого упоминания, поскольку они могут запутать веб-мастера, являющегося новичком в области проблем дублированного контента. Рассмотрим эти факторы.

Другой вариант— получить эксклюзивные права на владение этим контентом и его публикацию.

 

Выявление и устранение нарушений авторских прав

Один из лучших способов отслеживания дублирования вашего сайта — это прибегнуть к помощи сайта CopyScape (copyscape.com), который позволяет моментально увидеть те страницы во Всемирной паутине, которые используют ваш контент. Не беспокойтесь, если страницы этих сайтов находятся во вспомогательном индексе или имеют значительно более низкий рейтинг, чем ваши, — если бы какой-то большой, авторитетный и богатый контен­том домен попытался бороться со всеми копиями его материалов во Всемирной паутине, то ему потребовались бы, по крайней мере, два человека на полную рабочую неделю. К счастью, поисковые движки доверяют таким сайтам и поэтому признают их оригиналь­ными источниками.

С другой стороны, если у вас есть относительно новый сайт или сайт с небольшим количе­ством входящих ссылок, а плагиаторы постоянно стоят в рейтинге выше вас (или вашу ра­боту крадет какой-то мощный сайт), то вы можете кое-что предпринять. Один из вариан­тов— отправить запрос издателю с просьбой удалить контент, нарушающий авторские права. В некоторых случаях издатель просто не знал о нарушении авторских прав. Еще один из вариантов — написать хостинг-провайдеру. Хостинговые компании потенциально могут нести ответственность за организацию дублированного контента, поэтому они часто быстро реагируют на такие запросы. Просто убедитесь, что вы готовы предоставить как можно больше возможной документации, подтверждающей авторство контента.

Следующий вариант — отправить запрос о нарушении авторских прав (DMCA) в Google, Yahoo! и Bing. Этот же запрос вам следует отправить и той компании, у которой размещен сайт нарушителя.

Второй вариант — возбудить дело в суде против сайта-нарушителя или пригрозить это сде­лать. Если публикующий ваши работы сайт имеет владельца в вашей стране, то этот вари­ант, вероятно, является самым разумным первым шагом. Вы можете начать с более нефор­мального общения и попросить удалить контент еще до того, как посылать официальное письмо от адвоката, поскольку до вступления в силу мер агентства DMCA могут пройти месяцы. Но если вам не отвечают, то у вас нет никаких причин откладывать более серьез­ные действия.

Очень эффективным и недорогим вариантом для этого процесса является ресурс DCMA.com.

 

Ситуация с реальным штрафом

Предыдущие примеры показывают работу фильтров дублированного контента, но это не штрафы, хотя в практическом смысле эффект тот же самый, что и от штрафов, — снижение рейтингов ваших страниц. Однако есть и такие ситуации, когда может появиться настоящий штраф. Например, этим рискуют агрегирующие контент сайты, в особенности если сам сайт добавляет мало уникального контента. При таком сценарии сайт может быть реально оштрафован.

Исправить это можно только уменьшением количества дублированных страниц, доступных пауку поискового движка. Это достигается путем их удаления, посредством добавления атрибута canonical в дубликаты, атрибута noindex в сами страницы, либо добавлением зна­чительного количества уникального контента.

Пример контента, который может часто отфильтровываться, — это «тонкий» сайт-партнер. Так часто называют сайт, который продвигает продажи чужих товаров, чтобы заработать комиссионные, но не предоставляет новой информации. Такой сайт мог получить описания от изготовителя товаров и просто воспроизвести эти описания вместе со ссылкой на партне­ра, чтобы заработать на «кликах» или покупках.

Проблема возникает тогда, когда продавец имеет тысячи партнеров, использующих один и тот же контент, — а инженеры поисковых движков получили от пользователей данные о том, что (с их точки зрения) такие сайты не добавляют ничего ценного в их индексы. По­этому поисковые движки пытаются отфильтровать такие сайты или даже исключить их из своих индексов. Партнерские модели применяет множество сайтов, но они также предос­тавляют и новый богатый контент, поэтому у них обычно нет проблем. Поисковые движки принимают меры только тогда, когда одновременно возникает и дублирование контента, и отсутствие уникального ценного материала.

 

Как избежать дублированного контента на сайте?

Как мы уже отмечали ранее, дублированный контент может создаваться многими способа­ми. Внутреннее дублирование материала требует применения специфической тактики, что­бы получить наилучшие с точки зрения оптимизации результаты. Во многих случаях дуб­лированные страницы — это такие страницы, которые не имеют ценности ни для пользова­телей, ни для поисковых движков. Если это именно так, попытайтесь полностью устранить эту проблему. Подправьте реализацию таким образом, чтобы на каждую страницу ссылался только один URL-адрес. Сделайте также 301-й редирект для старых URL-адресов на остав­шиеся URL-адреса, чтобы помочь поисковым движкам как можно быстрее увидеть произведенные вами перемены и сохра­нить тот «сок ссылок», который имели удаленные страницы.

Если сделать это невозможно, то имеется еще много других вариантов. Далее представлена сводка указаний по самым простым решениям для самых разных сценариев:

Однако учтите: если вы используете файл robots.txt для предотвращения просмотра страни­цы, то применение атрибута noindex или nofollow на самой странице смысла не имеет. По­скольку паук не может прочитать эту страницу, то он никогда не увидит атрибуты noindex или nofollow. Помня об этих инструментах, рассмотрим некоторые специфичные ситуации дублированного контента.

 

Вас заинтересует / Intresting for you:

SEO-оптимизация сайта: поиск и...
SEO-оптимизация сайта: поиск и... 1367 просмотров Денис Sun, 24 Feb 2019, 14:53:38
SEO продвижение сайта в Гугл: ...
SEO продвижение сайта в Гугл: ... 1322 просмотров Игорь Воронов Sun, 08 Mar 2020, 11:51:29
Внутренняя SEO оптимизация сай...
Внутренняя SEO оптимизация сай... 1228 просмотров Светлана Комарова Thu, 21 May 2020, 08:31:19
Бизнес-факторы, оказывающие вл...
Бизнес-факторы, оказывающие вл... 1126 просмотров Денис Sun, 24 Feb 2019, 13:19:59
Печать
Войдите чтобы комментировать