Блог / SEO

Как найти и удалить все дубли страниц на сайте

Автор: Мария Саловарова 29.06.2021

Дубли страниц

Краткое содержание статьи:

При работе над технической оптимизацией сайта крайне важно уделить внимание устранению дублей страниц, т.к. они негативно воспринимаются поисковыми системами, вплоть до наложения санкций. Это происходит из-за того, что дубли снижают уникальность страниц, которые они дублируют, а также всего сайта в целом. Из-за них снижается релевантность сайта, вес страниц, они могут затруднять индексацию. Частая проблема – основная страница в выдаче может замениться дублированной, и из-за этого могут происходить скачки позиций по продвигаемым фразам. Такая ситуация происходит, потому что поисковая система не может определиться с релевантной страницей и постоянно меняет ее с одной на другую. Чтобы всего этого избежать, мы расскажем в нашей статье, как найти и удалить разного вида дубли.

Виды дублей страниц

Существует два вида дублей страниц: полные и частичные. Их поиск и устранение немного отличаются.

Полные дубли

Полные дубли – это дубли страниц, по которым контент совпадает полностью. Это могут быть как две, так и более идентичные страницы. Далее рассмотрим варианты полных дублей.

Страница с «www» и без «www». К ним относятся как главная страница, так и внутренние, например: https://www.site.ru/ и https://site.ru/ – страницы будут полными копиями; https://www.site.ru/product/ и https://site.ru/product/ – также копии.

Решение: сделать 301-редирект с www на без www (или наоборот, в зависимости от выбранного зеркала сайта) в файле .htaccess.

Пример редиректа с www на без www:

Options +FollowSymLinks
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC]
RewriteRule ^(.*)$ https://site.ru/$1 [R=301,L]

C без www на www:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru
RewriteRule (.*) https://www.site.ru/$1 [R=301,L]

Дубли страниц с протоколами http и https. Если на сайт был установлен SSL- сертификат, но не настроен необходимый редирект, то сайт будет доступен по двум адресам одновременно – http и https. Примеры: https://site.ru/ и http://site.ru/, https://site.ru/product/ и http://site.ru/product/.

Решение: сделать 301-редирект с http на https.

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP:X-HTTPS} !1
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1 [R=301,L]

Дубли главной страницы, которые отвечают за её отображение, примеры:

  • https://site.com/index
  • https://site.com/index/
  • https://site.com/index.php
  • https://site.com/index.html
  • также бывают дубли с home.html, с htm, asp и т.д.

Решение: сделать 301-редирект с дубля на главную страницу.

Пример редиректа для /index.php

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
RewriteRule ^index\.php$ https://site.ru/ [R=301,L]

Для /index.html

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.html\ HTTP/
RewriteRule ^index\.html$ https://site.ru/ [R=301,L]

Наличие или отсутствие «/» в конце адреса, т.е. когда страница доступна по ссылке со слэшем и без него. Чтобы проверить это необходимо посмотреть, как изначально формируются url страниц (например, перейдите с главной страницы в любой раздел), если открылась ссылка вида https://site.ru/product/, то вручную уберите с конца url слэш – https://site.ru/product. Если одна и та же страницы будет открываться со «/» на конце и без него, то это дубль, от которого нужно избавиться.

Решение: сделать 301-редирект со «/» на без «/» (или наоборот) в файле .htaccess.

Пример редиректа с без «/» на «/» на конце

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !(\.(jpg|gif|png|css|html|phtml|htm|pdf))$
RewriteRule [^/]$ %{REQUEST_URI}/ [R=301,L]

Со «/» на без «/»

RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.+)/$ /$1 [R=301,L]

Плагины, модули и особенности CMS. В зависимости от CMS и установленных на них плагинов и модулей, они могут создавать разные дубли страниц, которые также важно находить и убирать. Например, на CMS Wordpress обычное дело встретить автоматические дубли, в url которых есть feed, tag, attacment, trackback, replytocom и пр.

Решение:

Закрыть дубли от индексации в robots.txt, например с помощью правила Disallow: *?replytocom.

Т.к. в адресах дублей часто имеется знак вопроса, самый простой способ избавиться от большей их части – это правило Disallow: /*? (при условии, что на сайте нет актуальных адресов со знаком вопроса).

Еще один вид дублей – когда отсутствует уровень вложенности, и одна и та же страница доступна по разным адресам, например: https://site.ru/katalog/bumaga и https://site.ru/bumaga. Дубль может появляться как из-за установленных модулей, так и из-за особенностей CMS.

Решение:

Поможет только настройка 301-редиректа с дубля на основную страницу. Необходимо поискать возможность решения проблемы для вашей CMS с помощью автоматизации, чтобы не делать этого вручную.

Также бывает, что после настройки ЧПУ на сайте прежний url все равно остаётся доступен для индексации и отдает 200-ответ. Эту проблему можно встретить на сайтах на OpenCart. Пример: https://site.ru/?post_type=product&p=4458 и url с ЧПУ https://site.ru/shop/lichnaya-gigiena/4458/.

Разные решения:

  • Настроить атрибут canonical, указав на дубле каноническую страницу. Например, на странице https://site.ru/?post_type=product&p=4458 в коде будет указано .
  • Сделать массовый 301-редирект по определенному get-параметру дубля, к примеру с https://site.ru/page.php?id=1 на https://site.ru/page/.
  • Пример редиректа для страниц с параметрами:

    RewriteCond %{QUERY_STRING} ^id=(.*)$
    RewriteRule ^(.*)$ https://site.ru/page/? [R=301,L]

  • Еще один вариант избавления от get-параметров – настройка директивы Clean-param в файле robots.txt (работает только для Яндекса).

Дублирование товара. Бывает так, что один и тот же товар добавляется на сайт несколько раз (например, это могло произойти случайно) или из-за особенностей CMS специально, чтобы товары могли оказаться в разных разделах (например, когда CMS не умеет привязывать один и тот же товар в разные категории под одним адресом).

Решение:

В случае, если виновата CMS, то рекомендуется настроить для дублей атрибут canonical. Если такие дубли были добавлены вручную и их не много, то можно удалить самостоятельно.

UTM-метки – спецпараметры в url, которые позволяют передавать данные для анализа рекламы и источника переходов. Бывает так, что после их настройки такие url попадают в индекс и создают дубли продвигаемым страницам.

Разные решения:

  • На страницах с UTM-метками настроить каноническую ссылку.
  • Закрыть индексацию таких страниц с помощью robots.txt – Disallow: /*?utm_* или с помощью директивы Clean-param.
  • Можно настроить мета-тег robots – на страницах с UTM-метками.

Аналогично можно избавиться от меток yclid, gclid и многих других.

404-ошибка отдает ответ сервера 200. Часто бывает так, что у несуществующей страницы не настроен необходимый ответ сервера, а именно 404. Чтобы проверить это, нужно взять любую страницу и вместо адекватного url, ввести абракадабру: https://site.ru/jshfjdjgkls и далее с помощью любого сервиса для просмотра HTTP-заголовков, например bertal.ru, проверить ответ сервера https://site.ru/jshfjdjgkls. Если он отдает 200-ответ, значит потенциально у сайта может быть гигантское количество дублей. Рекомендуется проверить url разных видов – например, адрес раздела, товара и пр., желательно добавлять символы на разных уровнях адреса страницы, а также пробовать добавлять множественные слеши, заменять черточки на нижние подчеркивания.

Решение:

Для несуществующих страниц настроить 404-ответ сервера путём доработки кода.

Тестовый дубль сайта. Часто после разработки сайта или его доработок на отдельном тестовом домене делается полный дубль сайта для внедрения на него нового функционала, дизайна и пр. Если дубль сайта не закрыть от индексации, он может спокойно индексироваться поисковыми системами.

Решения:

  • Закрыть тестовую версию сайта в файле robots.txt следующими правилами:
  • User-agent: *
    Disallow: /

  • Важно не только закрыть, но и удалить дубль из поисковых систем, если они его уже проиндексировали. Сделать это можно через инструмент в Яндекс.Вебмастере «Удаление страниц из поиска» и через Google Search Console – раздел «Удаления».

Версия для печати, RSS и PDF. Чем мешают такие страницы? Например, печатная версия полностью дублирует весь контент страницы, аналогично с RSS-лентой и PDF-версией страниц.

Решение:

Проще всего закрыть такие дубли от индексирования поисковыми системами в файле robots.txt, например для версии страницы для печати задать такое правило:
Disallow: */print.

Частичные дубли

Частичные дубли (или нечеткие) – это когда контент страниц совпадает лишь частично. Нечеткие дубли имеют меньше отрицательного влияния на сайт, но они все еще ухудшают его ранжирование, хоть и незначительно.

Когда товары имеют одинаковые характеристики. Такие дубли тоже бывают, и они появляются тогда, когда у товара совпадает название и все описание, иногда даже изображение. Эти дубли заводятся вручную, и они свойственны сайтам, которые продают продукцию, которая отличается друг от друга какой-то деталью, например, цветом или составом.

Решение:

Такие товары рекомендуется уникализировать относительно друг друга, это можно сделать как вручную, там и автоматически – например, найти, какой-то параметр, который их отличает и добавить его в заголовок h1, мета-теги title и description, например это может быть артикул, цвет и др. Для добавления большей уникальности рекомендуется добавить разные описания товарам.

Страницы пагинации – разбивка контента сайта по отдельным страницам с нумерацией. На страницах пагинации может дублируется текст, заголовок и мета-теги, которые размещены на первой странице.

Решения:

  • Если на странице с листингом размещен текст – то лучше с помощью доработки кода сайта убрать его со страниц с пагинацией.
  • Для добавления уникальности рекомендуется в title и description (можно и в заголовок h1) добавлять приписку с номером страницы. Пример title: «Купить перчатки оптом по цене производителя – страница 2».

Страницы сортировки и фильтров тоже будут частичными дублями, т.к. категории с таким функционалом отображают одни и те же товары, которые просто отсортированы по разным параметрам, например по цене, новинкам и др.

Решение:

Если вы не планируете к продвижению такие страницы, то рекомендуется их закрыть от индексации, например в файле robots.txt (или с помощью мета-тега robots) или с помощью атрибута canonical.

Разные страницы, но одинаковые мета-теги. Такое может произойти, например, если для не важных страниц, например новостей, был задан один шаблон для формирования мета-тегов. Получается, что на сайте есть совершенно разные новости с одинаковыми мета-данными, и они будут считаться неполными дублями.

Решение:

Прописать для каждой страницы отдельно мета-тег, либо настроить шаблон мета-тегов так, чтобы добавить в них уникальность, например включив в него главный заголовок. Приведем пример мета-тега description для новости: «Читайте актуальную новость от компании АБВ по теме: 21 мая компания совершила отгрузку рекордного количества сырья.» – где вторая часть мета-тега это заголовок новости.

Виды проверки

Какие-то простые и распространенные дубли можно быстро и легко найти вручную, например, задать в строке браузера разные версии адреса: с http, с www и без, со слешем на конце и без и т.д. Но, чтобы найти другие виды дублей, могут понадобится дополнительные инструменты, о которых мы сейчас расскажем.

Онлайн-сервисы

Яндекс.Вебмастер. Чтобы посмотреть, какие страницы Яндекс посчитал дублями и исключил их из поиска, необходимо перейти в Яндекс.Вебмастер в раздел «Индексирование», затем «Страницы в поиске» и выбрать вкладку «Исключенные страницы». У дублированных страниц будет стоять статус «Удалено: Дубль».

Дубли в Яндекс Вебмастере

Но, ограничиваться только Яндекс.Вебмастером в нахождении дублированных страниц не стоит, возможно он их еще не проиндексировал, либо наоборот они находятся в индексе вместе с оригинальным контентом.

Google Search Console. В сервисе Google также можно посмотреть обнаруженные им дубли страниц. Это можно сделать, перейдя в Google Search Console, далее в раздел «Покрытие», вкладка «Исключено» и смотреть сведения по исключенным страницам. Дублированные страницы будут помечены «Страница является копией».

Google Search Console

Apollon.guru «Поиск дублей». Чтобы начать искать дублированные страницы с помощью данного сервиса, необходимо выбрать разные типы страниц вашего сайта для их проверки (например, главная страница, страница категории, товар, страница новостей и пр.). Далее эти страницы нужно добавить в поле сервиса и запустить проверку.

Дубли в Apollon

На примере выше найден дубль с ответом сервера 200, выделен красным.

Десктопные программы

Xenu. Бесплатная программа, с помощью которой можно найти дубли страниц по одинаковым мета-тегам title, а также по description. Чтобы начать проверять сайт необходимо установить программу на ПК и далее нажать кнопку Check URL, добавив в нее домен сайта. По результатам проверки можно будет искать дубли, нажав на поле title или description – тогда они отсортируются по алфавиту.

Дубли в Xenu

Screaming Frog Seo Spider. Платная программа, бесплатно можно проверить до 500 адресов. Смысл поиска дублей такой же как у Xenu – поиск по дублированным title, description и h1. Например, выбираем вкладку Page Titles и сортируем результат с заголовками по алфавиту. Также можно посмотреть вкладку URL – если её отсортировать, то отобразятся похожие адресации страниц, которые были найдены на сайте, например: страницы с пагинацией, идентичные или похожие товары.

Дубли в Screaming Frog Seo Spider

SiteAnalyzer. Бесплатная десктопная программа, которая покажет дубликаты страниц, текста, title, description, h1-h6. Для начала проверки нужно вставить адрес сайта и нажать кнопку «Старт», а чтобы найти дублированный контент достаточно просто отсортировать по алфавиту.

Дубли в SiteAnalyzer

Netpeak Spider. Платная программа, но есть freemium-тариф благодаря которому можно бесплатно найти на сайте дублированный контент и многие другие критичные ошибки. Перед тем, как запустить проверку, рекомендуем зайти в «Настройки», далее «Продвинутые» отметить весь раздел «Учитывать инструкции по сканированию и индексации» и «Next/Prev», чтобы робот пропустил и так уже ранее обнаруженные и закрытые дубли.

Чтобы начать сканирование сайта, введите домен сайта в адресную строку и нажмите «Старт». После того, как сканирование завершится, ошибки, связанные с дублированием контента, можно будет посмотреть справа в разделе «Отчеты»/«Ошибки».

Дубли в Netpeak Spider

Многие дубли страниц несложно найти и устранить, но их наличие может повлиять на SEO-продвижение сайта. Для некоторых требуется серьезная доработка кода – а значит нужна помочь разработчика. Для поиска рекомендуем использовать разные инструменты – так вы найдете максимально большое количество дублей и избавите сайт от такого вида технических ошибок, влияющих на ранжирование сайта в поисковых системах.

Автор: Мария Саловарова