Проверка на дубли

attention-image
Внимание!

Проверка проходит в фоновом режиме, страничка зависает на время выполнения скрипта. Не закрывайте и не обновляйте страничку, результаты загрузятся, как пройдет проверка. Чем больше ссылок, тем больше ожидание. Примерно 1 ссылку главной страницы проверяет примерно 10-20 секунд, внутреннюю около 30-60 секунд (зависит также от сервера, на котором расположен сайт), 3 ссылки около 2-3 минуты. На главную страницу требуется меньше времени, чем на внутреннюю (для них больше проверок)

Максимум 3 ссылки


Как трактовать результаты проверки?

Для главной страницы

После получения результатов, вы видите подобную таблицу. В данном случае для примера приведу результаты для главной страницы

Результаты проверки главной страницы на дубли
Результат проверки редиректов для главной страницы

На скриншоте выше можно наблюдать, что у нас проблема с HTTPS протоколом, страница не открывается, выдает ошибку сертификата SSL, поэтому возникла «Ошибка проверки URL».

Далее мы видим ошибки:

  • Не выбрано зеркало, с WWW или без WWW, соответственно не настроен редирект. Страница доступна по обоим адресам
  • Нет редиректа при добавлении множественных слешей.
  • Также страница открывается с добавлением /index.php, что является также дублем проверяемой страницы.

Остальные проверки страничка прошла. Соответственно в данной ситуации нужно добавить SSL сертификат, настроить редиректы с HTTP на HTTPS протокол, редирект с множественных слешей, а также редирект с index.php.

Для внутренней страницы

Теперь проверим внутреннюю страницу сайта

Результат проверки внутренней страницы сайта
Результат проверки редиректов внутренней страницы сайта

Какие тут можно заметить проблемные места:

  • Страница доступная, как с ПРОПИСНЫМИ буквами в URL-адресе, так и со строчными. Это разные страницы для поисковых систем, а посему такие страницы являются дублями.
  • Далее идет ряд проверок, в которых добавляется символы /HFa1/, при которых по идеи должна отдаваться 404 ответ сервера (страница не найдена), но отдается 200 код ответа сервера, сервер отдает страничку несмотря на посторонние символы в URL-адресе. Еще может возникнуть куча дублей при такой настройке сервера.
  • Предпоследний пункт, в котором убирается последняя часть урла между слешами не всегда показывает на проблему, и что там дубли. Но такая проверка необходима, т.к. не везде соблюдается иерархическая структура URL-адреса и при убирании последней части слеша, возможно выявить проблемы. Здесь надо всегда смотреть вручную, открывать URL и смотреть что открылось, допустимо ли это или нет.
  • В последней проверке, меняется порядком часть URL’a, где http://greenlist.kz/almaty/catalog/magaziny/velosiped-kupit/ дублируется в конце URL-адреса и страница всё равно отдает 200 код, хотя должна 404 в данном случае.

Здесь решением проблемы будет настройка редиректа с ПРОПИСНЫХ на строчные буквы, а также настройка сервера (скорее всего, через программиста/разработчиков сайта), чтобы проверялся URL и при наличии ненужных символов отдавался соответствующий 404 ответ сервера.

Можно ли самому исправить дубли сайта?

Да, для этого на сайте есть раздел с редиректами, о которых я расскажу чуть ниже. Собственно, ниже будет табличца, как проходит проверка и как это можно исправить.

Проверяемый URL-адресОписание проверкиКак исправить
http://site.com/catalog/noutbuki/c207Проверяем HTTP протокол (если подается URL с HTTP протоколом для проверки, проверяем соответственно HTTPS протокол)Делаем редирект с HTTP на HTTPS
https://www.site.com/catalog/noutbuki/c207Подставляем WWW к домену (если подали URL уже сразу с WWW, то проверяем без WWW)Редирект с WWW на без WWW
Редирект с без WWW на WWW
https://site.com/catalog/noutbuki/c207///////Добавляем множественные слеши в конец урлаРедирект для борьбы со множественными слешами
https://site.com/catalog/noutbuki/c207/Добавляем в конец слеш (если в конце уже есть слеш, то проверяем без слеша)Добавляем и или убираем в конце URL-адреса слеш
https://site.com/catalog/noutbuki/c207/index.phpДобавляем в конец урла /index.phpУбираем index.php с помощью редиректа
https://site.com/catalog/noutbuki/c207/home.phpДобавляем в конец урла /home.phpДелаем по аналогии с index.php, только вместо index пишем home
https://site.com/catalog/noutbuki/c207/index.htmlДобавляем в конец урла /index.htmlСм. выше про index.php
https://site.com/catalog/noutbuki/c207/home.htmlДобавляем в конец урла /home.htmlСм. выше про index.php
https://site.com/catalog/noutbuki/c207/index.htmДобавляем в конец урла /index.htmСм. выше про index.php
https://site.com/catalog/noutbuki/c207/home.htmДобавляем в конец урла /home.htmСм. выше про index.php
https://site.com/catalog/noutbuki/c207/homeДобавляем в конец урла /index.phpСм. выше про index.php
https://site.com/catalog/noutbuki/c207/jKYhGzДобавляем в конец урла /jKYhGz проверяем на предмет доступности страницы по несуществующему адресу. Если открывает страничку и отдает 200 ответ сервера, то плохая проверка урлов при маршрутизации вашего движка.Тут редиректами не решить вопрос, если не костылить. Желательно обратиться к программистам, чтобы сделали проверку URL-адресов, дабы не открывались несуществующие URL’ы.
https://site.com/catalog/noutbuki/c207/*Добавляем в конец урла звездочку *Убираем звездочку из URL
https://site.com/catalog/noutbuki/c207/4568732Добавляем в конец урла /4568732. Это аналогично предыдущей проверке, но с цифрами. Некоторые CMS считают цифры за ID записи*товара, поэтому вполне могут открыть страничку с 200 кодомТут также, если сервер отдает 200 код, то пишем программисту, чтобы настроил проверку URL’ов, чтобы не открывались несуществующие адреса.
https://site.com/catalog///////noutbuki///////c207Добавляем множественные слеши во внутрь урла возле каждого слеша после доменаРедирект для борьбы со множественными слешами
https://site.com/CATALOG/noutbuki/c207Делаем первую часть урла после домена между слешами ПРОПИСНЫМИ буквамиНастраиваем редирект с ПРОПИСНЫХ букв на строчные
https://site.com/catalog/NOUTBUKI/c207Делаем вторую часть урла после домена между слешами ПРОПИСНЫМИ буквамиАналогично варианту выше
https://site.com/catalog/noutbuki/C207Делаем третью часть урла после домена между слешами ПРОПИСНЫМИ буквами (если будет длинный урл, то проверяем каждую секцию между слешами, т.е. 4, 5, 6, сколько будет)См. выше
https://site.com/catalogjjj/noutbuki/c207Добавляем в первой части между слешами после домена jjj. Проверяем на несуществующие урлы.Все так же, решаем через программиста с запросом на проверку URL’ов.
https://site.com/catalog/noutbukijjj/c207Добавляем во второй части между слешами jjjСм. выше
https://site.com/catalog/noutbuki/c207jjjДобавляем в третьей части между слешами jjj (если будет длинный урл, то проверяем каждую секцию между слешами, т.е. 4, 5, 6, сколько будет)См. выше
https://site.com/HFa1/catalog/noutbuki/c207Вставляем секцию /HFa1/ сразу после домена. Проверка также на несуществующие страницы, но на символы между секциямиИ здесь также аналогично идем к разработчику, чтобы настроил проверку на несуществующие URL’ы.
https://site.com/catalog/HFa1/noutbuki/c207Вставляем секцию /HFa1/ после первой секции слешейСм. выше
https://site.com/catalog/noutbuki/HFa1/c207Вставляем секцию /HFa1/ после второй секции слешейСм. выше
https://site.com/noutbuki/catalog/c207Меняем местами первую и вторую секцию между слешами. Казалось бы мы создаем несуществующий URL такой манипуляцией, но нет, иногда страницы открываются.И здесь тоже понадобится программист.
https://site.com/noutbuki/c207Убираем первую секцию между слешами сразу после доменаСм. выше
https://site.com/catalog/c207Убираем вторую секцию между слешамиСм. выше
https://site.com/c207Убираем 2 и 3 секцию между слешами (если будет длинный урл, то проверяем каждую секцию между слешами, т.е. 4, 5, 6, сколько будет)Здесь наличие 200 ответа не всегда говорит о том, что это дубль или ошибка. Структура адресов у всех сайтов разная, поэтому в каких-то случаях это поможет выявить ошибку. А в каких-то случаях, где структура URL’ов иерархическая, то скорее всего ошибкой не будет. И просто откроется родительская категория/раздел.
https://site.com/catalog/noutbuki/c207/catalog/Дублируем секцию сразу после домена в конец урлаНу, и под конец, здесь также надо составлять ТЗ разработчикам на исправление несуществующих URL’ов.