Файл Sitemap XML, или карта сайта, – это мощный инструмент в сфере SEO-продвижения. Если говорить просто, то это служебный файл, который показывает систематизированный перечень страниц XML, рекомендованных для приоритетной поисковой индексации.
Сразу нужно упомянуть, что Sitemap XML совершенно не стимулирует увеличение скорости и периодичности индексации страниц – это самое распространенное заблуждение в этой теме. Нужно смириться с тем, что поисковые машины Google и «Яндекс» индексируют все, до чего могут «дотянуться», а не исключительно те страницы, которые им разрешили проанализировать.
Поисковые системы индексируют в следующих случаях:
-
алгоритм смог найти и просканировать страницу;
-
роботы определили страницу как качественную.
Следовательно, если вы специально укажете определенную страницу в Sitemap XML, то это совсем не значит, что у нее появится приоритет в ранжировании. Для эффективного использования этого файла его рекомендуют рассматривать в качестве подсказки, содержимое которой дает понять алгоритмам поисковой системы, какие страницы вы считаете наиболее качественными. Но это только подсказка, а не руководство к действию.
Ошибки последовательности при расстановке приоритетов
Многие допускают серьезную ошибку, когда организовывают передачу поисковым системам информации о странице. Обычно проблема заключается в нарушении последовательности. К примеру, страницу можно закрыть от индексации в файле robots.txt, но при этом ссылку на нее добавить в Sitemap XML. Таким образом, мы говорим поисковой системе: «нужно заглянуть сюда, ведь здесь качественная тематическая страница», но при этом запрещаем ее индексацию в другом служебном файле.
Аналогично ситуация обстоит с метатегами robot noindex/follow. Если в коде страницы планируется использование этих тегов, то страницу нельзя включать в карту сайта, иначе она вообще не попадет в индекс.
Чтобы избежать ошибок при использовании карты сайта, нужно условно выделить следующие категории его страниц:
-
служебные. Страницы несут пользу для аудитории, но не являются целевыми с точки зрения конверсии;
-
посадочные. Высококачественные продающие страницы, адаптированные под прием трафика из поисковой выдачи.
Все страницы, которые вошли в последнюю категорию, должны присутствовать в карте сайта, но их нельзя блокировать. И наоборот, служебные страницы нужно заблокировать, а также исключить их из использования в карте сайта.
Sitemap XML и общее качество сайта
Сегодня поисковые системы «научились» давать комплексную оценку сайта. Определение качества веб-ресурса является важнейшим фактором поискового ранжирования. Влияние карты сайта на восприятие его качества можно понять на следующем примере. Допустим, на ресурсе есть хорошие страницы, при оптимизации которых были учтены все возможные факторы ранжирования. Но при этом сайт имеет 3000 страниц, из которых только 5 соответствуют высоким стандартам. В такой ситуации ресурс не получит приоритета в ранжировании, так как очевиден слишком большой разрыв в соотношении хороших и плохих страниц. Поисковые системы не любят рисковать лояльностью пользователей, поэтому сайт с плохим содержимым не попадет в топ.
С другой стороны, разработчики «Яндекса» и Google понимают, что для нормального функционирования сайта ему нужны служебные страницы, которые никак не связаны с целевым действием. К примеру, это может быть раздел с контактами или страница для заполнения регистрационной формы. Если в Sitemap XML включить все эти страницы, то таким образом мы сообщаем роботам, что просто отсутствуют подсказки относительно качественного контента и страниц с низким приоритетом.
Рассмотрим гипотетическую ситуацию. К примеру, сайт состоит из 2000 страниц, при этом в карте ресурса отмечено 900 страниц. Это значит, что именно этот контент вы рекомендуете проиндексировать, а остальные советуете считать служебными. Но алгоритмы поисковиков не верят обещаниям и в любом случае проводят проверку. В результате оказывается, что по внутренним метрикам качественных страниц есть только 200 штук. Такую ситуацию поисковая система понимает однозначно: сайт неплохой, но приоритета не заслуживает, так как владелец не может отличить качественную страницу от плохого контента.
Особенности «маскировки» ненужных страниц
Как мы выяснили, алгоритмы ранжирования используют данные из карты сайта в качестве шпаргалки, в которой указываются приоритетные для индексации страницы высокого качества. Однако отсутствие страниц в этом файле совершенно не исключает того, что рано или поздно они будут проиндексированы. Чтобы просмотреть все страницы, которые прошли индексацию, достаточно воспользоваться командой «site:». Методом исключения можно получить доступ к перечню страниц, которые почему-то не должны были оказаться в карте сайта, но присутствуют там. Это можно сделать с помощью метатегов noindex/follow в файле robots.txt. Поисковый запрос, выполненный с помощью оператора «site:», ранжирует страницы по мере снижения их качества и потенциала. Соответственно, страницы из нижней части поисковой выдачи можно доработать или исключить из показа.
Способы создания Sitemap XML
Интегрирование в CMS. Многие современные системы управления сайтами уже имеют встроенные функции генерации карты веб-ресурса. Чтобы узнать о наличии подобной функции в определенном движке, придется внимательно изучить техническую документацию. Обычно соответствующая опция находится в настройках администратора. Также всегда можно уточнить детали в службе поддержки программного продукта. Еще можно попробовать с помощью браузера перейти по адресу https://вашсайт.com/sitemap.xml. Есть большая вероятность, что файл Sitemap XML не только уже сгенерирован, но и динамически обновляется.
Отдельный скрипт. Если хорошо разобраться в протоколе XML-карты и технических спецификациях, то можно своими силами создавать код для генерации карты сайта. Это удобный и рациональный способ, но он подходит только для программистов. Если вы таковым не являетесь, то лучше пользоваться любыми другими методами.
Внешние плагины. Если ваша CMS не умеет самостоятельно генерировать карту сайта, то это всегда можно сделать посредством стороннего плагина. С помощью все тех же поисковиков можно без проблем найти дополнения практически для любой системы администрирования сайтами. В специфических случаях можно привлечь программистов для создания уникального плагина для конкретной платформы.
Компьютерные парсеры. Это специальное программное обеспечение, которое устанавливается на рабочем ПК. С помощью программы проводится глубокий технический аудит сайта. В том числе на основе его результатов можно получить доступ к файлу Sitemap XML, сформированному методом сканирования структуры проекта.
Генераторы карты сайта. Сегодня в открытом доступе работают десятки автоматических генераторов карты сайта. Они сканируют ресурс, после чего формируют файл в заданном формате, который можно быстро скачать. Главным минусом такого сервиса является то, что уже после следующего обновления приходится еще раз генерировать новый Sitemap.
Если речь идет об оптимизации крупного проекта, то стоит отдать предпочтение автоматизированным методам создания карты сайта. Важно понять, что Sitemap XML должен не просто присутствовать, но и передавать поисковой системе актуальные данные.
Ликвидация проблем с индексацией
Некоторым оптимизаторам кажется, что Sitemap XML – это малозначительная часть продвижения, которой можно даже пренебречь. Но это не так, более того, в некоторых случаях карта сайта становится незаменимым инструментом. К примеру, Sitemap помогает в тех ситуациях, когда с проекта регулярно отправляются в Сеть подборки страниц, но далеко не все из них успешно проходят индексацию. Это может быть крупный e-commerce-проект с каталогом на 200 тыс. товаров, 10 тыс. страниц категорий и 40 тыс. страниц подкатегорий. Но отправка в Google карты сайта с 250 тыс. адресов показывает, что в индексе находится только 174 тыс. из них.
Как мы уже говорили, поисковые алгоритмы сканируют то, что им нравится, или то, до чего они «дотянулись», но с меньшим энтузиазмом. Поэтому нужно выяснить причину, почему в индексацию не попало значительное количество товаров. Для этого стоит разделить товары по разным категориям, создав для каждой собственный Sitemap XML. Внесение изменений в карту сайта поможет методом исключения определить, почему некоторые страницы не проходят индексацию.
Для начала в качестве гипотез используем самые распространенные причины отказа поисковых систем от индексации. Итак, сканирование не проходит на страницах:
-
без графического изображения товара или иллюстрации услуги;
-
если описание в карточке товара имеет низкую уникальность или объем до 200 слов;
-
отсутствуют отзывы, комментарии или другие факты пользовательской заинтересованности.
В каждую карту сайта необязательно добавлять все ссылки категории. Главное – включить туда достаточно адресов для того, чтобы по итогам эксперимента можно было сделать однозначный вывод. Обычно для проверки гипотезы требуется 20–50 контрольных образцов для каждой подборки.
Сама проверка гипотез на основе Sitemap XML проводится таким образом. К примеру, у вас возникло предположение, что страницы не индексируются из-за отсутствия картинок в карточках товара. В контрольную группу новой карты сайта нужно добавить ссылки на страницы, где графический контент был добавлен. Если страницы будут проиндексированы, то нужно будет внести соответствующие изменения по всему ресурсу. Если опыт не дал результата, то стоит проверить другие гипотезы, которые получится придумать.
Подведем итоги
Работая над оптимизацией карты сайта, нужно не забывать о логике и последовательности действий. Если страница будет заблокирована с помощью robots.txt или метатега noindex, то ее адреса не должно быть в Sitemap XML. Карта сайта – это не список приказов, а перечень рекомендаций для алгоритмов поисковых систем. Этот инструмент лучше применять в качестве средства для удобного выявления ошибок и проблем в индексации. При работе с большими проектами настоятельно рекомендуется использовать программные средства синхронизации для карты сайта, файла robots.txt и метатега robots. Ручная поддержка порядка займет слишком много времени, а автоматические инструменты позволят сохранять уверенность в том, что нужные страницы находятся в карте сайта и не противоречат общей логике работы алгоритмов ранжирования.