Во время разработки собственного сайта нередко возникает необходимость скрыть ту или иную страницу от вездесущих глаз поисковых ботов. Связано это бывает с плановыми профилактическими работами, наличием всевозможных дублей и тому подобными проблемами. Банальный редизайн интерфейса вынуждает скрывать все неоптимизированные страницы, которые требуют ручной настройки.
В зависимости от специфики ресурса, может быть проще попросту спрятать от ботов его целиком. А ещё вы можете разрабатывать закрытый проект, доступ к которому предоставляется только определённой группе лиц. Тогда его и открывать для поисковых систем нет никакого смысла. Ведь пользователи из поиска попросту не смогут на него зайти.
Но наиболее часто скрываются страницы с морально устаревшей информацией. Нет никакого смысла продолжать держать в индексе страницы с древними новостями, событиями или другими активностями. Возможность найти их через поисковую выдачу лишь введёт в заблуждение вашу аудиторию.
Вы также можете скрывать отдельные элементы страницы. Например, всплывающие окна, баннеры, различные скрипты и графику. Таким образом удаётся получить более высокие оценки Time to First Bite. Кроме того, это снижает нагрузку на сервер и позволяет улучшить общий индекс качества вашего сайта.
Что значит закрыть сайт от индексации?
Запрещение поисковым ботам переходить на страницы вашего сайта приводит к тому, что он закрывается от индексации. К таким кардинальным мерам можно прибегать в том случае, если у вас небольшой проект с ограниченным количеством страниц, а проведение необходимого обслуживания затрагивает их все или почти все.
Разумеется, для старых и массивных сайтов, закрывать все страницы от индексации – равносильно вылету из топа поисковой выдачи. После того, как доступ к страницам будет восстановлен, они вернут себе свой вес, но далекоидущие последствия подобных действий могут быть непредсказуемыми.
Закрытие ресурса от индексации означает, что ни одна его страница не будет присутствовать в поисковой выдачи. То есть сайт в Глобальной сети присутствовать будет, вот только отыскать его через Яндекс или Google не получится.
Нужно ли закрывать сайт от индексации?
Закрывать сайт от индексации целиком может потребоваться только в каких-то исключительных случаях. В подавляющем большинстве ситуаций, достаточно скрывать только отдельно взятые страницы, над которыми вы в настоящее время работаете.
Однако полная трансформация проекта, в случае его покупки новыми владельцами или кардинальной смены курса текущим хозяином, требует его сокрытия.
Если вы взялись за семантику с нуля и собираетесь полностью перелопатить ядро ресурса, то закройте его на всё время работ. В противном случае поисковые алгоритмы могут неправильно вас понять и наложить различных фильтров, отмыться от которых окажется непосильной задачей.
Разумеется, резкая смена тематики или подхода к работе над контентом – также не лучшая идея, с точки зрения поисковых систем. Ведь это означает, что вы больше не соответствуете пользовательским намерениям той аудитории, которая приходит из органической выдачи. А значит страницы нужно оценивать с нуля.
В любом случае, кардинальные изменения проекта требуют его закрытия на время проведения работ. Тогда обновления пройдут более мягко и приведут к меньшим потерям.
Как запретить роботам индексировать сайт целиком?
Инструментов для сокрытия сайта от поисковых ботов придумано предостаточно. Выбор того или иного зависит от конкретной ситуации и тех задач, которые стоят перед разработчиком:
-
через файл robots.txt и соответствующие директивы;
-
с помощью метатегов в HTML-коде страницы;
-
добавлением специализированного кода в файл .htaccess;
-
при помощи плагинов, которые широко представлены для любой популярной CMS.
Каждый из вариантов сокрытия сайта отличается своими особенностями, а также имеет достоинства и недостатки. Каждый из них нужно рассматривать отдельно.
Файл robots.txt
Поисковые краулеры, путешествуя по просторам Глобальной сети, воспринимают сайты не так, как обычные пользователи. Они заглядывают в технические файлы и читают карту ресурса оттуда.
Robots.txt при посещении является их первой целью. Именно здесь прописываются различные указания о том, каким образом нужно читать страницы. Фактически, этот файл содержит набор директив и во многом именно от него зависит то, как ресурс воспримут алгоритмы.
К самому файлу robots.txt также предъявляются определённые требования:
-
Название должно быть написано в нижнем регистре. Никаких прописных букв тут быть не должно.
-
Формат .txt является обязательным требованием. Требование строгое и обмануть бота вам не удастся.
-
Максимально допустимый размер файла составляет 500 Кбайт. Это достаточно серьёзное ограничение. Но оно имеет под собой основания.
-
Файл должен лежать в корневом каталоге. Нет смысла заставлять бота сканировать всё содержимое в поисках злосчастного списка директив.
-
А ещё этот файл должен быть доступен по адресу: «URL сайта/robots.txt». После запроса этого файла, сервер должен отправить в ответ код 200 OK.
Теперь, когда формат файла robots.txt представляется более определённым, перейдём к его содержанию. Оно, как и следовало ожидать от технического документа, также должно быть строго регламентированным:
-
User-agent – директива, которая содержит в себе информацию о том, для каких конкретно ботов предназначен этот список указаний.
-
Allow – информация, открытая для индексации. Сюда попадают все элементы ресурса, которые могут сканировать поисковые алгоритмы.
-
Disallow – директива, соответственно, закрывающая доступ к информации. Закрывайте ею всё, что не должно попасть под сканирование.
-
Sitemap – прямой адрес карты вашего сайта, упрощающей процесс взаимодействия ботов с ресурсом.
-
Clean-param – директива, которая призвана помочь поисковым ботам Яндекса правильно определять страницы, требующие индексации.
Помните, что даже идеально настроенный robots.txt не избавляет от возможных неприятностей в результате сканирования. Поисковые алгоритмы, в некоторых случаях, могут попросту проигнорировать всё его содержимое и отправить в индекс вообще всё. Такие ситуации, к сожалению, встречаются чаще, чем хотелось бы.
Всё, что остаётся вебмастеру – отправляться в службу технической поддержки и пытаться отыскать ответы там. Правда, в 95% случаев вам ничем не помогут, а лишь предложат дежурные ответы со стандартными цитатами из внутренних правил поисковой системы.
Полный запрет индексации в robots.txt
Запретить индексацию вашего сайта можно конкретным ботам, а не сразу всем. У поисковых систем есть отдельные алгоритмы, сканирующие конкретные формы информации. Например, YandexImages отвечает за работу с изображениями.
User-agent: YandexImages
Disallow: /
Закрыв ему доступ к сайту, вы скроете только изображения, оставив в индексе остальную информацию. Соответственно можно поступить с конкретной поисковой системой. Закрыть доступ для Google или Яндекса и продолжать работать в другой.
User-agent: *
Disallow: /
Вот так выглядит запрет на индексацию для всех ботов вообще. Таким образом можно полностью скрыть сайт от посещения извне.
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
Этот вариант включает в себя закрытие сайта для всех ботов, за исключением указанного. Ресурс останется доступен для ботов Яндекса, но скроется от всех остальных.
Полный запрет через HTML-код
Существует возможность закрыть страницу метатегами в блоке <head>. Технический код страницы имеет широкий спектр возможностей. В зависимости от того, что вы укажите в атрибуте «content», эффект может существенно различаться:
-
index – разрешение на полное индексирование контента страницы;
-
noindex – закроет от индексации всё, за исключением ссылок;
-
follow – отдельный атрибут для разрешения индексирования ссылок;
-
nofollow – соответственно, запрещает ботам сканировать ссылки;
-
all – ещё один вариант открыть всё содержимое страницы для индексации.
Как и в случае файла robots.txt, вы можете задать конкретных ботов, которым закрываете доступ к странице. Недостаток данного способа очевиден – вы работаете только с одной страницей за раз. У каждой из них собственный HTML-код, который придётся править вручную.
Запрет на уровне сервера через файл .htaccess
Дабы не зависеть от воли ботов, которые могут обходить практически любые запреты в пределах сайта, можно закрыть доступ на уровне сервера. Это стопроцентный способ избавить себя от нежелательных сканирований.
Для этого нужно будет добавить специальный код в файл .htaccess, находящийся в корневой папке сайта.
Для Яндекса ограничения будут выглядеть следующим образом:
SetEnvIfNoCase User-Agent "^Yandex" search_bot
Для Google, соответственно:
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
Как запретить индексацию отдельных страниц?
Намного более перспективными выглядят возможности скрыть отдельные страницы или типы контента. Запрещая ботам искать определённый тип контентам в рамках всего вашего сайта, можно решить проблему намного быстрее.
Прописывается запрет всё так же в файле robots.txt. Вам нужно просто прописать в директиве Disallow: тип контента или относительный адрес страницы/раздела, которые необходимо скрыть. Прекрасный способ спрятать конкретные данные, разбросанные по всему сайту.
HTML-код более предрасположен к работе с отдельными страницами. Нужно лишь прописать noindex в блоке <head>, и страница выпадет из индекса. Разумеется, произойдёт это не мгновенно. Поисковые системы выкинут её из выдачи спустя некоторое время.
Помните и о том, что вы потеряете часть или весь индекс качества, который приносила сайту эта страница, даже после её возвращения. Возврат к изначальным параметрам крайне маловероятен.
Какие именно страницы стоит скрыть от индексации?
Выставлять на всеобщее обозрение в индексе стоит только полезные целевые страницы. Они должны содержать качественный контент и соответствовать пользовательским намерениям. Исходя из этого можно охарактеризовать все страницы, которые не стоит отправлять в индекс:
-
Административные страницы, которые не содержат полезный для посетителей контент.
-
Страницы с внутренней информацией. Сюда относятся различные базы данных, содержащие личную информацию, оставляему при регистрации.
-
Дубли страниц. Они встречаются куда чаще, чем можно было бы подумать. Дубли нужны для работы с различными форматами URL-адресов и безопасным соединением.
-
Различные виды форм. Сюда относятся окошки оформления заказа или заявок, регистрации, корзины или тому подобные инструменты.
-
Неактуальная информация. Весь, морально устаревший и ставший бесполезным, контент необходимо закрывать от индексации.
-
Многие ресурсы предоставляют варианты страниц для печати. Разумеется, в индекс их отправлять не нужно.
-
RSS-лента – это не подходящий для индексации контент.
-
Страницы, на которых ведутся технические работы. Или страницы, которые находятся на этапе разработки и ещё не доведены до своего финального вида.
-
Разделы сайта, содержащие информацию для внутреннего круга лиц. Особенно актуально в тех случаях, когда разработка ведётся группой специалистов, а не одним человеком.
-
Сайты-аффилиаты. Их поисковые системы особенно не любят. Так что, если не хотите выпасть из выдачи, отправлять в индекс такой контент не стоит.
Как закрыть от индексации поддомен?
Поисковые системы распознают каждый отдельно взятый поддомен, как самостоятельный сайт. А значит каждый из них нуждается в собственном файле robots.txt. Поэтому всё, что от вас требуется – добавить в этот файл директиву, закрывающую его от глаз поисковых ботов.
В общем, если рассматривать каждый поддомен, как самостоятельный сайт, то это поможет вам существенно упростить все работы по его разработке. Разумеется, в плане продвижения он будет зависим от основного.
Как запретить индексацию сайта на WordPress?
Будучи наиболее широко распространённой CMS, WordPress уже давно обзавёлся собственными инструментами на все случаи жизни. Причём, скрыть сайт целиком можно буквально в пару кликов:
-
Вам нужно зайти в панель администратора.
-
Перейдите в раздел «Настройки». Выберите там «Чтение».
-
Теперь нужно лишь кликнуть на пункт «Попросить поисковые системы не индексировать сайт».
Плагины для WordPress
Закрыть отдельные страницы вашего сайта помогут плагины, широко представлены во внутренней библиотеке. В качестве примера можно взять Yoast SEO. Он как раз-таки и создан, дабы упростить процесс настройки индексации ваших страниц.
Страницы закрываются от сканирования буквально в пару действий:
-
Откройте нужную страницу и войдите в режим редактирования. Пролистайте её до конца и перейдите к окну плагина.
-
Режим индексации настраивается во вкладке «Дополнительно».
Как открыть сайт для индексации?
Наиболее актуальным будет открытие сайта через файл robots.txt. Будучи основным элементом управления действиями поисковых ботов, он позволяет быстро решить проблему с отсутствием страниц в выдаче. Воспользуйтесь директивой Allow, дабы открыть всё содержимое для сканирования.
Если вы не уверены, открыт ли сайт для индексации, или какие его части закрыты для посещения ботами, можно воспользоваться внутренними службами поисковых систем. Это Яндекс.Вебмастер и Google Search Console. Через них вы сможете точно узнать – какие URL-адреса вашего сайта находятся в индексе. Это позволит составить начальное представление о положении дел конкретного ресурса и решить, что с ним делать дальше.
Как проверить свой Robots.txt?
Составление технического файла – дело достаточно сложное, особенно если вам приходится заниматься этим впервые.
Чтобы убедиться, что всё было сделано правильно и в соответствии с требованиями поисковых систем, необходимо воспользоваться внутренними инструментами Яндекса и Google.
Помните о том, что поисковики по-разному подходят к процессу проверки этого файла. Поэтому каждый раз нужно проводить две проверки.
Яндекс.Вебмастер
После добавления сайта в сервис и подтверждения прав владения, вы получите доступ ко всем необходимым инструментам. Для проверки файла robots.txt нужно обратиться к валидатору Яндекса:
-
Перейдите в личный кабинет Яндекс.Вебмастер.
-
В разделе «Инструменты» найдите пункт «Анализ robots.txt».
-
Как правило, проверка происходит автоматически. Скрипт самостоятельно находит нужный файл и оценивает его на соответствие. Но если по какой-то причине сканирование не началось, вы можете скопировать код и вручную вставить его в поле для проверки.
-
В отчёте, составленном по итогам проверки, будут указаны директивы, в которых допущены ошибки. Сервис также даст рекомендации по их устранению.
Google Search Console
Самый популярный поисковик в мире оказывает полное содействие всем вебмастерам, которые работают над продвижением своих ресурсов. Если вы хотите просканировать файл robots.txt, вам потребуется сделать следующее:
-
Зайдите в личный кабинет и перейдите к инструменту проверки.
-
На открывшейся странице будет отображаться информация из нужного файла. Если она содержит неактуальную версию, всё равно нажмите отправить и следуйте дальнейшим инструкциям поисковой системы.
-
Спустя несколько минут обновите страницу и ещё раз проверьте содержимое на соответствие актуальной версии файла robots.txt.
Помните о том, что вносить правки в окне проверки можно, но они не приведут к автоматическому изменению в файле robots.txt вашего сайта. Исправлять код придётся вручную через админку.