Как и почему запретить ботам сканировать ваш сайт?

Jul 05
Как и почему запретить ботам сканировать ваш сайт?

Как и почему нужно запретить ботам сканировать ваш сайт?

Наверняка когда вы хотите сделать большую часть контента вашего ценного интернет-сайта как можно более лёгкой для сканирования поисковыми роботами, то в некоторых случаях вы наверняка захотите поискать и потом заблокировать вредных "ботов".

По большей части "боты" и "пауки" относительно безвредны.

Например, вы же хотите, чтобы "бот" поисковой системы просканировал и проиндексировал ваш продвигаемый веб-сайт.

Однако "боты" и "пауки" иногда могут быть проблемой и создавать нежелательный (паразитный) трафик!

Такой нежелательный трафик может привести к:

  • Обфускация того, откуда идет трафик;
  • Запутанные и трудные для понимания отчеты веб-аналитики;
  • Неверная атрибуция в системах аналитики веб-сайтов;
  • Увеличение затрат на пропускную способность, за которую вы в итоге заплатите хостинг-провайдеру;
  • Другие неприятности.

Естественно во всемирной Сети есть "хорошие боты" и "плохие боты".

Хорошие "боты" работают в фоновом режиме, редко атакуя другого пользователя или веб-сайт.

Плохие боты нарушают безопасность веб-сайта или используются в качестве широкой, крупномасштабной бот-сети для проведения DDos-атак на крупную организацию (то, что не может устроить лишь одна вычислительная машина).

Вот что вам следует знать о ботах и о том, как предотвратить сканирование вашего продвигаемого веб-сайта всякими разными злоумышленниками и хакерами.

Что же такое термин "бот"?

Точное понимание того, что такое бот, может помочь определить, почему нам нужно его заблокировать и не допустить сканирования нашего сайта.

Бот - это просто сокращение от слова «робот», и представляет собой лишь программное приложение, предназначенное для многократного повторения определенной задачи.

Для многих S.E.O.-специалистов использование ботов связано с масштабированием S.E.O.-кампании.

А термин «масштабирование» означает, что вы автоматизируете как можно больше оптимизаторской работы, чтобы побыстрее получать лучшие результаты вашего упорного труда.

Распространенные заблуждения о ботах.

Возможно, вы уже столкнулись с неправильным представлением о том, что все боты — зло, и их нужно однозначно запретить на вашем сайте.

Но это не могло быть далеко от истины.

Важно знать, что "Гугл" - это бот. Да и "Яндекс" - это тоже бот.

Если вы заблокируете бота поисковой системы, можете ли вы предположить, что произойдет с рейтингом и посещаемостью вашего сайта в поисковых системах по ключевым словам и фразам?!

Некоторые боты могут быть вредоносными, созданными для создания поддельного контента, или даже выдающими себя за законные веб-сайты для кражи ваших данных.

Однако боты не всегда представляют собой вредоносные скрипты, запускаемые хитрыми злоумышленниками.

Некоторые из них могут быть отличными инструментами, облегчающими работу специалистам по поисковой оптимизации, например, автоматизация повторяющихся задач или извлечение полезной информации из поисковых систем.

Некоторые распространенные боты, которые уже давно используют S.E.O.-специалисты, — это такие гиганты рынка как "Semrush" и "Ahrefs".

Эти боты извлекают полезные данные из поисковых систем, помогают S.E.O.-специалистам автоматизировать и выполнять задачи, а также могут облегчить вашу работу, когда речь идет о S.E.O.-задачах.

Зачем вам нужно блокировать ботов от сканирования вашего сайта?

Хотя есть много хороших ботов, есть и плохие.

Плохие боты могут помочь украсть ваши личные данные или вывести из строя работающий веб-сайт.

Обычно оптимизаторы хотят заблокировать любых плохих ботов, которых сможем обнаружить.

Нелегко обнаружить каждого бота, который может сканировать ваш сайт, однако немного покопавшись, вы вполне можете найти даже вредоносных ботов, которым вы больше не хотите разрешать посещать свой сайт.

Так зачем вам нужно блокировать ботов от сканирования вашего сайта?!

Некоторые распространенные причины, по которым вы можете захотеть заблокировать сканирование вашего веб-сайта ботами, могут вот что включать:

Защита ваших ценных данных.

Возможно, вы обнаружили, что плагин в системе управления сайтом привлекает ряд вредоносных ботов, которые хотят украсть ваши ценные потребительские (пользовательские) данные.

Или вы обнаружили, что бот воспользовался уязвимостью системы безопасности, чтобы добавить плохие ссылки на весь ваш веб-сайт.

Или кто-то пытается спамить вашу контактную форму с помощью бота .

Здесь вам нужно предпринять определенные шаги, чтобы защитить ваши ценные данные от компрометации ботом.

Превышение пропускной способности.

Если вы получите приток бот-трафика, скорее всего, ваша пропускная способность также резко возрастет, что приведет к непредвиденным пере-расходам и расходам, которых вы бы предпочли вовсе не иметь.

В таких случаях вам абсолютно необходимо запретить ботам-нарушителям сканировать ваш сайт.

Вы же не хотите ситуации, когда вы платите тысячи денег за пропускную способность, за которую вы не заслуживаете оплаты?!

А вы точно знаете что такое пропускная способность?

Пропускная способность — это передача данных с вашего web-сервера на клиентскую сторону (веб-браузер).

Каждый раз, когда данные отправляются при попытке подключения, вы используете пропускную способность.

Когда боты получают доступ к вашему сайту, то вы тратите пропускную способность впустую. И вы даже можете понести дополнительные финансовые расходы из-за превышения выделенной вам хостинг-провайдером ежемесячной пропускной способности.

Вы должны были получить хотя бы некоторую подробную информацию от вашего хоста, когда вы подписались на свой пакет хостинга.

Ограничение плохого поведения.

Если вредоносный бот каким-то образом начал нацеливаться на ваш сайт, было бы уместно предпринять шаги, чтобы контролировать это.

Например, вы хотели бы убедиться, что этот бот не сможет получить доступ к вашим контактным формам. Вы хотите убедиться, что бот не может получить доступ к вашему сайту.

Сделайте это до того, как бот сможет скомпрометировать ваши самые важные файлы.

Убедившись, что ваш веб-сайт правильно заблокирован и защищен, можно заблокировать этих ботов, чтобы они не причиняли слишком большого ущерба.

Как эффективно заблокировать ботов на вашем веб-сайте?

Вы можете использовать два метода для эффективной блокировки ботов на вашем сайте.

Первый — через текстовой файл H T T P S ://site.com/robots.txt.

Это файл, который находится в корне вашего веб-сервера. Обычно у вас его может и не быть по умолчанию, и вам придется его создать.

Вот несколько очень полезных кодов Robots.txt, которые вы можете использовать для блокировки большинства поисковых роботов и ботов на вашем сайте:

Запретить роботу Google-bot, Yandex-bot доступ к вашему серверу.

Если по какой-то причине вы хотите, чтобы робот Yandex-bot вообще не сканировал ваш веб-сервер, тогда вам следует использовать следующий код:

User-agent: Yandexbot
Disallow: /

Вы точно хотите использовать этот код только для того, чтобы ваш сайт вообще не индексировался?

Не используйте это по своей спонтанной прихоти!

Имейте конкретную причину, чтобы убедиться, что вы вообще не хотите, чтобы боты сканировали ваш сайт.

Например, распространенной проблемой является желание сохранить ваш тестовый сайт вне индекса.

Вы не хотите, чтобы поисковики "Google" и "Yandex" сканировали пробный сайт и ваш реальный сайт, потому что вы удваиваете свой контент и в результате создаете проблемы с повторяющимся контентом.

Запрет всех ботов на вашем Web-сервере.

Если вы хотите, чтобы все боты вообще не сканировали ваш сайт, вам нужно использовать следующий код:

User-agent: *
Disallow: /

Это код для запрета всех ботов. Помните наш пример промежуточного сайта выше?

Возможно, вы хотите исключить промежуточный сайт из всех ботов, прежде чем полностью развернуть свой сайт для всех из них.

Или, возможно, вы хотите, чтобы ваш сайт оставался приватным какое-то время, прежде чем запускать его для всего мира.

В любом случае, это скроет ваш сайт от посторонних глаз.

Не позволяйте ботам сканировать определенную папку.

Если по какой-то причине вы хотите, чтобы боты не сканировали определенную папку (директорию), которую вы хотите указать, вы также можете это сделать.

Ниже приведен код, который вы могли бы использовать:

User-agent: *
Disallow: /имя-папки/

Есть много причин, по которым кто-то хотел бы исключить ботов из папки. Возможно, вы хотите, чтобы определенный контент на вашем сайте не индексировался.

Или, может быть, эта конкретная папка будет вызывать определенные типы проблем с дублированным содержимым, и вы хотите полностью исключить ее из сканирования.

В любом случае, это поможет вам сделать это.

Распространенные ошибки в файле Robots.txt.

S.E.O.-специалисты допускают несколько ошибок при работе с Robots.txt. К наиболее распространенным ошибкам относятся:

  • Использование команды "disallow" в Robots.txt, так и "noindex";
  • Использование косую черту "Слэш" / (все папки вниз от корня), когда вы действительно имеете в виду конкретный URL-адрес;
  • Не включение правильного пути;
  • Не тестирование файла Robots.txt разными удобными способами;
  • Не знание правильного имени пользовательского агента, которого вы хотите заблокировать.

Использование disallow в Robots.txt и Noindex на странице.

Джон Мюллер из компании "Google" публично заявил, что поисковые оптимизаторы не должны использовать одновременно "disallow" в файле Robots.txt и "noindex" на самой веб-странице.

Если вы сделаете и то, и другое, например "Google" не сможет просканировать веб-страницу, чтобы увидеть "noindex", поэтому потенциально он все равно может проиндексировать страницу.

Вот почему вы должны использовать только один или другой, а не оба.

Использование косой черты, когда вы действительно имеете в виду конкретный URL-адрес.

Косая черта после "Disallow" означает «от этой корневой папки вниз, целиком и полностью навечно».

Каждая страница на вашем сайте будет заблокирована навсегда, пока вы ее не измените.

Одна из наиболее распространенных проблем, которые обнаруживаются при аудите многих веб-сайтов, заключается в том, что кто-то случайно добавил косую черту к «Disallow:» и заблокировал "Google" от сканирования всего своего сайта :(

Не включили правильный путь.

Все мы понимаем, что иногда настройка текстового файла Robots.txt может быть даже очень сложной задачей.

Если вы не могли вспомнить точный правильный путь изначально, поэтому вы прошлись по файлу и пролистали его.

Проблема в том, что все эти похожие пути приводят к "Ошибке 404", потому что они отличаются на один символ.

Вот почему важно всегда перепроверять пути, которые вы используете для определенных URL-адресов.

Вы не хотите рисковать добавлением URL-адреса в Robots.txt, который не будет работать в Robots.txt.

Незнание правильного имени пользовательского агента.

Если вы хотите заблокировать определенный пользовательский агент, но не знаете имени этого пользовательского агента, это проблема.

Вместо того, чтобы использовать имя, которое, как вам кажется, вы помните, проведите небольшое исследование и выясните точное имя пользовательского агента, который вам нужен.

Если вы пытаетесь заблокировать определенных ботов, то это имя становится чрезвычайно важным в ваших усилиях.

Зачем же ещё блокировать ботов и пауков?

Есть и другие причины, по которым S.E.O.-специалисты хотели бы заблокировать сканирование своего сайта разными ботами.

Возможно, они глубоко увлечены серыми (или черными) P.B.N. и хотят скрыть свою частную сеть блогов от посторонних глаз (особенно от своих конкурентов).

Они могут сделать это, используя Robots.txt, чтобы заблокировать обычных ботов, которых S.E.O.-специалисты используют для оценки своих конкурентов.

Например популярные старые добрые "Семраш" и "Ахрефс".

Если вы хотите заблокировать "Ahrefs", вот код для этого:

User-agent: AhrefsBot
Disallow: /

Это заблокирует сканирование всего вашего сайта "AhrefsBot".

Если вы хотите заблокировать "Semrush", это код для этого.

Нужно добавить много строк кода, поэтому будьте осторожны при их добавлении:

Чтобы запретить "SemrushBot" сканировать ваш сайт на предмет различных S.E.O. и технических проблем:

User-agent: SiteAuditBot
Disallow: /

Чтобы запретить "SemrushBot" сканировать ваш сайт для инструмента аудита обратных ссылок:

User-agent: SemrushBot-BA
Disallow: /

Чтобы запретить "SemrushBot" сканировать ваш сайт с помощью инструмента "On Page S.E.O. Checker" или аналогичных инструментов:

User-agent: SemrushBot-SI
Disallow: /

Чтобы запретить "SemrushBot" проверять URL-адреса на вашем сайте для инструмента "SWA":

User-agent: SemrushBot-SWA
Disallow: /

Чтобы запретить "SemrushBot" сканировать ваш сайт для инструментов "Content Analyzer" и "Post Tracking":

User-agent: SemrushBot-CT
Disallow: /

Чтобы запретить "SemrushBot" сканировать ваш сайт для мониторинга бренда:

User-agent: SemrushBot-BM
Disallow: /

Чтобы запретить "SplitSignalBot" сканировать ваш сайт для инструмента "SplitSignal":

User-agent: SplitSignalBot
Disallow: /

Чтобы запретить "SemrushBot-COUB" сканировать ваш сайт с помощью инструмента "Content Outline Builder":

User-agent: SemrushBot-COUB
Disallow: /

Использование файла .HTACCESS для блокировки ботов.

Если вы разместили веб-сайт на веб-сервере APACHE, вы можете использовать файл .htaccess вашего сайта для блокировки определенных ботов.

Например, вот как можно использовать код в .htaccess, чтобы заблокировать "AhrefsBot".

Обратите внимание: будьте осторожны с этим кодом!

Если вы не знаете, что делаете, вы можете вывести из строя свой веб-сервер.

Мы приводим этот код здесь только в качестве примера!

Убедитесь, что вы провели собственное исследование и попрактиковались, прежде чем добавлять его на рабочий сервер.

Order Allow, Deny
Deny from 51.222.152.133
Deny from 54.36.148.1
Deny from 195.154.122
Allow from all

Чтобы это работало правильно, убедитесь, что вы заблокировали все диапазоны IP-адресов, перечисленные в соответствующей статье в блоге сервиса "Ahrefs".

Если вам нужно всестороннее знакомство с .htaccess, посмотрите полное руководство на Apache.org.

Блокировка ботов и пауков может потребовать кропотливой работы.

Но это того стоит, в конце концов, не так ли?

Заблокировав доступ ботов и пауков к вашему сайту, вы не попадете в ту же ловушку, что и другие оптимизаторы.

Вы можете быть спокойны, зная, что ваш web-сайт защищен от определенных автоматизированных процессов.

Когда вы можете контролировать определённых ботов - это делает вашу работу намного полезнее для вас, как для S.E.O.-специалиста.

Если вам действительно нужно, то всегда следите за тем, чтобы можно было легко найти заблокировать конкретных ботов и поисковых роботов от сканирования вашего веб-сайта.

В итоге это постепенно приведет к:

  • Усилению безопасности продвигаемого веб-сайта,
  • Улучшению общей онлайн-репутации вашего ресурса,
  • Улучшению качества сайта в ближайшие годы.