Поисковые и вредоносные боты. Как снизить нагрузку на сервер

mychatik

Premium
Premium
26.05.15
423
316
mychatik.ru
#8
Не все "бесполезные" боты так уж и бесполезны.
Стоит также помнить, что блокируя доступ популярным онлайн-анализаторам вы усложняете себе задачу анализа своего сайта и конкурентов.
Да, если вам не важна известность сайта в сети, не интересует SEO-продвижение и в конце-концов ваш сервак на ладан дышит и падает от одного лишнего запроса - тогда да. Блокируем всех ботов, чтобы им неповадно ходить было :)))

Реально, данная проблема актуальна только для крупных сайтов, в основном - интернет-магазинов, да и то только в период праздников и распродаж, когда серверы и так работают на пределе своих возможностей.
А если ваш сайт состоит из 100-500 страниц и менее, то даже средний хостинг справится с такой внезапной нагрузкой без особых проблем. К тому же, VDS серверы способны выдерживать куда более высокие нагрузки.
В этот же список попадают MJ12bot, SEMrushBot, AhrefsBot.
Тут ещё, как говорится, "Бабка надвое сказала..."

MJ12bot - поисковый робот сервиса Majestic, которые собирает данные об исходящих ссылках на сайтах.
Робот нормально воспринимает канонические страницы, но на сайтах, где канонические URLы отсутствуют, начинает очень сильно "буксовать" на страницах, в URLах которых содержатся параметры, тем самым повышая нагрузку на сервер.
Это заметно на форумах, где в URL страницы часто добавляются сессии.
Проблема решается созданием для ботов отдельной категории зарегистрированных пользователей (по типу, как в phpBB).

AhrefsBot - этот робот, как и MJ12bot, анализирует страницы сайта на наличие внешних ссылок.
Сам сайт ahrefs.com предоставляет неплохой профессиональный сервис по оценке и анализу ссылок.

SEMrushBot - этого бота можно блокировать. Это инструмент для получения сведений о конкурентах. Хотя наличие или отсутствие доступа к сайту не спасёт вас от "шпионажа" - сервис получает сведения о сайтах со всех доступных (и недоступных ТЫЦ1, ТЫЦ2, ТЫЦ3) источников.

LinkpadBot - также собирает сведения для конкурентов.
Но, опять-таки, эта информация может понадобиться и вам, для анализа вашего сайта, а полная блокировка всех SEO-ботов может лишить вас этой возможности.

BLEXBot Crawler заявлен как робот поисковой системы - какой именно, на официальной странице не уточняется.

HubSpot Webcrawler - робот поисковой системы сайта amazon.com. На самом "Амазоне" заявлено, что данная платформа создана для компаний, которым нужно привлечь посетителей, т.е. по сути робот является сборщиком контента с интернет-магазинов.
Для остальных сайтов он бесполезен - и вот его тоже нужно "банить".
Этот бот, к тому же, портит статистику посещений сайта. Определив, что данный сайт не является интернет-магазином - он сразу же уходит с него.
После чего, может зайти проверить ваш сайт ещё и ещё раз - вдруг вы всё-таки решили открыть на нём магазин :)))
Всё бы ничего, но поисковики показывают этого робота, как посетителя с нулевым временем посещения и учитывает его при составлении общей статистики сайта.

На сайтах безоговорочно нужно блокировать различных спам-ботов (типа Xrumer и ему подобных).
Но эта дрянь редко приходит под своим "именем", а зачастую маскируется под нормальных посетителей.

А вот с тотальной блокировкой поисковиков и SEO-ботов не стоит горячиться.
Поисковые системы, даже самые экзотические, должны знать о вашем сайте.
При принятии решения о блокировке SEO-ботов - проанализируйте, нужна ли вашему сайту статистика от этого бота, а самое главное, какую нагрузку создаёт бот и как часто он заходит на сайт. А дальше решайте сами - блокировать, или не блокировать.