Как увеличить краулинговый бюджет и ускорить индексацию страниц

Эту статью подготовила Инна Сидоренко, SEO Senior в WSS. Она объясняет, как работает краулинговый бюджет, по каким симптомам понять, что с сайтом что-то не так, и что делать, чтобы поисковики не пропускали важные страницы.
Если вы уже уверенно разбираетесь в диагностике и хотите сразу перейти к практике — листайте к разделу «Способы повысить краулинговый бюджет и улучшить индексацию». Там Инна собрала конкретные ошибки и приемы, которые помогут боту не заблудиться на вашем сайте.
На больших сайтах — маркетплейсах, агрегаторах, новостных порталах — поисковики регулярно не успевают обойти все страницы. Особенно если на сайте сотни тысяч URL, динамически создаются фильтры, есть региональные подразделы или постоянно появляется новый контент. Все это давит на краулинговый бюджет — ограниченный ресурс, который поисковик выделяет на обход сайта. Если его не хватает, часть страниц просто не попадает в индекс.
Что такое краулинговый бюджет и как он работает
Важно понимать: у бота может быть «желание» — выделенные на ваш сайт объемы, но не всегда есть возможность — за нее отвечают технические ограничения ресурса.
Представим: теоретически Googlebot готов обойти 1000 страниц вашего сайта за день. Но сервер отвечает медленно, а страницы открываются по 3–4 секунды — и вместо 1000 он физически успевает просканировать только 200–300.
Как выявить проблемы с краулинговым бюджетом
Прежде чем чинить сайт, нужно понять, что с ним не так. Вот список типичных ситуаций: если находите у себя хотя бы две — почти наверняка бюджет краулинга утекает куда-то не туда.
Как точно определить текущий уровень сканирования
Выявили проблемы — пора разбираться. Search Console дает лишь общее представление о состоянии индексации, но не показывает, как именно бот обходит сайт. Поэтому отправляемся в логи сервера — единственный достоверный источник информации о поведении поисковых роботов на вашем сайте.
Лог-файлы фиксируют:
какие боты приходят — Googlebot, Bingbot, Yandex и другие;
какие URL сканируются;
какие коды HTTP-ответов получают боты — 200, 301, 404, 500;
сколько времени уходит на обработку каждого запроса;
частота обращений к разным разделам сайта.
Для разных серверов логи находятся в разных местах:
Apache — /var/log/apache2/access.log
Nginx — /var/log/nginx/access.log
При Cloudflare или CDN — экспорт из панели управления.
А для анализа используйте специализированные сервисы:
Screaming Frog Log File Analyzer — десктопный софт, ориентированный на SEO-задачи. Универсальный инструмент для большинства проектов.
GoAccess — легкий, но наглядный. Подойдет, если нужно быстро собрать и визуализировать отчет.
ELK Stack (Elasticsearch + Logstash + Kibana) — комплексное решение для крупных и «тяжелых» проектов.
Способы повысить краулинговый бюджет и улучшить индексацию
Проблемы с индексацией легче предупредить. Но даже если ситуация уже запущена — ее можно поправить. Важный этап в оптимизации краулингового бюджета — это уменьшение количества бесполезных страниц. Пройдемся по тому, как не плодить сущности.
■ Не создавайте бесконтрольное количество страниц фильтров
На сайтах с каталогами товаров легко набегают десятки тысяч страниц на основе фильтров: по бренду, цветам, размерам и их комбинациям. Но у большинства таких страниц нет поискового спроса, то есть у их запросов нулевая или околонулевая частотность. Зато краулинговый бюджет они тратят исправно.
Создавать фильтрационные страницы стоит только тогда, когда они действительно ищутся. Прежде чем выводить фильтр в отдельную страницу:
Проверьте спрос — соберите частотность по ключевым словам с комбинациями фильтра (например, «купить кроссовки Nike 44 размер»).
Выделите коммерческие запросы с приставками «купить», «цена», «интернет-магазин».
Оставьте страницы только по фильтрам с реальным спросом и конкурентной выдачей.
Остальные — закрывайте от индексации или сканирования. Оставляйте их с гет-параметрами и блокируйте в robots.txt, а частотные выводите с ЧПУ и пускайте в индекс.
■ Найдите и удалите смысловые дубли страниц категорий
Иногда один и тот же товарный раздел дублируется под разным названием, но с одинаковым содержанием. Например, «смартфоны» и «мобильные телефоны». Такие страницы конкурируют между собой в поиске и каннибализируют трафик.
Как найти и убрать дубли:
Соберите названия всех категорий по H1 и их URL.
Проведите кластеризацию категорий. Если страницы попадают в один кластер, это признак дублирования.
Выделите основную страницу, а остальные удалите и настройте редиректы.
Сохраните ключевые слова с удаленной страницы: добавьте их в текст и мета-теги оставшейся, при этом используя названия удаленной категории. Например, если убрали раздел «HDD», а оставили «жесткие диски» — используйте оба варианта в оптимизации «жестких дисков».
■ Удалите «нулевые» категории без поискового спроса
Категорий на сайте может быть много, но не все из них кому-то нужны. Некоторые не имеют никакого поискового спроса — их никто не ищет и не кликает.Такие страницы не генерируют трафик, поэтому их легко найти и удалить.
Как это сделать:
Соберите названия всех категорий по H1.
Добавьте коммерческие приставки «купить», «цена», «заказать».
Проверьте частотность ключевых фраз. В Wordstat это частота в “ ”.
Сгруппируйте фразы по кластерам. Если в кластере — ноль или близко к нулю, категория не нужна, такую категорию можно смело удалять.
Техническая оптимизация для увеличения краулингового бюджета
После того как очистили сайт от мусора, переходим к техническим аспектам. Они напрямую влияют на то, как быстро и глубоко бот сканирует сайт. Ниже — ключевые направления работ, где можно ускорить процесс.
Индексация новых страниц
Когда вы публикуете новый материал или обновляете старый, хочется, чтобы он сразу появился в поиске. Но обычно боты Google и Яндекса доходят до таких страниц через несколько дней, а то и недель. Это особенно критично, когда нужно быстро проиндексировать актуальный контент: новости, акции, свежие объявления или изменения в каталоге.
Чтобы не ждать, используйте инструменты принудительной отправки.
Для Google это Google Indexing API — он позволяет отправлять страницы на индексацию сразу после публикации.
Как работает:
Регистрируетесь в Google Cloud Console.
Получаете API-ключ.
Настраиваете CMS или скрипт для автоподачи новых ссылок.
Есть ограничения: не более 200 запросов в день. Google не гарантирует мгновенную индексацию, но сильно ускоряет ее.
Для Яндекса существует инструмент в Яндекс Вебмастере — в панели найдете ручную и массовую отправки URL на переобход.
Скорость загрузки
Поисковые боты работают в условиях строгого временного лимита. Когда страница загружается дольше 2–3 секунд, происходит следующее:
Googlebot сокращает глубину обхода и до внутренних страниц может и вовсе не дойти.
Уменьшается количество сканируемых за один визит URL.
Новые разделы попадают в очередь на индексацию с задержкой.
Чтобы это исправить, регулярно проверяйте скорость загрузки через PageSpeed Insights или WebPageTest. Оптимизируйте скрипты и изображения, а еще не забывайте про адаптивную версию — часто она работает хуже десктопной, хотя большинство пользователей приходят с мобилки.
Битые ссылки
404 и другие ошибки — это тупики для поискового бота. Используйте регулярные проверки через Screaming Frog. А найденные 404 либо восстанавливайте, либо, если страница удалена навсегда, заменяйте на 410 код.
Цепочки редиректов
Цепочки редиректов — это последовательность перенаправлений, когда страница А ведет на страницу Б, та — на В, и так далее. В идеальной ситуации пользователь и поисковый бот должны попадать на конечную страницу максимум через один редирект.
Каждое перенаправление заставляет поискового робота выполнять дополнительный HTTP-запрос. И если редиректов много, то вместо того чтобы сразу получить нужный контент, бот тратит время на заголовки, ожидание ответа сервера и переходы. Часть страниц просто выпадает из обхода. Особенно важно это для крупных сайтов, где одна цепочка может включать 5–7 звеньев.
Случаются и совсем плохие ситуации — циклические перенаправления, когда в цепочке возникает бесконечный цикл (А → Б → В → А). Поисковый робот застревает в нем, пока не сработает внутренний лимит на количество редиректов (обычно 5–10). Все это время бюджет сканирования расходуется впустую.
Как находить проблемные цепочки:
Вручную проверяйте подозрительные URL через браузерные инструменты разработчика (вкладка Network) или консольные утилиты типа curl.
Используйте SEO-инструменты (Screaming Frog, Netpeak Spider), которые автоматически обнаруживают длинные цепочки.
Смотрите логи: если бот бродит по редиректам, вы сразу заметите.
Динамический контент
Сайты на JavaScript-фреймворках (React, Vue, Angular) часто работают как SPA — Single Page Application. Проблема в том, что поисковый бот, заходя на такой сайт, видит только «скелет» — базовый HTML без содержимого. Контент подгружается позже с помощью JavaScript, а бот, в отличие от пользователя, ждать не будет и получит только пустую страницу.
Исправить это поможет серверный рендеринг (SSR).
Серверный рендеринг предполагает, HTML-страница формируется на сервере заранее и отправляется в браузер — и боту — в готовом виде. Это:
избавляет от необходимости исполнять JavaScript;
ускоряет индексацию;
упрощает анализ семантики страницы.
Настройка robots.txt
Файл robots.txt управляет тем, куда бот может заходить. Если оставить все открытым, он сканирует даже то, что не нужно: страницы с параметрами, фильтрами, сортировками и технические разделы.
Что закрывать от сканирования:
URL с параметрами ?sort=, ?filter=, ?utm=;
дубли страниц;
технические разделы /admin/, /cart/, /auth/.
→ И, кстати, не полагайтесь только на < meta name="robots" content="noindex" >
Хотя этот тег запрещает индексацию, он не запрещает сканирование. Бот все равно зайдет на страницы с тегом и потратит ресурсы, просто ничего не добавит в индекс. Если нужно ограничить обход, лучше закрыть URL в robots.txt.
Актуальность sitemap.xml
Sitemap — это карта для поисковика. И если она устарела, полна битых ссылок и редиректов, бот может заблудиться и «спустить» бюджет на то, что должно было быть закрыто или удалено.
Убедитесь, что в карте сайта содержатся только действующие страницы с кодом ответа 200. Исключите URL с перенаправлениями (3xx), ошибками (4xx/5xx) и временно удаленные страницы.
Настройте регулярное автообновление карты:
при ответах 404/410 — удалять страницу через 2–4 недели;
при изменении URL — своевременно заменять старые адреса.
→ Корректно используйте атрибуты lastmod, changefreq
Эти поля подсказывают боту, что страница изменилась. Но ими нельзя манипулировать.
Указывайте lastmod только при реальных изменениях, а не автоматически каждый день.
Не добавляйте время — только дата в формате YYYY-MM-DD.
Не обновляйте дату автоматически для всех страниц — это снизит доверие бота.
Не трогайте changefreq, если не уверены в его необходимости — поисковики на него почти не опираются.
Это позволит роботам сосредоточиться на новых и измененных страницах, не тратя бюджет на повторы.
HTTP-заголовки Last-Modified и If-Modified-Since
Поисковики регулярно сканируют уже известные страницы — чтобы проверить, не изменилось ли что-то. И если сайт не подсказывает, что страница осталась прежней, бот каждый раз загружает ее заново. Чтобы экономить бюджет, нужно правильно настроить HTTP-заголовки.
Как это работает:
Last-Modified: Wed, 21 Feb 2024 14:28:00 GMT
If-Modified-Since: Wed, 21 Feb 2024 14:28:00 GMT
Типичные ошибки:
Отправлять Last-Modified для страниц с динамическими AJAX-блоками без учета содержимого: страница, вроде, осталась прежней, но данные поменялись.
Использовать в Last-Modified время генерации страницы, а не время изменения контента.
Указывать другие даты в lastmod в sitemap и в заголовке — бот видит несостыковку и перестает доверять.
Заключение
Краулинговый бюджет — не бесконечный, а повысить его — большая и комплексная работа. Повторим. Чтобы ускорить индексацию:
начните с анализа логов;
очистите сайт от мусорных страниц и оптимизируйте структуру;
ускорьте загрузку;
настройте sitemap, robots.txt и заголовки.