Создание сайтов и веб-сервисов

Комплексное продвижение и поддержка проектов

г. Хмельницкий, ул. Заречанская, 3/1, этаж 5, офис 505

Что такое файл robots.txt и для чего его используют

SEO продвижение 

19.04.2019

Что такое файл robots.txt и для чего его используют

Что такое файл robots.txt?

Robots.txt — публикуется на сайте с целью скрыть конкретные страницы от сканирования поисковиками, формат — текстовый файл. Продвижение сайта в поисковых системах невозможно без внедрения Robots.txt.

Зачем нужен файл robots.txt?

  • Информацию на страницах необходимо скрыть от поисковиков (неуникальный контент, формы автозаполнения).
  • Скрыть скопированный неуникальный контент;
  • Сохранение конфиденциальности всех разделов веб-сайта (например, внутреннего сайта компании) ;
  • Инструкции для роботов, требующие точных указаний (ссылки, реклама);
  • Запрет на сканирование определенных видов файлов на ресурсе (ПДФ, изображения);
  • Сайт находится на этапе разработки.

Каждая из указанных выше ситуаций может контролироваться другими методами, однако файл robots.txt оптимальное решение, настройка которого не требует технических навыков.

Как создать файл robots.txt

Используется любой текстовый редактор. Структура простая — это список пользовательских агентов и запрещенных файлов и каталогов.

Инструкции можно настроить для трех целей:

  • Полное разрешение: проиндексировать весь контент.
  • Полный запрет: контент нельзя сканировать.
  • Частичное разрешение: возможность сканирования нужного содержимого.

Полное разрешение — весь сайт сканируется

Большинство владельцев ресурсов предпочитают,  чтобы боты индексировали все части и разделы. Для этого существует несколько способов.

  • Не внедрять на сайт файл robots.txt
    Не найдя нужного файла с запретами, бот получает право на индексацию всего ресурса.
  • Создать пустой файл
    Из-за отсутствия инструкций в файле, бот сканирует весь сайт.
  • Использовать команду:
    Директива сканирования всего сайта

Запрещает индексацию определенных веб-страниц на ресурсе.

Полный запрет от сканирования
Поисковые боты не будут индексировать веб-страницы.

Чтобы заблокировать всех существующих поисковиков, нужно прописать код:

Полный запрет сканирования сайта

Инструкция robot.txt. Значения:

  • User-agent:

Задает направление для конкретного робота(Google, Яндекс). Используется двумя способами:

  1. Послать одну команду всем роботам
    Команда User Agent

Строка означает: «эти правила касаются всех поисковых ботов без исключений».

  1. Послать команду конкретному роботу
    Директива User Agent для Google

В строке написано «эти указания относятся только к Googlebot».

  • Disallow

«Disallow»: указывает роботам папки, которые не нужно индексировать. Например, не индексировать фотографии на ресурсе. Для этого все файлы собираются в одну папку «photos» и прописывается команда:
Директива Disallow robots.txt

Часть «User-agent *» говорит: «Эта команда относится ко всем поисковикам». «Disallow: / photos» гласит: «Не посещайте и не индексируйте папку с моими фотографиями».

  • Allow

«Allow:» сообщает роботу, что можно просматривать файл в папке, которая «запрещена» другими инструкциями. Например, мы поместили все фотографии в одну папку с именем «photos» и создали инструкцию:
Директива Disallow robots.txt

В этой папке есть фотография myhouse.jpg, которую необходимо проиндексировать роботом. Выглядит это так:
Директива Allow в robots.txt

  • Sitemap

Карта сайта (Sitemap) используется для предоставления роботу списка страниц, которые он может сканировать.

Предоставляя карту сайта, увеличивается количество индексируемых страниц. Карта сайта сообщает роботам, когда страница последний раз изменялась, важность и частоту обновления страниц.

Добавляя карту сайта в файл, она автоматически сканируется поисковыми системами.
Директива sitemap в robots.txt

Robots.txt пример

Пример robots.txt может выглядеть так:
Пример файла robots.txt

Расшифровка:

User-agent: * — В первой строке поясняется, что все веб-сканеры должны следовать приведенным правилам. Звездочка указывает на всех поисковиков в этом контексте.

Disallow: /ebooks/*.pdf — в сочетании с первой строкой эта ссылка означает, что ни один из ботов не может сканировать файлы pdf в папке ebooks на данном веб-сайте. Это означает, что поисковые системы не будут включать указанные прямые ссылки PDF в результаты поиска.

Disallow: / staging / — вместе с первой строкой эта строка просит все сканеры не сканировать что-либо в промежуточной папке веб-сайта. Полезно, если вы только запускаете тест и не хотите, чтобы промежуточный контент появлялся в результатах поиска.

Четвертая строка объясняет, что за следующими правилами должен следовать только один конкретный сканер, Google Image.

Disallow: / images / — Сканер Google Images не сканирует изображения в папке с изображениями.

Проверка robots.txt на правильность

Важно, чтобы файл был правильно настроен. Одна ошибка, и весь сайт может быть деиндексирован.

Для проверки корректности оформления robots.txt используйте сервисы Google и Яндекс. Для этого нужно ввести исходный код файла и url сайта.

Ошибки при заполнении

Повторение директив user-agent в определенных блоках

Боты поисковой системы ориентируются на ближайший блок user-agent, остальные блоки user-agent — игнорируются.

Googlebot будет следовать одному правилу, указанному для конкретного бота Google, не обращая внимания на остальные.
Ошибка в повторении директив

 

Боты учитывают самое длинное правило

Правила учитываются в случаях, когда количество символов в инструкции больше.
Учёт длинных правил дирректив

В приведенном примере первая строка запрещена, поскольку в правиле запрета больше совпадающих символов.

Добавление правил для разных поддоменов в один файл

Следует избегать включения инструкций для разных субдоменов. Для отдельного поддомена прописывается отдельный robots.txt.

Игнорирование регистра

Боты чувствительны к регистру, поэтому нужно внедрять несколько правил для разных случаев.
Игнорирование регистра в robots

Добавление дополнительной косой
Дополнительный знак в конце файла

 

Проверку robots.txt нужно проводить мануально и с помощью специальных сервисов.

0

комментариев

Добавить комментарий

Получай новости первым

Спасибо! Ваше сообщение отправлено.