Що таке файл robots.txt і для чого його використовують

SEO просування 
Що таке файл robots.txt і для чого його використовують

Robots.txt – публікується на сайті з метою приховати конкретні сторінки від сканування пошуковими системами, формат – текстовий файл. Просування сайту в пошукових системах неможливо без впровадження Robots.txt.

Навіщо потрібен файл robots.txt?

  • Інформацію на сторінках необхідно приховати від пошукових роботів (неунікальний контент, форми автозаповнення).
  • Приховати скопійований неунікальний контент.
  • Збереження конфіденційності всіх розділів веб-сайту (наприклад, внутрішнього сайту компанії).
  • Інструкції для роботів, які потребують точних вказівок (посилання, реклама).
  • Заборона на сканування певних видів файлів на ресурсі (ПДФ, зображення).
  • Сайт знаходиться на етапі розробки.

Кожна із зазначених вище ситуацій може контролюватися іншими методами, проте файл robots.txt виступає оптимальним рішенням, налаштування якого не вимагає технічних навичок.

Як створити файл robots.txt

Використовується будь-який текстовий редактор. Структура проста – це список користувацьких агентів і заборонених файлів і каталогів.

Інструкції можна налаштувати для трьох цілей:

  • Повний дозвіл: проіндексувати весь контент.
  • Повна заборона: контент не можна сканувати.
  • Часткове вирішення: можливість сканування потрібного вмісту.

Повний дозвіл – весь сайт сканується

Більшість власників ресурсів воліють, щоб боти індексували всі частини і розділи. Для цього існує кілька способів.

  • Чи не впроваджувати на сайт файл robots.txt
    Не знайшовши потрібного файлу із заборонами, бот отримує право на індексацію всього ресурсу.
  • Створити порожній файл
    Через відсутність інструкцій у файлі, бот сканує весь сайт.
  • Використовувати команду:
    Директива сканування всього сайту

Забороняє індексацію певних веб-сторінок на ресурсі.

Повна заборона від сканування
Пошукові боти НЕ будуть індексувати веб-сторінки.

Щоб заблокувати всі існуючі пошукові системи, потрібно прописати код:

Повна заборона на сканування сайту

Інструкція robot.txt. значення:

  • User-agent:

Задає напрямок для конкретного робота (Google, Яндекс). Використовується двома способами:

  1. Послати одну команду всім роботам
    Команда User Agent

Рядок означає: “ці правила стосуються всіх пошукових роботів без винятків”.

  1. Послати команду конкретному роботу
    Директива User Agent для Google

У рядку написано “ці вказівки стосуються тільки Googlebot”.

  • Disallow

“Disallow”: вказує роботам папки, які не потрібно індексувати. Наприклад, не індексувати фотографії на ресурсі. Для цього всі файли збираються в одну папку “photos” і прописується команда:
Директива Disallow robots.txt

Частина “User-agent *” говорить: “Ця команда стосується всіх пошукових роботів. “Disallow: / photos” говорить: “Не відвідувати і не індексувати папку з моїми фотографіями”.

  • Allow

“Allow:” повідомляє роботу, що можна переглядати файл у папці, яка “заборонена” іншими інструкціями. Наприклад, ми помістили всі фотографії в одну папку з ім’ям “photos” і створили інструкцію:
Директива Allow robots.txt

У цій папці є фотографія myhouse.jpg, яку необхідно проіндексувати роботом. Виглядає це так:
Директива Allow в robots.txt

  • Sitemap

Карта сайту (Sitemap) використовується для надання роботу списку сторінок, які він може сканувати.

Надаючи карту сайту, збільшується кількість індексованих сторінок. Карта сайту повідомляє роботам, коли сторінка останній раз змінювалася, важливість і частоту оновлення сторінок.

Додаючи карту сайту в файл, вона автоматично сканується пошуковими системами.
Директива sitemap в robots.txt

Robots.txt приклад

Приклад robots.txt може виглядати так:
Приклад файла robots.txt

Розшифровка:

User-agent: * – В першому рядку пояснюється, що всі веб-сканери повинні виконувати описані правилам. Зірочка вказує на всі пошукові системи в цьому контексті.

Disallow: /ebooks/*.pdf – в поєднанні з першим рядком ця посилання означає, що жоден з ботів не може сканувати файли pdf в папці ebooks на даному веб-сайті. Це означає, що пошукові системи не будуть включати зазначені прямі посилання PDF в результати пошуку.

Disallow: / staging / – разом з першим рядком цей рядок просить всі сканери не перевіряти що-небудь в проміжній папці веб-сайту. Корисно, якщо ви тільки запускаєте тест і не хочете, щоб проміжний контент з’являвся в результатах пошуку.

Четверта стрічка пояснює, що за такі правила повинен виконувати тільки один конкретний сканер, Google Image.

Disallow: / images / – Сканер Google Images не виконує сканування зображень в папці з зображеннями.

Перевірка robots.txt на правильність

Важливо, щоб файл був правильно налаштований. Одна помилка, і весь сайт може бути деіндексовано.

Для перевірки коректності оформлення robots.txt використовуйте сервіси Google и Яндекс. Для цього потрібно ввести вихідний код файлу і url сайту.

Помилки при заповненні

Повторення директив user-agent в певних блоках

Боти пошукової системи орієнтуються на найближчий блок user-agent, інші блоки user-agent – ігноруються.

Googlebot буде виконувати одне правило, зазначене для конкретного бота Google, не звертаючи уваги на інші.
Помилка в повторенні директив

 

Боти враховують найдовше правило

Правила враховуються у випадках, коли кількість символів в інструкції більше.
Врахування довгих правил директив

У наведеному прикладі перший рядок заборонений, оскільки в правилі заборони більше співпадаючих символів.

Додавання правил для різних піддоменів в один файл

Слід уникати включення інструкцій для різних субдоменів. Для окремого субдомена прописується окремий robots.txt.

Ігнорування регістру

Боти чутливі до регістру, тому потрібно впроваджувати кілька правил для різних випадків.
Ігнорування реєстру в robots

Додавання додаткової косої лінії
Додатковий знак вкінці файлу

 

Перевірку robots.txt потрібно проводити мануально і за допомогою спеціальних сервісів.

Залишити відповідь

Отримуй новини першим

Дякуємо! Ваше повідомлення надіслано.