Robots.txt – публікується на сайті з метою приховати конкретні сторінки від сканування пошуковими системами, формат – текстовий файл. Просування сайту в пошукових системах неможливо без впровадження Robots.txt.
Навіщо потрібен файл robots.txt?
- Інформацію на сторінках необхідно приховати від пошукових роботів (неунікальний контент, форми автозаповнення).
- Приховати скопійований неунікальний контент.
- Збереження конфіденційності всіх розділів веб-сайту (наприклад, внутрішнього сайту компанії).
- Інструкції для роботів, які потребують точних вказівок (посилання, реклама).
- Заборона на сканування певних видів файлів на ресурсі (ПДФ, зображення).
- Сайт знаходиться на етапі розробки.
Кожна із зазначених вище ситуацій може контролюватися іншими методами, проте файл robots.txt виступає оптимальним рішенням, налаштування якого не вимагає технічних навичок.
Як створити файл robots.txt
Використовується будь-який текстовий редактор. Структура проста – це список користувацьких агентів і заборонених файлів і каталогів.
Інструкції можна налаштувати для трьох цілей:
- Повний дозвіл: проіндексувати весь контент.
- Повна заборона: контент не можна сканувати.
- Часткове вирішення: можливість сканування потрібного вмісту.
Повний дозвіл – весь сайт сканується
Більшість власників ресурсів воліють, щоб боти індексували всі частини і розділи. Для цього існує кілька способів.
- Чи не впроваджувати на сайт файл robots.txt
Не знайшовши потрібного файлу із заборонами, бот отримує право на індексацію всього ресурсу. - Створити порожній файл
Через відсутність інструкцій у файлі, бот сканує весь сайт. - Використовувати команду:
Забороняє індексацію певних веб-сторінок на ресурсі.
Повна заборона від сканування
Пошукові боти НЕ будуть індексувати веб-сторінки.
Щоб заблокувати всі існуючі пошукові системи, потрібно прописати код:
Інструкція robot.txt. значення:
- User-agent:
Задає напрямок для конкретного робота (Google, Яндекс). Використовується двома способами:
- Послати одну команду всім роботам
Рядок означає: “ці правила стосуються всіх пошукових роботів без винятків”.
- Послати команду конкретному роботу
У рядку написано “ці вказівки стосуються тільки Googlebot”.
- Disallow
“Disallow”: вказує роботам папки, які не потрібно індексувати. Наприклад, не індексувати фотографії на ресурсі. Для цього всі файли збираються в одну папку “photos” і прописується команда:
Частина “User-agent *” говорить: “Ця команда стосується всіх пошукових роботів. “Disallow: / photos” говорить: “Не відвідувати і не індексувати папку з моїми фотографіями”.
- Allow
“Allow:” повідомляє роботу, що можна переглядати файл у папці, яка “заборонена” іншими інструкціями. Наприклад, ми помістили всі фотографії в одну папку з ім’ям “photos” і створили інструкцію:
У цій папці є фотографія myhouse.jpg, яку необхідно проіндексувати роботом. Виглядає це так:
- Sitemap
Карта сайту (Sitemap) використовується для надання роботу списку сторінок, які він може сканувати.
Надаючи карту сайту, збільшується кількість індексованих сторінок. Карта сайту повідомляє роботам, коли сторінка останній раз змінювалася, важливість і частоту оновлення сторінок.
Додаючи карту сайту в файл, вона автоматично сканується пошуковими системами.
Robots.txt приклад
Приклад robots.txt може виглядати так:
Розшифровка:
User-agent: * – В першому рядку пояснюється, що всі веб-сканери повинні виконувати описані правилам. Зірочка вказує на всі пошукові системи в цьому контексті.
Disallow: /ebooks/*.pdf – в поєднанні з першим рядком ця посилання означає, що жоден з ботів не може сканувати файли pdf в папці ebooks на даному веб-сайті. Це означає, що пошукові системи не будуть включати зазначені прямі посилання PDF в результати пошуку.
Disallow: / staging / – разом з першим рядком цей рядок просить всі сканери не перевіряти що-небудь в проміжній папці веб-сайту. Корисно, якщо ви тільки запускаєте тест і не хочете, щоб проміжний контент з’являвся в результатах пошуку.
Четверта стрічка пояснює, що за такі правила повинен виконувати тільки один конкретний сканер, Google Image.
Disallow: / images / – Сканер Google Images не виконує сканування зображень в папці з зображеннями.
Перевірка robots.txt на правильність
Важливо, щоб файл був правильно налаштований. Одна помилка, і весь сайт може бути деіндексовано.
Для перевірки коректності оформлення robots.txt використовуйте сервіси Google и Яндекс. Для цього потрібно ввести вихідний код файлу і url сайту.
Помилки при заповненні
Повторення директив user-agent в певних блоках
Боти пошукової системи орієнтуються на найближчий блок user-agent, інші блоки user-agent – ігноруються.
Googlebot буде виконувати одне правило, зазначене для конкретного бота Google, не звертаючи уваги на інші.
Боти враховують найдовше правило
Правила враховуються у випадках, коли кількість символів в інструкції більше.
У наведеному прикладі перший рядок заборонений, оскільки в правилі заборони більше співпадаючих символів.
Додавання правил для різних піддоменів в один файл
Слід уникати включення інструкцій для різних субдоменів. Для окремого субдомена прописується окремий robots.txt.
Ігнорування регістру
Боти чутливі до регістру, тому потрібно впроваджувати кілька правил для різних випадків.
Додавання додаткової косої лінії
Перевірку robots.txt потрібно проводити мануально і за допомогою спеціальних сервісів.
коментарів