Что такое robots.txt - создание файла роботс.txt

Довольно часто вебмастера и разработчики сталкиваются с вопросами как правильно создать файл robots.txt, что прописывать в файле роботс.txt и как закрыть ту или другую страницу от индексации с помощью robots.txt. Давайте рассмотрим все по порядку.

Что такое файл robots.txt

Иногда бывает нужно скрыть некоторые страницы сайта от приходящих на него поисковых роботов и таким образом закрыть эти страницы от индексации. Сам файл robots.txt должен лежать на сервере в корневом каталоге сайта. Если его там нет или он лежит в любой другой папке эффекта не будет, т.к. робот поисковой системы его попросту не найдет, а если и найдет, то не поймет что с ним делать.

Как правильно создать файл robots.txt и что в нем прописывать

Создать robots.txt очень просто - открываем Блокнот или любой другой текстовый редактор (Word, Notepad++, Sublime Text и т.д.) и создаем новый текстовый файл с названием robots и расширением .txt. Само содержание файла являет собой перечень команд, обращенных к тому или иному поисковому роботу или универсальные команды сразу для всех. Первая строка - это имя робота, вторая - страницы, разделы или подразделы, которые мы хотим закрыть от видимости поисковых систем. Если нужно чтобы поисковики видели весь сайт, то хватит и одной универсальной команды, а содержание файла роботс.txt примет вид:

User-agent: *
Disallow:

Host: www.site.com

В данном примере User-agent и звездочка после двоеточия означают, что команда действует для роботов всех поисковых систем. Слово Disallow c двоеточием, после которого ничего не указано значит, что весь сайт полностью открыт для индексации. Строка Host показывает какую версию сайта робот должен считать главной - с www или без (в данном случае робот должен считать главным зеркало сайта с www).

Как закрыть страницу или сайт от индексации с помощью robots.txt

Для того, чтобы закрыть от индексации весь сайт и чтобы поисковики его не видели, нужно прописать в robots.txt следующие команды:

User-agent: *
Disallow: /

Host: www.site.com

Чтобы закрыть от индексации любую страницу, нужно прописать в robots.txt после Disallow: путь к ней без учета адреса самого сайта - к примеру мы хотим закрыть страницу http://www.site.com/admin.php, тогда нам нужно указать адрес /admin.php. Также можно закрыть директорию (папку) - после ее адреса нужно добавить "/" (как мы это сделали с директорией api). При этом все страницы, которые находятся в данной директории (к примеру http://www.site.com/api/sample-page.php) тоже индексироваться не будут.

User-agent: *
Disallow: /admin.php
Disallow: /api/

Host: www.site.com

Также в файле robots.txt можно использовать регулярные выражения (RegExp). Проверить как сейчас настроен этот файл и какие страницы он блокирует вы всегда можете в Google Webmaster Tools -> Crawl -> Blocked URLs.