Довольно часто вебмастера и разработчики сталкиваются с вопросами как правильно создать файл robots.txt, что прописывать в файле роботс.txt и как закрыть ту или другую страницу от индексации с помощью robots.txt. Давайте рассмотрим все по порядку.
Что такое файл robots.txt
Иногда бывает нужно скрыть некоторые страницы сайта от приходящих на него поисковых роботов и таким образом закрыть эти страницы от индексации. Сам файл robots.txt должен лежать на сервере в корневом каталоге сайта. Если его там нет или он лежит в любой другой папке эффекта не будет, т.к. робот поисковой системы его попросту не найдет, а если и найдет, то не поймет что с ним делать.
Как правильно создать файл robots.txt и что в нем прописывать
Создать robots.txt очень просто - открываем Блокнот или любой другой текстовый редактор (Word, Notepad++, Sublime Text и т.д.) и создаем новый текстовый файл с названием robots и расширением .txt
. Само содержание файла являет собой перечень команд, обращенных к тому или иному поисковому роботу или универсальные команды сразу для всех. Первая строка - это имя робота, вторая - страницы, разделы или подразделы, которые мы хотим закрыть от видимости поисковых систем. Если нужно чтобы поисковики видели весь сайт, то хватит и одной универсальной команды, а содержание файла роботс.txt примет вид:
User-agent: *
Disallow:
Host: www.site.com
В данном примере User-agent
и звездочка после двоеточия означают, что команда действует для роботов всех поисковых систем. Слово Disallow
c двоеточием, после которого ничего не указано значит, что весь сайт полностью открыт для индексации. Строка Host
показывает какую версию сайта робот должен считать главной - с www или без (в данном случае робот должен считать главным зеркало сайта с www).
Как закрыть страницу или сайт от индексации с помощью robots.txt
Для того, чтобы закрыть от индексации весь сайт и чтобы поисковики его не видели, нужно прописать в robots.txt следующие команды:
User-agent: *
Disallow: /
Host: www.site.com
Чтобы закрыть от индексации любую страницу, нужно прописать в robots.txt после Disallow:
путь к ней без учета адреса самого сайта - к примеру мы хотим закрыть страницу http://www.site.com/admin.php
, тогда нам нужно указать адрес /admin.php
. Также можно закрыть директорию (папку) - после ее адреса нужно добавить "/" (как мы это сделали с директорией api
). При этом все страницы, которые находятся в данной директории (к примеру http://www.site.com/api/sample-page.php
) тоже индексироваться не будут.
User-agent: *
Disallow: /admin.php
Disallow: /api/
Host: www.site.com
Также в файле robots.txt можно использовать регулярные выражения (RegExp). Проверить как сейчас настроен этот файл и какие страницы он блокирует вы всегда можете в Google Webmaster Tools -> Crawl -> Blocked URLs.