Файл robots.txt - Особенности и Применение

17 сентября 2016

Robots.txt — это файл ограничения доступа роботам поисковых систем к содержимому сайта, расположенного на http-сервере. Файл robots.txtдолжен находиться в корневой папке сайта (то есть иметь путь относительно имени сайта:

/robots.txt).

При наличии нескольких поддоменов, файлrobots.txt должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Использование файла robots.txt добровольное, т.е. не является обязательным. Стандарт исключений для роботов (robots.txt) был принят консорциумом W3C 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых систем.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых роботов, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Это здорово, когда роботы поисковых систем часто посещают сайт и индексируют ваш контент, но часто бывает так, что индексация части вашего онлайн-контента нежелательна. Например, если у вас есть два варианта страницы (одна для просмотра в браузере, а вторая - для печати), то печатную версию желательно исключить из сканирования, иначе вы рискуете получить штраф за дублирование контента.

Кроме того, в случае, если вы храните конфиденциальные или важные данные, не предназначенные для посторонних глаз, то вы также предпочли бы, чтобы поисковые системы не индексировали такие страницы. Хотя, в данном случае, верный путь для сохранения от индексирования конфиденциальных данных - это держать их в локальном каталоге на своем компьютере или защитить доступ с помощью пароля.

Кроме того, если вы хотите скрыть некоторые свои профессиональные наработки, исключая их из индексации (к примеру, изображения, таблицы стилей или JavaScript), то необходимо иметь способ дать знать роботам, чтобы они держались подальше от этих элементов. Одним из таких способов является использование мета-тега Robots. Но поскольку не все поисковые системы могут читать мета-теги, то мета-тег Robots может просто остаться незамеченным. Лучший способ сообщить поисковым системам о вашей воле - использовать файл robots.txt.

Ниже вы найдете схематическое изображение того, как выглядят сайты с файлом robots.txt и без него.

Что такое robots.txt?

Robots.txt - это текстовой (не HTML) файл, который размещается на сайте, чтобы сообщить поисковым роботам, какие страницы они не должны посещать. Указания файла robots.txt отнюдь не обязательны для поисковых систем, но, в целом, поисковики подчиняются тому, что вебмастера просят не делать. Важно уточнить, что файл robots.txt не является способом предотвращения сканирования вашего сайта поисковой системой.

Тот факт, что вы поместили файл robots.txt, сродни тому, что повесить записку: «Пожалуйста, не вводите" на незапертую дверь, например, т.е. вы не можете предотвратить воров войти в нее, а нормальные люди, прочитав записку, не будут пытаться войти. Вот почему было сказано, что если у вас на сайте действительно размещена важная информация, то слишком наивно полагаться на то, что robots.txt защитит ее от индексации и отображения в результатах поиска.

Размещение файла robots.txt

Место расположения файла robots.txt на сайте - очень важно. Файл должен быть расположен в корневой директории сайта, потому что в противном случае поисковые системы не смогут его найти – они не будут искать по всему сайту файл с именем robots.txt. Вместо этого, они сначала смотрят в основной каталог (например, http://mysite.com/robots.txt) и, если они не найдут его там, то просто предполагают, что этот сайт не имеет файла robots.txt и поэтому они индексируют все, что находят на своем пути.

Таким образом, если вы не разместите файл robots.txt со своими указаниями в нужном месте, не удивляйтесь, что поисковые системы проиндексируют весь сайт, включая и то, что вам не хотелось сделать достоянием гласности.

Создание robots.txt

Для создания файла robots.txt можно использовать любой текстовый редактор (Блокнот, Notepad++ и т.д.). Если вы не планируете запрещать к индексации какие-то данные, то можно просто создать пустой файл с названием: «robots.txt» и разместить его в корневой директории сайта.

Рекомендации от Google по использованию файла robots.txt

В простейшем файле robots.txt используются два правила.

User-agent: робот, к которому применяется следующее правило
Disallow: URL-адреса, которые необходимо заблокировать

Эти две строки рассматриваются как одна запись в этом файле. Можно включить любое необходимое число записей, в каждой из которых может содержаться несколько строк Disallow и User-agent.

Каждый раздел файла robots.txt обрабатывается отдельно; содержание предыдущих разделов не учитывается. Пример:

User-Agent: Googlebot
Disallow: /katalog2/

В этом примере для поискового робота Googlebot запрещены только URL, включенные в /katalog2/.

Агенты пользователя User-agent и другие роботы

User-agent – это специальный робот поисковой системы. В базе данных роботов Интернета перечислено множество основных роботов. Можно задать запись для применения к конкретному роботу (указав его название) или указать, что она должна применяться ко всем роботам (с помощью звездочки). Запись, которая применяется ко всем роботам, выглядит следующим образом:

User-agent: *

Google использует несколько различных роботов (user-agent). Робот, используемый для поиска в Интернете, называется Googlebot. Другие их роботы, например Googlebot-Mobile и Googlebot-Image, следуют правилам, заданным для робота Googlebot, однако для них можно указать отдельные правила.

Блокирование роботов User-agent

В строке Disallow перечисляются страницы, которые необходимо заблокировать. Можно указать конкретный URL или шаблон. Ввод должен начинаться с косой черты (/).

Чтобы заблокировать весь сайт, используйте косую черту.

Disallow: /

Чтобы заблокировать каталог и все его содержание, введите после названия каталога косую черту.

Disallow: /nenuzhnyj-katalog/

Чтобы заблокировать страницу, укажите эту страницу.

Disallow: /lichnyj_file.html

Чтобы удалить конкретное изображение из Картинок Google, добавьте следующие строки:

User-agent: Googlebot-Image
Disallow: /kartinki/sobaki.jpg

Чтобы удалить все изображения с вашего сайта из Картинок Google, добавьте следующие строки:

User-agent: Googlebot-Image
Disallow: /

Чтобы заблокировать все файлы определенного типа (например, GIF), используйте такую запись:

User-agent: Googlebot
Disallow: /*.gif$

Чтобы запретить сканирование страниц на вашем сайте, но сохранить отображение объявлений AdSense на этих страницах, запретите все роботы, за исключением Mediapartners-Google. Это предотвращает появление страниц в результатах поиска, позволяя роботу Mediapartners-Google анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google.

Рассмотрим пример.

User-agent: *
Disallow: /

User-agent: MediaPartners-Google
Allow: /

Помните, что в командах учитывается регистр. Например,

Disallow: /junk_file.asp

будет блокировать http://www.example.com/junk_file.asp, но разрешит http://www.example.com/Junk_file.asp. Робот Google игнорирует пробелы (в том числе пустые строки) и неизвестные директивы в robots.txt.

Googlebot поддерживает отправку файлов Sitemap через файл robots.txt.

Соответствие шаблону

Робот Googlebot (но не все поисковые системы) распознает некоторые типы соответствия шаблону.

Чтобы обозначить последовательность символов, используйте звездочку (*). Например, чтобы заблокировать доступ ко всем подкаталогам, название которых начинается с private, добавьте следующие строки:

User-agent: Googlebot
Disallow: /lichnoe*/

Чтобы заблокировать доступ ко всем URL, которые содержат вопросительный знак (?) (то есть всех URL-адресов, которые начинаются с имени домена и содержат вопросительный знак), добавьте в файлrobots.txt следующую запись:

User-agent: Googlebot
Disallow: /*?

Чтобы задать соответствие конечных символов URL-адреса, используйте символ ($). Например, чтобы заблокировать доступ к URL, оканчивающемуся на .xls, используйте следующие строки:

User-agent: Googlebot
Disallow: /*.xls$

Это соответствие шаблону можно использовать вместе с командой Allow. Например, если знак "?" обозначает идентификатор сеанса, можно исключить содержащие этот символ URL-адреса, чтобы робот Googlebot не сканировал повторяющиеся страницы. Но URL-адреса, заканчивающиеся на "?", могут являться версией страницы, которую необходимо включить в индекс. В таком случае можно создать в файле robots.txt следующую запись:

User-agent: *
Allow: /*?$
Disallow: /*?

Disallow: / *? - блокирует доступ ко всем URL со знаком вопроса (то есть ко всем URL, которые начинаются с имени домена и содержат строку, внутри которой встречается знак вопроса);
Allow: /*?$ - разрешает доступ ко всем URL, оканчивающимся знаком вопроса (то есть ко всем URL, которые начинаются с названия домена и содержат строку, заканчивающуюся на ?, после которого нет других символов).

Сохраните созданный файл robots.txt, загрузив его или скопировав содержание файла в текстовый редактор и сохранив полученный файл с именем robots.txt. Файл robots.txt должен располагаться в корневом каталоге домена и называться "robots.txt". Расположенный в подкаталоге файл robots.txt недействителен, поскольку роботы ищут его только в корневом каталоге домена.

Например,

http://www.example.com/robots.txt – правильное местоположение, а

http://www.example.com/moysait/robots.txt – нет.

ПРАКТИЧЕСКИЕ СОВЕТЫ от GOOGLE

Используйте надежные методы ограничения доступа к конфиденциальной информации. Не стоит полагаться на robots.txt при блокировании конфиденциальной или секретной информации. Во-первых, поисковые системы все еще могут помещать ссылку на заблокированные вами страницы, не указывая заголовок или сниппеты, если где-то в сети есть ссылки на этот материал (например в логах реферреров). Во-вторых, нестандартные поисковые системы или поисковые системы, не поддерживающие стандарты доступа для роботов, могут игнорировать инструкции из robots.txt.

И, наконец, любопытный пользователь может заглянуть в файл robots.txtвашего сайта и увидеть, какие директории вы хотите скрыть. Шифровка контента и установка паролей через файл .htaccess — гораздо более надежные способы. Не советуем:

разрешать индексацию страниц поиска и им подобных;
пользователи не любят с одной страницы поиска переходить на другую без особой полезной информации;
разрешать индексацию страниц, сгенерированных прокси-сервером.