О файлах robots.txt и favicon.ico


О файле favicon.ico

Если Вы не хотите видеть в логах Вашего сайта строчки о том, что не найден файл favicon.ico - нарисуйте фавиконку к своему сайту. Достаточно удачную программку для конвертирования BMP в ICO можно найти здесь. Для того, чтобы фавиконка правильно воспринималась, настоятельно рекомендуется наличие в заглавной странице вашего сайта в секции HEADER строки:
<LINK REL="SHORTCUT ICON" href="http://gfns.net/favicon.ico">
(вместо gfns.net укажите свой домен)

Apple не отстаёт

Но не все так просто. Помимо всего прочего еще есть Apple и iOS. Для них придется постараться, потому что у них все особенное, даже значки для сайтов. И даже если на сайте наличие таких значков не объявлено, то iКомпьютеры и прочая iТехника все равно пытается их найти, и при определенных настройках сервера или CMS в логах создается большое количество ненужных записей. К тому же обычно хочется, чтобы сайт выглядел одинаково презентабельно и полноценно везде – даже тем более на iТехнике.

Значки для iOS должны быть выполнены в формате PNG размером 57х57 точек. Варианта два: Сначала запрашивается файл apple-touch-icon-precomposed.png, поэтому его и стоит готовить в первую очередь. На сайте Apple рекомендуют использовать подобную конструкцию для обозначения наличия подобных значков сайта:

<link rel="apple-touch-icon" href="touch-icon-iphone.png" />
<link rel="apple-touch-icon" sizes="72x72" href="touch-icon-ipad.png" />
<link rel="apple-touch-icon" sizes="114x114" href="touch-icon-iphone-retina.png" />
<link rel="apple-touch-icon" sizes="144x144" href="touch-icon-ipad-retina.png" />

Нам понравилось

Что должно быть в robots.txt



User-Agent: *
Disallow: /cgi-bin/
Disallow: /cgi/
Host: основное доменное имя Вашего сайта
Sitemap: http://domain/sitemap.xml

Если Вы только что пришли на наш хостинг, и на Вашем доменном имени Вы пока видите только страничку "Under Construction" со ссылкой на нас - то именно такой файл robots.txt уже лежит в корне Вашего сайта. Вы можете оставить его как есть, а можете редактировать его так, как Вам удобно, придерживаясь нижеописанных рекомендаций.

Зачем это нужно

(Данные рекомендации взяты с Яндекса, в разделе "Добавить УРЛ", ссылка "Советы вебмастеру". Оригинал, или там)

Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - Yandex индексирует их наравне с другими документами.

Детальное описание спецификации файла можно прочитать на странице: "Стандарт исключений для роботов".

При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:

  1. Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

    Disallow: /cgi-bin
    Disallow: /forum

  2. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.

    User-Agent: *
    Disallow: /cgi-bin

    Disallow: /forum

  3. Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum").

    User-Agent: *
    Disallow: /cgi-bin /forum

  4. В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:

    User-Agent: *
    Dissalow: www.myhost.ru/cgi-bin

    запрещает, например, индексирование документа

    http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

    но НЕ запрещает индексирование документа

    http://www.myhost.ru/cgi-bin/counter.cgi.

  5. В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:

    User-Agent: *
    Disallow: *

    запрещает индексирование документов, начинающихся с символа " * " (которых в природе не существует), и сильно отличается от файла:

    User-Agent: *
    Disallow: /

    который запрещает индексирование всего сайта.

Если вы хотите, чтобы не индексировался один конкретный документ - достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):

<META NAME="ROBOTS" CONTENT="NOINDEX">

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Он означает, что робот поисковой машины не должен идти по ссылкам c данной страницы.



[ ]