About files robots.txt, favicon.ico


About favicon.ico

When you look in log files of your site, you may see lines about attempts of downloading file favicon.ico. The best what can you do is to draw small bitmap for your site, as recommended HERE. Good programm for converting BMP files to ICO may be found HERE. For favicon.ico to be interpreted normally, it' s recommended to inser line:
<LINK REL="SHORTCUT ICON" href="http://gfns.net/favicon.ico">
to the HEADER section of your index html file (gfns.net must be replaced with your domain name, of course).

What must to be in robots.txt



User-Agent: *
Disallow: /cgi-bin/
Disallow: /cgi/
Host: domain
Sitemap: http://domain/sitemap.xml

If you have come to our hosting just now, and if you see default 'domain Under construction' page with reference to our main page, it means: there is file robots.txt in your html root directory. It's content is identical to text above. You may leave it as is. You may edit it with accordance to below recomendations.

Why?

(These recomendations are from Yandex, 'AddURL' section, reference 'recomendations to webmaster'). This text in russian ONLY, sorry now.

Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - Yandex индексирует их наравне с другими документами.

Детальное описание спецификации файла можно прочитать на странице: "Стандарт исключений для роботов".

При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:

  1. Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

    Disallow: /cgi-bin
    Disallow: /forum

  2. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.

    User-Agent: *
    Disallow: /cgi-bin

    Disallow: /forum

  3. Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum").

    User-Agent: *
    Disallow: /cgi-bin /forum

  4. В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:

    User-Agent: *
    Dissalow: www.myhost.ru/cgi-bin

    запрещает, например, индексирование документа

    http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

    но НЕ запрещает индексирование документа

    http://www.myhost.ru/cgi-bin/counter.cgi.

  5. В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:

    User-Agent: *
    Disallow: *

    запрещает индексирование документов, начинающихся с символа " * " (которых в природе не существует), и сильно отличается от файла:

    User-Agent: *
    Disallow: /

    который запрещает индексирование всего сайта.

Если вы хотите, чтобы не индексировался один конкретный документ - достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):

<META NAME="ROBOTS" CONTENT="NOINDEX">

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Он означает, что робот поисковой машины не должен идти по ссылкам c данной страницы.



[ ]