FastNetMon

Sunday, 23 September 2012

Google Blogger плохая индексация и проблемы с robots.txt

Стандартный robots.txt на Blogger имеет примерно следующий вид:
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://phpsuxx.blogspot.com/feeds/posts/default?orderby=UPDATED

Казалось бы, что тут все хорошо, но вовсе нет! Облако тегов (туча справа), на создание которого я потратил по меньшей мере неделю своего времени из-за такого robots.txt полностью игнорируется поисковиками, что принесло мне исключение почти 700 страниц из индекса поисковика Yandex (и как следствие - почти полному остутствию трафика с него).

Не в пример Yandex, Google блог отлично индексировал, но это скорее "вопреки", чем "благодаря", так как у Google мой блог и хостится и им не обязательно было вообще использовать веб доступ, а можно было взять тексты напрямую - из собственных баз (делают они так или нет - вопрос открытый).

Итак, почему же так происходит? По всем правилам создания сайтов "приятных для поисковиков" нужно исключать поиск из индексации, что и было сделано запретом строки /search (поисковая строка поиска по блогу имеет вид - http://phpsuxx.blogspot.com/search?q=searchphraze). Но такой же формат ссылки имеет и фильтр по тегам - http://phpsuxx.blogspot.com/search/label/Debian, который я использую как способ навигации по разделам.

Так как я не специалист по оптимизации, нашел имеющееся решение (которое также исключает паразитные страницы назад/вперед из индекса) в отличном блоге: http://www.danpros.com/2012/03/setting-up-robotstxt-on-blogger.html

Новый robots.txt принимает вид:


User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search?updated-min=
Disallow: /search?updated-max=
Allow: /

Sitemap: http://phpsuxx.blogspot.com/feeds/posts/default?orderby=UPDATED
Итого, мой robots.txt теперь выглядит как http://phpsuxx.blogspot.com/robots.txt и теперь облако тегов должно корректно индексироваться всеми поисковиками :)

No comments :

Post a Comment

Note: only a member of this blog may post a comment.