Robots.txt и индексация блога на WordPress


Что такое файл robots.txt и для чего он нужен?   

Файл robots.txt – это обыкновенный файл выполненный в формате .txt, находящийся в корневом каталоге блога, в котором находятся специальные инструкции для поисковых ботов. В robots.txt записываются инструкции, которые запрещают к индексации некоторые разделы, страницы и даже ссылки с блога,  а так же указывают на правильное зеркалирование домена.

Robots.txt для WordPress

Robots.txt для WordPress улучшаем индексацию

Как файл robots.txt может помочь в оптимизации сайта?

Да очень просто, данный файл способствует более  качественной индексации блога. Для оптимизатора важно  исключить дубли контента блога, портала, сайта такие например, как тэги и категории, ведь все, что закрыто для индексации никогда не попадет в индекс поисковиков (Yandex, Google, Mail, MSN и др.). 

 Для WordPress не существует плагина (во всяком случае, я его не нашел:) для генерации, и последующего управления  файлом robots.txt

Поэтому данный файл необходимо будет сделать самостоятельно. Начнем с того, что данный файл должен называться именно так, а не как иначе, либо поисковые системы просто не будут обращать на него внимание. Robots.txt это обыкновенный текстовый файл. И если вообще не нужны запреты индексации, то можно оставить его просто пустым.

Файл robots.txt может только запретить индексировать определенные ссылки, страницы, каталоги т. е. их содержание не попадет в индекс поисковых систем, но это не означает, что они не будут просканированны, просто их не будет в основном индексе. :)

Формат файла robots.txt имеет несколько параметров (инструкций) для поисковых роботов.

User-agent:  отвечает за то, на каких ботов будут распространяться инструкции.

Описание инструкций:

User-agent: Yandex
#Только для робота Яндекс

User-agent: Googlebot
#Только для Googlebot-а

User-agent: *  
#Для всех роботов 

Allow: /
#Разрешает скачивать ботам весь сайт/блог целиком

Disallow: /
#Закрывает от индексации абсолютно все

С помощью инструкции Dissallow, в robots.txt можно запретить индексировать конкретную ссылку:

Disallow: /catalog.php?id=13384
#Запрещаем индексировать весь раздел каталога

Disallow: /catalog.php?url=http://soft-deev.blogspot.ru/&stat=13384&id=196
#Это запрет индексации конкретной ссылки, на примере моего каталога сайтов

А можно разрешить индексировать только одну ссылку в каталоге, тогда инструкция будет выглядеть так:

Allow: /catalog.php?url=http://soft-deev.blogspot.ru/&stat=13384&id=196
#Разрешаем индексировать только эту ссылку в каталоге

Disallow: /catalog.php?id=13384 
#Все остальные в разделе отдыхают:)

#Комментарии нужно всегда писать с новой строки

Sitemap: http://master-it.biz/sitemap.xml
 #Эта инструкция указывает роботу на файл с картой сайта в формате XML

Host: master-it.biz  
#Данный параметр распространяется только на робота Яндекса, и указывает ему главное зеркало блога/сайта

А вот пример того, как может выглядеть robots.txt  для WordPress

User-agent: * 
Allow: /wp-content/uploads
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 
Disallow: /*?replytocom  
Disallow: /*?*  
Disallow: /*?  

User-agent: Yandex 
Allow: /wp-content/uploads 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 
Disallow: /*?replytocom  
Disallow: /*?*  
Disallow: /*?  

Host: master-it.biz 

Sitemap: http://master-it.biz/sitemap.xml 
Sitemap: http://master-it.biz/sitemap.xml.gz 

Если для внутренней оптимизации сайта на WordPress вы используете плагин WP No External Links то рекомендую добавить в роботс.тхт инструкцию запрещающую к индексации каталог /goto/

Как избавиться от дублей WordPress

Вопрос дублирования контента, стоит очень остро перед SEO оптимизатором. Думаю не трудно догадаться, что ничего хорошего вашему сайту на WordPress не светит при условии, что большая часть контента просто дублируется.

Возможно начинающие вебмастера и не знают, но Вордпресс создает большое количество дублей по умолчанию.

Виной тому кнопочка ответить в комментариях, которая создает ссылку вида:

страница.html?replytocom=712#respond

 Для запрета индексации этих ссылок необходимо добавить в robots.txt вот эти инструкции:

Disallow: /*?replytocom 
Disallow: /*?* 
Disallow: /*? 

Это запретит роботу Яндекс индексировать ненужные ссылки, и поставит запрет на вывод уже случайно проиндексированных страниц в основном индексе Google.

Как вариант можно просто отключить древовидные комментарии в блоге, но идея эта не очень удобная хорошая, в первую очередь неудобство почувствуют ваши читатели.

P.S. Я решил полностью вырезать ссылку с ?replytocom= из кода WordPress с помощью добавления add_filter в function.php, но это тема уже выходит за рамки данного поста, и будет опубликована в одной из будущих статей, поэтому, смело подписывайтесь на обновления, дабы чего интересного не пропустить. 😉