Блог о заработке, seo, joomla и не только...
Здравствуйте дорогие читатели блога. Сегодня мы поговорим о том как составить правильный файл robots.txt для Joomla.
Robots.txt является текстовой файл, который находиться в корне сайта со всеми папками Joomla и htaccess. Данный файл говорит роботам поисковым систем что и как нужно индексировать ваш проект, какие страницы убрать из индексации а каким остаться.
Файл robots.txt играет очень важную роль в качественную и быструю индексацию. Если вы не составьте правильный robots.txt для вашего сайта то некоторые страницы могут не индексироваться поисковикам. Все robots.txt во всех версиях Joomla стандартны и имеют правильную структуру, но все равно нам нужно будет немного его отредактировать.
Если не указать определенные правила для поисковиков, то поисковые пауки обязательно проиндексируют много мусорных страниц, то есть дубли и так далее.
Просмотреть robots.txt можно любой интернет-площадки, достаточно дописать к url /robots.txt, допустим http://nipons.ru/robots.txt.
Кстати интересно, если дописать к официальному сайту Joomla данный роботс: http://www.joomla.org/robots.txt то заметите что у них стандартный robots.txt. Хотя...им до лампочки, уж очень трастовый проект в глазах у поисковиках.
Для правильного составления robots.txt вы должны знать основные директивы.
Самая важная директива, это ‘User-agent‘ – она должна содержать название поискового робота. В случае если не укажете название поисковика в User-agent, то это правила будет приниматься ко всем поисковикам.
Пример написания «User-agent», для всех поисковых роботов:
User-agent: *
s Если вы хотите составить robotx.txt только для яндекса, то вместо звездочки пишем Yandex, вот как будет выглядить:
User-agent: Yandex
Каждой поисковик имеет своё уникальное название вместо звездочки, вот список часто встречаемых поисковых ботов:
Яндекс - Yandex
Google - Googlebot
Рамблер - StackRambler
Мэйл.ру - Mail.Ru
Aport - Aport
Кроме этих есть еще Yahoo, Bing но давайте сосредоточимся больше к рунет трафику. С Yahoo и Bing идет очень мало трафика да и конкурентность
не та.
Google и Яндекс имеют специальных роботов для индексации новостей, изображений и т.д, что является выгодой для сайтов с уникальными картинками.
Директивы правильного robots.txt это Allow и Disallow, первая разрешает а вторая запрещает индексацию поисковым роботам.
Правильный файл robots.txt должен содержать хотябы одну директиву «Disallow».
Давайте с помощью примеров научимся составить грамотный файл robots.txt:
User-agent: *
Disallow:
С помощью данного примера я разрешаю всем поисковиками индексировать весь сайт целиком, без каких-то ограничений.
Допустим вам нужно запретить индексацию всего сайта, для этого в robots.txt нужно прописать следующее строки:
User-agent: *
Disallow: /
Давайте запретим индексацию всего каталога index. Путь каталога - http://site.ru/index/.
User-agent: *
Disallow: /index/
В следующем примере мы будет запретить индексацию директории index и всех суффиксов индекса типа index?do=123, index.html и т.д.
User-agent: *
Disallow: /index
Если вдруг вам будет необходимо запретить индексацию всех страниц которые начинаются с index но вот кроме одной страницы(карты сайта) http://nipons.ru/index.php?option=com_xmap&sitemap=1&view=xml:
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /index.php
Директивы Allow-Disallow поддерживают символы ‘*’ и ‘$’. Можно задавать определенные логические выражения.
Звездочка ‘*’ означает любой файл. Давайте запретим к индексации всех файлов с окончанием «.js».
User-agent: *
Disallow: *.js
При составлении робота вы должны строго соблюдать правила написания:
(директива):(пробел)(значение)
Очень важно задать директиву Host во избежания дублей страниц, данную директиву понимает только поисковик Яндекс.
User-agent: Yandex
Host: www.site.ru ил site.ru
Хосту прописываем наш домен. Если домен начинается с www то пишем с www.
Очень важная директива в нашем robots.txt является "Sitemap".
User-agent: *
Sitemap: http://site.ru/sitemap.xml
Директива Sitemap показывает где у вас расположена карта сайта в строгом формате xml.
Если вы внимательно прочитали всё чтобы было выше сказано, то должен вас поздравить! Вы можете самостоятельно создавать свой robots.txt под любой поисковик.
Вот как должен выглядеть правильный robots.txt для Joomla:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.site.ru или site.ru
Sitemap: http://путь к вашей карте XML формата
На данный момент, такой robots.txt для Joomla является самым правильным. Мы просто вырезали "Disallow: /images/" и добавили "Host" и "Siteap".
Надеюсь вам будет полезен данный урок. Жду ваши вопросы в комментариях.