Как составить правильный файл robots.txt для WordPress?

Автор: Александр Дубровченко
Рубрика: Уроки Wordpress
17/06/2013

Правильный файл robots.txt

Всем, привет! Вот появилось немного времени, для того чтобы написать не большой пост. Сейчас времени совсем в обрез, если помните, писал про заказы на сайты в июне, так вот основное время уходит на разработку этих сайтов. Поэтому, не буду терять время и приступлю к делу!=)Сегодня я вам расскажу, как составить правильный файл robots.txt для WordPress? Зачем этот файл нужен и какова его функция в продвижении вашего блога, читаем далее!

 Зачем вообще нужен robots.txt на сайте?

Даже несмотря на то, что платформа WordPress считается очень удобной, она обладает рядом существенных недостатков. Самый главный недостаток — простота дублирования контента. Ярким примером является следующий: если вы создали новую публикацию, она появится сразу на нескольких страницах, да еще и может получить разные адреса. Вся статья доступна на главной странице, в рубрике, в поиске, ленте RSS, архиве и так далее.

Поисковые системы оценивают подобные действия как дублирование контента, за что весь сайт целиком попадает в бан. Не иметь правильный файл robots.txt - то же самое, что и нагло скопировать статью из чужого сайта и опубликовать ее у себя. Чтобы исключить неприятные ситуации, необходимо правильно настроить файл robots.txt.

 Составляем правильный файл robots.txt!

 

01

Перед тем, как начинать что-либо делать с этим файлом, рекомендую сделать бэкап (для тех, кто не в курсе — создайте резервную копию файла). Важно также ориентироваться в директивах — правилах, которые контролируют написание robots.txt.

1. Директива User-agent

С помощью данной директивы определяется конкретный поисковый робот, который будет выполнять команды файла. Таковыми командами являются:

User-agent: Yandex: запрещается индексация роботом Яндекса всех файлов сайта;

User-agent: *: используется если необходимо дать всем поисковым системам без исключения.

2. Директивы «Allow» и «Disallow»

Disallow – запрещает индексацию;

Allow – разрешает индексацию элементов, указанных в ней.

Правильно составленный robots.txt в любом случае должен содержать директиву «Disallow».

Если веб-мастер оформит файл в таком виде:

User-agent: Yandex

Disallow:

Он запретит индексацию Яндексом всех страниц сайта. Если же оформить файл вот так:

User-agent: Yandex

Disallow: /

Получится, что все поисковики, кроме Яндекса, смогут индексировать сайт. Надеюсь, вам это понятно.

А теперь самое главное — что нужно запретить для индексации в движке. Иными словами, какие разделы WordPress могут допускать дублирование страниц и прочий мусор. Итак, запрещаем:

1. Все служебные и системные файлы:

— wp-register.php

— wp-login.php

— wp-content/

— wp-includes/

— wp-admin/

Отдельно хочется упомянуть каталог wp-content. По сути, все содержимое данного каталога нужно будет закрыть, оставив с свободном доступе папку «uploads», где есть изображения. Если запретить индексацию еще и этой папки, изображения не будут обрабатываться поисковой системой. Закрывайте каталоги внутри папки отдельно:

Disallow: /wp-content/themes

Disallow: /wp-content/languages

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

2. Дублирование страниц в категориях:

— category/*/*

3. Закрываем FSS-фид:

— feed

4. Дублирование страниц при выдаче результатов поиска:

— *?*

— *?

5. Трэкбеки:

— trackback

6. Комментарии:

— comments

02

Описывать структуру WordPress заново нет никакого смысла. Лучше посмотрите на то, как в идеале должен выглядеть правильный файл robots.txt для wordpress:

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

 

Прямо здесь же необходимо будет задать конкретные указания Яндексу:

 

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

Host: mysite.ru

Sitemap:

Sitemap: http:// mysite.ru/sitemap.xml.gz

Если вы еще никогда до этого не имели дела с файлом robots.txt или сомневаетесь в правильности самостоятельного составления, рекомендую использовать файл со структурой, описанной выше. Сделать его проще простого — создайте новый текстовый документ, а потом вставьте в него текст. Затем сохраните полученный файл под именем robots.txt. Учтите, что нужно соблюдать правильность регистра при переименовании файла. Кроме того, не забудьте поменять адреса mysite.ru на адрес своего блога.

После создания файла разместите его в корне Вашего блога, а потом добавьте в панель вебмастера Яндекс. Вот и все, уважаемые друзья! Надеюсь, моя информация поможет вам на практике! Не забываем подписываться на обновления блога, чтобы не пропустить много нового и полезного!

А на сегодня у меня все!

 Пока-пока!

С уважением, Александр Дубровченко.

Материалы по теме:

Как правильно писать статьи в блог?
Приветствую вас, дорогие друзья! Сегодня я расскажу вам, о том как правильно писать статьи в блог. Дело в том, что практически все новички совершают ...
Как сделать свой блог? План действий для новичков
Приветствую всех читателей моего блога! Эта статья должна была появиться на блоге уже давно, но вот только сейчас руки до неё дошли:-) Дело в ...
Почему WordPress лучший движок для блога?
Привет, мои дорогие читатели! Это моя первая статья=)И так вы решили создать свой блог и не знаете, какой движок выбрать, чтобы он максимально ...
Как правильно выбрать нишу для блога?
 Всем привет! Как настроение? Сегодня в своем небольшом посте хотелось бы поговорить о том как выбрать тему блога. Если вы только решились создать свой ...
Как установить плагины на WordPress?
Приветствую вас, дорогие читатели! Сегодня мы с вами научимся устанавливать плагины на Wordpress. Вообще, этот пост посвящен всем новичкам, которые только начинают осваивать сайтостроение, ...
Получайте свежие статьи
блога на ваш e-mail!
ВКонтакте
FaceBook
  1. Илья

    Полезная статья, Александр! Когда будете делать список статей, которые нужно изучить первым делом, обязательно добавьте эту статью.

    P.S. Проверил заодно ещё раз свой файл robots, вроде всё нормально.

    Илья рекомендует статью...Как скачать музыку с контакта?

    Ответить
    • Александр Дубровченко

      Спасибо, Илья!Обязательно добавлю эту статью в список. ;)

      Ответить
  2. Илья

    А, нет, неправильно у меня настроен этот файл. =-O У меня сейчас запрещена к индексации папка wp-content, а внутренние папки не запрещены от индексации. вроде бы.

    Ответить
  3. Илья

    Александр, если не трудно, посмотрите на мой файл robots, правильно ли я его сейчас настроил?

    Ответить
    • Александр Дубровченко

      Да, все ок теперь!

      Ответить
      • Илья

        Спасибо. Вот ведь прикол, вроде уже и не новичок, а что-нибудь, в таких простых вещах, да всплывёт.

        P.S. Кто-то из великих когда-то сказал: «Профессионалы горят на мелочах».

        Ответить
  4. Маргарита

    Александр, простите за глупый вопрос: разделяющие пустые строки в файле нужны или нет?

    Ответить
    • Илья

      ненужны. =)

      Ответить
  5. Андрей

    А как на счет директории author/? О ней вы не упомянули. А она такая что генерить дубли.

    Андрей рекомендует статью...К одной цели ведут разные дороги.

    Ответить
    • Я вот что подумал... Такие директории, как author, tag, archive, по большому счету — не являются дублями. Ведь в них, по идее, расположены анонсы статей, и контент в них динамический. Т.е. порядок и наличие анонсов отличается от тех же page, например.

      Ответить
      • Александр Дубровченко

        Согласен, с Александром! Эти директории не могут генерировать дубли.

        Ответить
  6. Привет, Александр!

    А в чем смысл закрытия /comments? Что-то никак не пойму.

    И еще, /tag и /archive все же лучше тоже запретить для индекса.

    Ответить
    • Александр Дубровченко

      Привет, Сань! Этим тэгом мы закрываем индекс комментариев на отдельных страницах, а в статьях комментарии будут нормально индексироваться =)

      Ответить
      • А если камменты генерируются не comments, а responds? Некоторые шаблоны именно это «наименование» используют. Но я имею в виду страницы записей с тегом #. Видимо никак не могу догнать, что значит «отдельные страницы комментариев» :) Где их вообще найти?) Кстати, можно же в таком случае прописать помимо «?» еще и «#»? Тогда дублей точно уже не будет. Кстати, ни разу не встречал инфу об этом в сети. Могу и ошибаться на этот счет, ибо это всего лишь размышления.

        Александр Майер рекомендует статью...Простые советы для безопасного отдыха

        Ответить
        • Александр Дубровченко

          Сам такой инфы в инете не встречал, поэтому мудрить не буду, просто знаю, что этот файл нормальный рабочий, так что переживать не за что ;) Кстати, эта конфигурация «роботса» самая распространенная среди блогов, сам проверял :-D

          Ответить
  7. Очень нужная статья Александр. Из-за неправильного роботса весь сайт может угодить в бан какой-нибудь (((

    Ответить
    • Александр Дубровченко

      Привет, Антон! Это точно, в бан можно залететь легко!

      Ответить
  8. Natabul

    Про Яндекс вы все рассказали очень подробно. А вот как в Гуглом быть. Как под него настроить файл, чтобы правильно индексировался?

    Ответить
    • Александр Дубровченко

      Для гугла и остальных поисковых систем используется директива User-agent: * , т.е. первая половина файла robots.txt, а для Яндекса указывается отдельная директива — User-agent: Yandex, это вторая половина файла. Так что все, что расписано в данной статье применимо ко всем поисковым системам.

      Ответить
      • Если сказать проще, то все, что прописано в директории User-agent: Yandex — это для Яндекса, все остальное, что прописывается в User-agent: * — это для всех остальных поисковых ботов. Такой вот у нас Яндекс индивидуальный :)

        А если вдруг, возникает необходимость прописать правила для отдельно взятого поисковика какого-то — можно прописать: User-agent: ИМЯ БОТА. Но для российского и украинского сегмента сети, если я правильно понимаю, в этом нет необходимости.

        Вообще, тот вариант, что предлагает Александр в своей статье — вполне актуален и работоспособен. Можно смело копировать и вставлять в блокнот. А нюансы — это всего лишь нюансы, вреда они не принесут.

        Александр Майер рекомендует статью...Простые советы для безопасного отдыха

        Ответить
  9. Анна

    Проверила свой файл и нашла несколько отличий. В моем robots.txt отсутствуют строки Disallow: /xmlrpc.php и Disallow: /wp-content/languages. Что бы это значило? *UNKNOWN*

    Ответить
    • Александр Дубровченко

      Анна, это не страшно, но лучше закрыть эти директивы от индексации, думаю с wp-content/languages все ясно, эта папка отвечает за поддержку языков на движке , а /xmlrpc.php это служебный протокол вызова удалённых процедур, в общем эти директивы служебные и индексироваться им не имеет смысла =)

      Ответить
  10. Георгий

    Не иметь правильный файл robots.txt — то же самое, что и нагло скопировать статью из чужого сайта и опубликовать ее у себя.

    Правильно сказано. Жаль что популярные CMS стараются дублировать все страницы на сайте. При чем в некоторых случаях по нескольку раз.

    Сам сталкивался с проблемой, когда публикуешь новые статьи, пытаешь продвинуть а результата — нет.

    Провел комплексный анализ своего блога. Начал с технических моментов и тут-же обнаружил ряд ошибок в коде, отсутствие sitemap.xml и robots.txt. Исправил, ускорил скорость загрузки страниц и как-то забросил блог. Спустя где-то 1-1,5 мес. заметил как посещаемость стала резко расти с Яндекса, гугл тоже процентов 20% прибавил.

    В общем вынес для себя урок. Качество сайта, это не только его внешний вид и качество информации, но и техническая составляющая.

    Ответить
    • Маргарита

      Я после прочтения статьи сделала себе на сайт robots.txt. Но дубли страниц пока в поиске. Получается нужно 1,5 месяца ждать полной переиндексации? Не хотелось бы, чтобы за это время Яндекс наказал мой сайт...

      Маргарита рекомендует статью...Вета — гигантский сверчок Новой Зеландии

      Ответить
      • В Яндексе нужно будет дожидаться. А вот в гугле ненужные страницы можно (и нужно) удалять вручную, через панель вэбмастера.

        Александр Майер рекомендует статью...Ad Injection – многофункциональный универсальный плагин для размещения рекламы и другого кода в блоге

        Ответить
        • Маргарита

          В Яндекс Вебмастер я зарегистрирована. Получается, мне необходимо завести еще и Гугл Вебмастер? Ну и дела. Чем дальше в интернет, тем больше сервисов... Попробую разобраться и с этим.

          Ответить
      • Маргарита

        Наконец-то Яндекс соизволил ознакомиться с моим файлом robots.txt И полутора месяцев не прошло, как количество страниц в поиске сократилось ровно в два раза. В Вебмастере Гугла тоже зарегистрировалась. Но пока не поняла, как можно вручную удалять дубли...

        Ответить
        • Маргарита, там нужно найти «Индекс Google», а в развернувшемся меню выбрать «Удалить URL адреса». После чего нажать на «Создать новый запрос на удаление». Ну и ввести URL, который нужно удалить из индекса

          Ответить
  11. Михед

    Отличный пост Александр. Для новичков самое то. Да и для бывалых 8)

    Михед рекомендует статью...Как стать блоггером. Как я пришел в блоггинг. Моя история.

    Ответить
    • Александр Дубровченко

      Спасибо, Александр! Думаю, для всех будет полезно, тем более многие как сказал Илья в этой ветке, «Профи горят на мелочах» :-D

      Ответить
  12. Web-Кошка

    Привет! Один вопрос: а что закрывается этой директивой — «Disallow: /webstat/»? Счетчик? У меня ее почему-то нет и никогда нигде не было...

    Web-Кошка рекомендует статью...Маленький Лувр на Joomla-сайте, или Фотогалерея Joomla с компонентом JoomGallery

    Ответить
  13. Ольга

    Я бы не стала в обязательном порядке закрывать страницы категорий. На некоторых блогах (на кулинарных, например) категории можно оптимизировать под свои запросы, добавив описание рубрики, а чтобы не было дублей, нужно выводить не контент с тегом more, а цитату.

    Вот страницы навигации лучше скрыть. Если ничего не путаю вот так:

    */page/*

    Ольга рекомендует статью...Как сделать красивый видеоролик для сайта за 5 минут

    Ответить
    • А я считаю, что page, tag, category, archive закрывать не совсем обязательно. Ведь блоги — динамические ресурсы, контент постоянно меняется, и дубли не так часто будут возникать. Конечно, зависит еще и от частоты наполнения статьями. В общем, самым оптимальным считаю оставить page, остальное (tag, category, archive) закрыть. Как-то так.

      Александр Майер рекомендует статью...Простые советы для безопасного отдыха

      Ответить
  14. Кирилл

    Отличная статья! Заодно немного правил свой ROBOTS =)

    Кирилл рекомендует статью...Как я ГС делал. Часть 1

    Ответить
  15. Привет, Кирилл! Спасибо!Рад знакомству! =)

    Ответить
  16. Андрей

    Автоматически робот.тхт в вёрдпрессе не формируется?

    Нужно отдельно создавать?

    Андрей рекомендует статью...Отдых на реке Северский Донец (фото + видео)

    Ответить
  17. Тимур

    Первый мой файл роботса я скопипастил у кого уже не помню =D. Тип на видео явно под чем то. *CRAZY*

    Тимур рекомендует статью...Красивое оформление странницы 404

    Ответить
  18. Татьяна

    Вообще то хоть немножко разобралась благодаря вам... Тяжело живется чайнкам... может трафик у меня упал оттого, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио тоже закрыть? Все еще разбираюсь со своими проблемами. А плагин для комментов я поставила, мне нравится!

    Татьяна рекомендует статью...Зачем учить английский

    Ответить
    • Александр Дубровченко

      Татьяна, не думаю,что трафик у вас упал из-за звуковых файлов. Скорей всего причина в другом.

      Ответить
  19. Ольга

    Так и не поняла, надо ли в робот.тхт закрывать */page/*.

    И много ли вреда, если они не закрыты?

    Ольга рекомендует статью...30 притч про инфобизнес, или смешно о грустном

    Ответить
  20. Владислав

    У меня не пашет Google Analytics. Это может быть результатом закрытия папки Disallow: /wp-content/themes

    Ответить
  21. TH

    Посмотрите, пожалуйста, у меня правильно составлен robots.txt, на запрет индексации сайта Яндексом? h_ttp://thajland.com/robots.txt

    Ответить
    • Александр Дубровченко

      Здравствуйте! У вас что-то с кодировкой

      User-agent: Yandex

      Disallow: /

      # Яндекс-РїРѕРёСЃРє — отсталое РіРѕРІРЅРѕ!

      Ответить
  22. Макс

    Лучше уж использовать онлайн-сервисы для постройки, легче:)

    Ответить
    • Александр Дубровченко

      Каждому лучше по своему! ;) Приветсвую на блоге, Максим!

      Ответить
  23. Юрий

    Здравствуйте, Александр!

    Спасибо за статью!

    Не могу составить robots.txt

    Все предлагают свой вариант робота, а какой выбрать, не знаю.

    Вопрос: robots.txt зависит от прописания постоянных ссылок?

    Я не могу прописать ссылки Произвольно — /%postname%/,

    физически не устанавливается.

    А стоит у меня —

    Как мне написать Произвольно — /%postname%/ ?

    Спасибо!

    Юрий рекомендует статью...Браузер Google Chrome

    Ответить
  24. Nick

    Спасибо за полезную статью! Я для генерации robots.txt использую сервис который случайно нашел: www.hotorg.ru/webmaster/t...uilder/index.php :P

    Ответить
  25. Я когда первый раз robots в Метрике проверял, он выдал мне в конце такее.

    User-agent: Yandex

    Disallow: /cgi-bin

    ...

    Sitemap: vitalykalinin.ru/sitemap.xml

    Блин, все форумы перерыл, думал ошибка. Оказывается это нормально. =)

    Виталий Калинин рекомендует статью...Для бизнеса необходима подписная или продающая страница? Поможет плагин wPPage

    Ответить
  26. Я начинала построение блога со школы СтартАп. Они и файл этот дали. А потом только через полгода сами увидели, что там ошибка (стоял пробел). Отсюда сделала вывод — слепо не доверять тому, что дается. Надо набирать знания и хотя бы понимать.

    Надежда Введенская рекомендует статью...Две стороны привычки усложнять и успех

    Ответить

Оставьте комментарий:









Оставьте ссылку на вашу статью

Оставьте комментарий и получите в подарок!

Эти замечательные книги, расскажут вам о различных способах продвижения и заработка в интернете!