возможно заказать разработку или сопровождение, услуги вашего сайта/блога


обновлено: 2024-01-16 в теме: Сниппеты, хаки, функции
Запросто с WordPress создание и продвижение сайтов ATs media

Файл robots.txt – варианты использования, примеры, правила, возможности – noindex,nofollow

Управление индексацией сайта – файл robots.txt: как добавить директивы, как отдать команды для конкретного бота поисковой системы, как создать файл роботс, какой роботс правильнее использовать – сгенерированный или в ядре? Обо все этом, как понимаете, и повествуют строки данного поста.

 

Нынче, как известно, некоторые админы сайтов файл robots в ядре не используют, точнее организуют его работу в каком-то СЕО плагине, к примеру, в All in One SEO или любом подобном… Каков вариант логичнее (эффективнее) разбираемся ниже. Хотя я использую на своих сайтах данный файл в ядре сайта (в его основной директории, скажем так).

 

К тому же, есть вариант закрывать требуемые страницы/записи или архивы средствами php т.е обработкой условий noindex,nofollow функции на сервере. А именно добавляют необходимый код в файл functions.php, либо плагин – важно понимать, что данные варианты призваны для аналогичных задач, хотя каждый из них имеет свои преимущества:

 


 

 

 

теория:

 

User-agent – это, скажем так, идентификатор команд в клиентском коде или  приложении. В данном случае используется для отдачи той или иной команды ботам и пр. сетевым паукам, осуществляющим доступ к тому или иному веб-приложению, веб-сайту.

 

Если пройти по адресу https://домен/robots.txt/ то – в большинстве случаев – увидим как раз содержание данного файла любого сайта.

 

 

Как в All in One SEO закрыть страницы пагинации архивов/записей в noindex,nofollow

 

 

как закрыть в robots.txt сайт от индексации

 

 

Эта сводка директив “прикажет” ботам (абсолютно всем) сайт не индексировать! То есть сайт будет закрыт от индексации…

 

 

User-agent: *
Disallow: /

 

 

Либо закрыть сайт (в этом случае НЕ использовать роботс в ядре) в админке сайта:

 

 

как закрыть в robots.txt сайт от индексации

 

 

Однако, что забавно для всех этих случаев: то, что, к примеру, в документации Яндекса по этому поводу сказано весьма расплывчато – мол, робот может игнорировать данные директивы! Странно, не правда ли?!

А посему, возможно, явно ставит под сомнения всякое тонкое управление админом сайта!! Так что имейте в виду…

 

 

Disallow – если банально перевести, то это: запрещать, отвергать, отказывать.

Allow – соответственно наоборот – позволение, и все такое…

 

 

как создать правильный файл robots.txt

 

 

Как уже говорилось выше, многие – не утруждаются и от идеи “пропади все пропадом, ведь так легче” создают этот файл (его директивы) средствами SEO плагинов…

 

Однако, для более серьезных администраторов привожу пример современного стандарта файла robots.txt:

 

 

User-agent: *
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /cgi-bin
Disallow: /*?*
Allow: /wp-admin/admin-ajax.php
Allow: *.js
Allow: *.css
Allow: *.jpg
Allow: *.jpeg
Allow: *.png
Allow: *.gif
Allow: *.ico
Allow: *.svg

Sitemap: https://имя/sitemap.xml

 

 

…в правиле Sitemap указываем ссылку на карту сайта для поисковиков – в WP 5.5 есть своя карта, однако возможно установить в виде плагина, что логичнее!..

 

У меня иногда спрашивают: XML-карты сайта нужно ли закрывать в noindex ?

 

 

Этих директив, как правило достаточно для правильной работы и индексирования сайта поисковиками. А все остальные более утонченные варианты закрытия страниц в noindex,nofollow – или как-то еще: вариантов много – обеспечивают средствами php:

 

 

Советую ознакомиться с функциями WP: wp_robots или wp_robots_no_robots

 

нужна ли директива Host

 

 

Ранее, при создании файла, требовалось указывать строку: Host – т.е. обозначать главное зеркало сайта – однако теперь… но обо всем по по порядку:

 

 

User-agent: Yandex
Disallow: /page

Host: site.ru

 

 

В примере выше главным зеркалом обозначен домен site.ru – без www. Следует предположить, что в поисковую выдачу попадет именно такой URL-адрес – но т.к. Яндекс уважает расплывчатые и мутные документальные пояснения, остается только уповать на личное счастие!..

 

 

Если используем следующую конструкцию:

 

 

User-agent: Yandex
Disallow: /page
Host: www.site.ru

 

 

Главным зеркалом будет уже домен www.site.ru. Напоминаю: в этих примерах мы указали в User-agent: Yandex – только ботам Яши. Если требуется конкретика для Google, то его и укажем.

 

 

Правило Host в файле Robots можно И НУЖНО добавлять сию строку ОДИН раз ! А если два и больше раза (например, у вас выше были правила для ботов Google), поисковый робот Яндекса учтет только первую, а все последующие будут игнорины!!

Т.е. Яндекс-бот почему-то (ведомому только ему) учтет директивы для Google, по крайней мере host точно!

 

как определить Главное зеркало сайта в пс Яндекса у любого сайта

 

Легко определить так: указываем в поисковой строке Яндекса требуемый для тестирования домен. Результатом поисковой выдачи будет домен – его Основное зеркало.

 

А коли у вас сайт новый – еще не проиндексирован, но добавлен в вебмастер Яндекса – главное зеркало легко узнать в Яндекс.Вебмастере в меню Переезд сайта. И, что интересно, Главное зеркало возможно указать ЛИЧНО здесь же!..

 

 

Таким образом выяснили, что директива Host по большому счету в robots.txt не требуется! К примеру, я данную директиву не использую на сайтах – ни на своих, ни на тех, которые администрирую.

 

 

закрываем страницы через файл функций сайта – functions.php

 

 

Средствами php возможно закрыть любую конкретную страницу сайта, используя условия php (WordPress). Вот таким образом можно закрыть страницы архивов (по датам, по дням, страницы медиа и пр):

 

 

Условные теги WordPress: наиболее полная подборка, пояснения

Условные теги woocommerce – наиболее полная подборка, пояснения

 

 

 

<?php
/*МЕТА = закрываем страницы/архивы в noindex,nofollow*/
add_action( 'wp_head', 'ats_liv_meta_robots' );
function ats_liv_meta_robots() {
if (is_month() or is_date() or is_day() or is_year() or is_attachment() or is_page( '' ))
{
echo "".'<meta name="robots" content="noindex,nofollow" />'."\n"; } }
/*fin МЕТА*/

 

 

is_date() or is_day() or is_year() – архивы по датам;

is_month() – архивы за месяц;

is_page( ” ) – возможно закрыть конкретную страницу по id.

 

 

В meta name=”robots” content=”noindex,nofollow” указываем нужное значение: например index,follow – разрешение обхода и индексирование роботом!..

 

 

Как создать свой плагин – отдельный файл функций для сайта my-functions.php

 

 

заготовка для файла роботс

 

 

Возможные варианты директив: скрываем / запрещаем или же разрешаем (Allow: ) доступ к страницам (документам):

 

 

User-agent: *
Disallow: /wp-admin

Allow: /wp-admin/admin-ajax.php
Allow: *.js
Allow: *.css
Allow: *.jpg
Allow: *.jpeg
Allow: *.png
Allow: *.gif
Allow: *.ico
Allow: *.svg

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/plugins/cache
Disallow: /wp-content/themes
Disallow: /slider-item/
Disallow: /order/*
Disallow: /transaction/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

Sitemap: https://домен.ru/sitemap.xml

 

 

Сюда буду добавлять новые и новые решения – делитесь соображениями…

 

 

 

Создание… продвижение сайтов; помощь по сайту, настройки, сопровождение и пр. – студия ATs media запросто с WordPress

 

 



...вопросы в комментариях - помогу, в чём дюжу...
mihalica.ru !



Михаил ATs - владелец блога запросто с Вордпресс - в сети нтернет давным-давно...

...веб разработчик студии ATs media: помогу в создании, раскрутке, развитии и целенаправленном сопровождении твоего ресурса в сети... - заказы, вопросы... разработка...





Нажатия на кнопочки определяют Ваше высокое гражданское сознание

Поделитесь соображениями: Ваши мысли очень важны!

Внимание! Обязательные поля помечены *

  отныне доступен плагин: ats privacy policy ©