Тег ‹noindex› для Google

Я хотел бы сказать Google, чтобы он не индексировал определенные части страницы. В Яндексе есть очень полезный тег <noindex>. Как это можно сделать с помощью Google?


person teslasimus    schedule 28.03.2013    source источник


Ответы (4)


Вы можете запретить Google видеть части страницы, поместив те части в окна iframe, которые заблокированы файлом robots.txt.

robots.txt

Disallow: /iframes/

index.html

This text is crawlable, but now you'll see 
text that search engines can't see:
<iframe src="/iframes/hidden.html" width="100%" height=300 scrolling=no>

/iframes/hidden.html

Search engines cannot see this text.

Вместо использования iframe вы можете загрузить содержимое скрытого файла с помощью AJAX. Вот пример, в котором для этого используется jquery ajax:

his text is crawlable, but now you'll see 
text that search engines can't see:
<div id="hidden"></div>
<script>
    $.get(
        "/iframes/hidden.html",
        function(data){$('#hidden').html(data)},
    );
</script>
person Stephen Ostermiller    schedule 30.03.2013
comment
Обратите внимание, что часть AJAX больше не правильная. Большинство поисковых систем оценивают JavaScript и выполняют вызовы XHR. - person cherouvim; 18.09.2020
comment
Если вы все загружены с помощью Ajax, это запрещено JavaScript, поисковые системы все равно не смогут его увидеть, даже если они выполняют JavaScript в целом. - person Stephen Ostermiller; 18.09.2020

Согласно Википедии 1, существуют некоторые правила, которым некоторые следуют пауки:

<!--googleoff: all-->
This should not be indexed by Google. Though its main spider, Googlebot,
might ignore that hint.
<!--googleon: all-->

<div class="robots-nocontent">Yahoo bots won't index this.</div>

<noindex>Yandex bots ignore this text.</noindex>
<!--noindex-->They will ignore this, too.<!--/noindex-->

К сожалению, похоже, они не смогли прийти к единому стандарту - и, насколько мне известно, нет ничего, что могло бы отпугнуть всех пауков ...

Комментарий googleoff:, похоже, поддерживает разные варианты, хотя я не уверен, где есть полный список. По крайней мере:

  • все: полностью игнорировать блок
  • index: контент не попадает в индекс Google
  • привязка: текст привязки для ссылок не будет связан с целевой страницей
  • snippet: текст не будет использоваться для создания сниппетов для результатов поиска

Также обратите внимание, что (по крайней мере, для Google) это повлияет только на поисковый индекс, но не на рейтинг страницы и т. Д. Кроме того, как Стивен Остермиллер правильно указал в своем комментарии ниже googleon и googleoff работают только с поисковым устройством Google и, к сожалению, не влияют на нормального робота Googlebot.

Также есть статья о Yahoo, часть 2 (и статья о том, что Яндекс также отмечает <noindex> 6). Что касается googleoff:, см. Также этот ответ и статью, из которой я взял большую часть соответствующей информации. 3


Кроме того, Инструменты Google для веб-мастеров рекомендуют использовать rel=nofollow атрибут 4 для определенных ссылок ( например, реклама или ссылки на страницы, недоступные / полезные для ботов, такие как вход / регистрация). Это означает, что HTML a rel Attribute должен соблюдаться ботами Google, хотя в основном это связаны с рейтингом страницы, а не с самим поисковым индексом. К сожалению, похоже, нет rel=noindex 5,7. Я также не уверен, можно ли использовать этот атрибут и для других элементов (например, <DIV REL="noindex">); но если сканеры не соблюдают "noindex", это тоже не имеет смысла.


Дополнительные ссылки:


1 Википедия: Noindex
2 Какие разделы Ваши веб-страницы могут игнорировать поисковые системы?
3 Сообщите Google, чтобы он не индексировал определенные части вашей страницы
4 Используйте rel =" nofollow "для определенных ссылок
5 Можно ли использовать <a href=“http://name.com” rel=“noindex, nofollow”>name</a>?
6 Использование тегов HTML - Яндекс.Помощь. Веб-мастер
7 существующие значения REL

person Izzy    schedule 10.04.2014
comment
@StephenOstermiller, правда, я тоже подумал. Спасибо, что указали, я совершенно забыл обновить это здесь! - person Izzy; 22.01.2015
comment
Поскольку ваш ответ длинный, комментарий о том, что он ложный, может остаться незамеченным. Не могли бы вы добавить заявление в начале, предупреждающее, что этого решения следует избегать? - person Frédéric; 21.09.2015
comment
Роджер, @Frederic - ты прав. Готово, спасибо, что указали! - person Izzy; 21.09.2015

Нет, Google не поддерживает тег <noindex>. Практически никто не делает.

person John Conde    schedule 28.03.2013
comment
Ни в коем случае Google не одобряет: webmasters.stackexchange.com/questions/16390/ - person John Conde; 28.03.2013
comment
Практически никто не включает хотя бы Яндекс, см. мой ответ. Но кого это действительно волнует, это другой вопрос. - person Izzy; 29.04.2014

Создайте файл robots.txt на корневом уровне и вставьте что-то вроде следующего:

Заблокировать Google:

User-agent: Googlebot
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/

Заблокировать всех ботов:

User-agent: *
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/

Удобный генератор robots.txt:

http://www.mcanerin.com/EN/search-engine/robots-txt.asp

person Fleming Slone    schedule 30.03.2013
comment
тесласимус не хочет блокировать всю страницу, только определенные части. - person unor; 30.03.2013
comment
хороший момент, мой ответ можно использовать вместе с предложенным выше решением iframe - person Fleming Slone; 30.03.2013