Я хотел бы сказать Google, чтобы он не индексировал определенные части страницы. В Яндексе есть очень полезный тег <noindex>
. Как это можно сделать с помощью Google?
Тег ‹noindex› для Google
Ответы (4)
Вы можете запретить Google видеть части страницы, поместив те части в окна iframe, которые заблокированы файлом robots.txt.
robots.txt
Disallow: /iframes/
index.html
This text is crawlable, but now you'll see
text that search engines can't see:
<iframe src="/iframes/hidden.html" width="100%" height=300 scrolling=no>
/iframes/hidden.html
Search engines cannot see this text.
Вместо использования iframe вы можете загрузить содержимое скрытого файла с помощью AJAX. Вот пример, в котором для этого используется jquery ajax:
his text is crawlable, but now you'll see
text that search engines can't see:
<div id="hidden"></div>
<script>
$.get(
"/iframes/hidden.html",
function(data){$('#hidden').html(data)},
);
</script>
Согласно Википедии 1, существуют некоторые правила, которым некоторые следуют пауки:
<!--googleoff: all-->
This should not be indexed by Google. Though its main spider, Googlebot,
might ignore that hint.
<!--googleon: all-->
<div class="robots-nocontent">Yahoo bots won't index this.</div>
<noindex>Yandex bots ignore this text.</noindex>
<!--noindex-->They will ignore this, too.<!--/noindex-->
К сожалению, похоже, они не смогли прийти к единому стандарту - и, насколько мне известно, нет ничего, что могло бы отпугнуть всех пауков ...
Комментарий googleoff:
, похоже, поддерживает разные варианты, хотя я не уверен, где есть полный список. По крайней мере:
- все: полностью игнорировать блок
- index: контент не попадает в индекс Google
- привязка: текст привязки для ссылок не будет связан с целевой страницей
- snippet: текст не будет использоваться для создания сниппетов для результатов поиска
Также обратите внимание, что (по крайней мере, для Google) это повлияет только на поисковый индекс, но не на рейтинг страницы и т. Д. Кроме того, как Стивен Остермиллер правильно указал в своем комментарии ниже googleon
и googleoff
работают только с поисковым устройством Google и, к сожалению, не влияют на нормального робота Googlebot.
Также есть статья о Yahoo, часть 2 (и статья о том, что Яндекс также отмечает <noindex>
6). Что касается googleoff:
, см. Также этот ответ и статью, из которой я взял большую часть соответствующей информации. 3
Кроме того, Инструменты Google для веб-мастеров рекомендуют использовать rel=nofollow
атрибут 4 для определенных ссылок ( например, реклама или ссылки на страницы, недоступные / полезные для ботов, такие как вход / регистрация). Это означает, что HTML a rel Attribute должен соблюдаться ботами Google, хотя в основном это связаны с рейтингом страницы, а не с самим поисковым индексом. К сожалению, похоже, нет rel=noindex
5,7. Я также не уверен, можно ли использовать этот атрибут и для других элементов (например, <DIV REL="noindex">
); но если сканеры не соблюдают "noindex", это тоже не имеет смысла.
Дополнительные ссылки:
- Как использовать Noindex для частей веб-страницы? < / а>
- Исключение сканера из разделов страниц (сканер Spiderline; видите, другие сканеры могут использовать другие собственные маркеры (см. также сканер AddSearch) . Я бы хотел, чтобы они просто сделали
REL="noindex"
стандартом, чтобы использовать его с любым HTML-тегом, таким как DIV / SPAN / P / A!) - Запрещение Google индексировать содержимое div путем переворота строки
- Методы предотвращения индексирования поисковыми системами нерелевантного содержания на странице
1 Википедия: Noindex
2 sup > Какие разделы Ваши веб-страницы могут игнорировать поисковые системы?
3 Сообщите Google, чтобы он не индексировал определенные части вашей страницы
4 Используйте rel =" nofollow "для определенных ссылок
5 Можно ли использовать <a href=“http://name.com” rel=“noindex, nofollow”>name</a>
?
6 Использование тегов HTML - Яндекс.Помощь. Веб-мастер
7 существующие значения REL
googleoff
и googleon
работают с поисковым устройством Google и не влияют на обычного робота Google
- person Stephen Ostermiller; 22.01.2015
Нет, Google не поддерживает тег <noindex>
. Практически никто не делает.
Создайте файл robots.txt на корневом уровне и вставьте что-то вроде следующего:
Заблокировать Google:
User-agent: Googlebot
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/
Заблокировать всех ботов:
User-agent: *
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/
Удобный генератор robots.txt:
http://www.mcanerin.com/EN/search-engine/robots-txt.asp