Предотвратить доступ сканеров поисковых систем к нескольким именам хостов, используемым в качестве CDN.

Я настроил несколько имен хостов в нашей учетной записи общего хостинга, на которой размещается веб-сайт MVC4. Я сделал это для загрузки статических ресурсов с этих нескольких имен хостов, чтобы увеличить скорость за счет параллельных запросов. Все эти имена хостов сопоставляются с одним и тем же сайтом/приложением в IIS. А затем мы изменили URL-адреса статических ресурсов, чтобы загружать их с этих имен хостов. По сути, это похоже на загрузку из CDN (на самом деле мы не используем CDN, а просто делаем его параллельной загрузкой).

Однако я хочу заблокировать поисковые системы и другие поисковые роботы для доступа к этим множественным именам хостов / поддоменам. В противном случае он будет перечислять их в списках поиска.

Я думаю добавить robots.txt, но эти домены используют одно и то же приложение. Итак, у меня уже есть файл robots.txt для моего основного домена.

Любая идея о том, как запретить поисковым роботам сканировать эти дополнительные имена хостов?


person Krunal    schedule 21.06.2013    source источник


Ответы (3)


Добавьте правило ниже в ваш web.config под узлом.

<rewrite>
  <rules>
    <rule name="Imported Rule 1" stopProcessing="true">
      <match url="^robots\.txt$" ignoreCase="false" />
      <conditions>
        <add input="{HTTP_HOST}" pattern="^cdn\.yourdomain\.com$" />
      </conditions>
      <action type="Rewrite" url="/cdn.robots.txt" />
    </rule>
  </rules>
</rewrite>
person Dharmik Bhandari    schedule 15.07.2013

В Google Webmaster Tools вы можете настроить параметры «канонизации». Это терминология, используемая для описания дублированного контента с предпочтительным источником (точнее, он относится к самому предпочтительному источнику). Google обсуждает свою политику в отношении дублированного содержания и канонизация в разделе ответов Инструментов для веб-мастеров.

Подводя итог странице, самый простой/наилучший подход — установить «предпочтительный домен» в настройках сайта Инструментов для веб-мастеров и настроить элементы ссылок на дублирующихся страницах с помощью rel="canonical", чтобы указать предпочитаемый источник для целей SEO.

Если вы хотите, чтобы http://www.example.com/dresses/greendress.html быть каноническим URL для вашего листинга, вы можете указать это поисковым системам, добавив элемент с атрибутом rel="canonical" в раздел неканонических страниц. Для этого создайте ссылку следующим образом:

<link rel="canonical" href="http://www.example.com/dresses/greendress.html">

Канонические ссылки не являются специфическими для Google. Они определены в RFC 6596 и, как известно, также поддерживаются Yahoo и Bing с 2009 года.

Что касается типа отношения ссылки, «канонический» можно неофициально описать как предпочитаемую автором версию ресурса. Более формально отношение канонической ссылки определяет предпочтительный IRI из набора ресурсов, которые возвращают содержимое IRI контекста в дублированной форме. После указания такие приложения, как поисковые системы, могут сосредоточить обработку на каноническом, а ссылки на контекстный (ссылающийся) IRI могут быть обновлены для ссылки на целевой (канонический) IRI.

Настройка канонических ссылок не предотвращает сканирование поисковыми системами ваших дубликатов страниц, но должна обеспечить правильное назначение рейтинга вашей страницы и поисковых ссылок (что действительно важно). Теоретически GoogleBot и другие поисковые роботы должны в конечном итоге выяснить, какой базовый URL-адрес является реальным содержанием, и не должны сканировать ваш дублированный контент так часто или интенсивно, как ваши «основные» страницы.

person SpliFF    schedule 15.07.2013
comment
Спасибо за подробный ответ с объяснением. Я уже смотрел на это. Но это не мешает сканированию такого дубликата / домена cdn, поэтому он сканируется, индексируется и представляется. Более того, это увеличивает потребление ресурсов, которые не требуются ... например, для обработки этих запросов требуется пропускная способность, процессор и т. Д. Ресурсы. Более того, что касается объявления rel=cannonical, у нас одно приложение, а все домены cdn — это просто cname, поэтому требуются дополнительные изменения на уровне приложения, что, конечно, нежелательно. Предложение по перезаписи для robots.txt работает очень хорошо. - person Krunal; 16.07.2013
comment
Когда вы говорите, что контент проиндексирован и представлен, мне любопытно, какие поисковые системы вы имеете в виду. Весь смысл rel="canonical" состоит в том, чтобы предотвратить именно это, и все основные поисковые системы заявляют, что поддерживают это. Вы также можете не знать, что ссылка может быть безопасно включена в ваши основные страницы (указывая на себя), поэтому у вашего приложения нет причин делать что-либо, кроме включения заголовка в качестве статического адреса. - person SpliFF; 16.07.2013
comment
Если robots.txt работает для вас, это здорово, но, вероятно, вы вредите своему SEO в процессе, если другие сайты ссылаются на ваши страницы CDN вместо вашего основного домена, и вы блокируете поисковые роботы из этих копий CDN. Если я правильно помню, Google специально рекомендует НЕ блокировать robots.txt так, как вы это делаете. - person SpliFF; 16.07.2013
comment
Привет, спасибо за объяснение .. Я не знал, что Google советует не блокировать URL-адрес cdn с помощью robots.txt .. не могли бы вы поделиться некоторыми проверенными ссылками, где Google советует это. Более того, имена хостов cdn предназначены для целей cdn, а не для каких-либо других. Если их используют другие сайты, значит, в маркетинге что-то не так. Буду ждать вашего ответа по этому поводу. - person Krunal; 17.07.2013
comment
Справка Google для веб-мастеров: дубликаты страниц: support.google.com/webmasters/answer/66359 ?hl=ru Ближе к середине: Google не рекомендует блокировать доступ поисковых роботов к дублирующемуся контенту на вашем веб-сайте с помощью файла robots.txt или других методов. ... Лучшее решение — разрешить поисковым системам сканировать эти URL-адреса, но пометить их как дубликаты с помощью элемента ссылки rel=canonical, инструмента обработки параметров URL-адреса или переадресации 301. В тех случаях, когда дублированный контент приводит к тому, что мы сканируем слишком большую часть вашего веб-сайта, вы также можете настроить скорость сканирования в Инструментах для веб-мастеров. - person SpliFF; 18.07.2013

Чтобы избежать этой проблемы, рекомендуется загружать статическое содержимое в один субдомен и направлять все ваши ресурсы CDN на ваш субдомен. Затем заблокируйте свой поддомен с помощью файла robots.txt или инструментов Google для веб-мастеров.

person Kailash Aghera    schedule 21.06.2013
comment
Спасибо .. Но это означало бы перемещение большого количества ресурсов в другую папку. Его сложно поддерживать, особенно когда мы говорим о динамических сайтах. Любые другие предложения / идеи. - person Krunal; 21.06.2013