Как веб-паук мог просканировать содержимое ::before?

Содержимое псевдоэлемента, такого как ::before или ::after, фактически не существует в дереве DOM. Таким образом, невозможно найти его по селектору.

Вопрос в том, как я могу извлечь содержимое в нем? Например:

<div>This is <span></span>n apple.</div>
...
span::before {
    content : "a"
}

shows : This is an apple.

Но если я извлеку текст div, я получу только This is n apple. без содержания в span::before.

Как я мог справиться с этой проблемой?

Sraw 05.04.2017 источник

comment

Так же, как браузер? (Проанализировав и применив CSS...) - nnnnnn 05.04.2017

comment

Дуп? stackoverflow.com/questions/16003916/ - Mr. Alien 05.04.2017

comment

@Mr.Alien Нет, это проблема сканирования стороннего веб-сайта, содержащего псевдоэлементы. - Sraw 05.04.2017

comment

@nnnnnn На самом деле, я пытался и потерпел неудачу. После применения CSS, несмотря на JS, содержимое псевдоэлементов по-прежнему не существует в дереве DOM, что по-прежнему приводит к сбою определения местоположения. - Sraw 05.04.2017

Ответы (1)

arrow_upward
1
arrow_downward

Как я мог справиться с этой проблемой?

Честно говоря, не используя псевдоэлементы для этой цели.

Псевдоэлемент специально разработан для отображения содержимого за пределами дерева документа.

Этот «сгенерированный контент», определяемый свойством content псевдоэлементов ::before и ::after, обычно используется для добавления чисто косметического контента.

Следовательно, у поисковых систем не должно быть причин индексировать сгенерированный контент.

https://developer.mozilla.org/en-US/docs/Web/CSS/Pseudo-elements

Michael Benjamin 05.04.2017

comment

Это, и если вы сканируете сторонний сайт, который использует сгенерированный контент для такого рода вещей, что ж, очень плохо для вас. - BoltClock; 05.04.2017

comment

О, я вижу этому применение. Если содержимое дерева DOM на самом деле яблоко (например, для идентификаторов с картинками или чем-то еще, яблоко, груша и т. д.), и вы хотите украсить их соответствующим артиклем. Вроде того. Но, конечно, в этих случаях нет необходимости очищать добавленные слова. - Mr Lister; 05.04.2017

comment

@BoltClock указывает на проблему: мне нужно просканировать сторонний веб-сайт. И это, использование псевдоэлементов для отображения нормального контента, является технологией защиты от сканирования. - Sraw; 05.04.2017

comment

@Mr Lister: По сути, если контент важен, его не следует генерировать. - BoltClock; 05.04.2017

Как веб-паук мог просканировать содержимое ::before?

Ответы (1)

Вопросы по теме