Чтобы извлечь или очистить веб-сайт или веб-страницу, первым и наиболее важным шагом является знание того, как веб-сайт или веб-страница работает. Веб-страница - это комбинация трех технологий, когда мы вставляем URL-адрес в браузер для доступа к ней.

HTML (язык разметки гипертекста): это язык, используемый для добавления на веб-сайт содержимого, такого как текст, изображения и другие элементы.

CSS (каскадные таблицы стилей): это язык, который позволяет создателю настраивать визуальный дизайн веб-сайта.

JavaScript: позволяет контенту и стилю сайта быть интерактивными.

Поскольку основное внимание в этой статье уделяется извлечению содержимого (текста) веб-страницы с помощью веб-парсинга, именно HTML-код является наиболее важным для важного для веб-парсинга, которое мы стремимся выполнить. Необработанный HTML-код состоит из элементов с различными атрибутами, например, жирным шрифтом абзаца. В коде есть довольно разные типы элементов, и каждый элемент имеет свой собственный атрибут. Каждый элемент представлен в коде с тегами. Эти теги обозначаются символом ‹›.

Из показанного примера кода HTML мы видим, что в символах ‹› используются разные теги для представления разных классов и идентификаторов. Таким образом, при посещении веб-страницы необходимо найти требуемый контент и его свойства в HTML-коде, прежде чем пытаться очистить данные с веб-страницы.

У Python есть несколько пакетов, которые позволяют собирать информацию с веб-страниц. Другой распространенный вариант - селен, и это библиотека веб-тестирования, которая автоматизирует действия браузера. Чтобы селен работал, ему необходимо разрешить доступ и управление драйвером браузера для распространенных браузеров, таких как, например, Chrome, Firefox, Edge и Safari.

возьмем пример извлечения новостной статьи из Yahoo! Финансовый сайт.

Как мы знаем, невозможно извлечь новостные статьи непосредственно из Yahoo! Финансовый сайт Yahoo! Раздел новостей состоит из новостей, собранных из разных источников (веб-сайтов), поэтому необходимо было извлечь все ссылки, связанные с новостной статьей, с использованием селена.

Selenium - это инструмент, который позволяет автоматизировать действия, воспроизводимые в браузере. Селен полезен, когда мы должны выполнить действие на веб-сайте, например: щелкать кнопки / ссылки. В этом случае было замечено, что всякий раз, когда драйвер вызывал URL-адрес, как показано на рисунке, веб-страница приводила к появлению на экране двух разных кнопок щелчка. Чтобы автоматизировать управление этими всплывающими окнами, была создана автоматическая кнопка щелчка, чтобы получить доступ к главной веб-странице с помощью хромированной кнопки веб-драйвера в этой ситуации.

Код Python:

Поскольку ссылки на все новостные статьи необходимо было извлечь, используется библиотека Python Newspaper. Это отличная библиотека Python для извлечения и редактирования новостных статей. Он обеспечивает извлечение статей в стиле Instapaper.