Учебное пособие — Как создать собственный анализатор профиля LinkedIn в 2022 году

Содержание
1. [Введение](#intro)
1. [Открытие IDE и терминал](#ide)
1. [Пакеты для установки](#installpackages)
1. [Анализ кода](#analyzingcode)
1. [Проверка текста ответа](#responsetext)
1. [Вывод](#заключение)

Введение
Меня зовут Малкольм, я Full-Stack-разработчик и технический писатель, который специализируется на использовании таких языков, как Python, для анализа сегодняшней темы. Как мы можем использовать парсер профиля в сегодняшних условиях для извлечения нужных вам данных с защищенного веб-сайта, такого как LinkedIn?
Прежде всего нам нужно обсудить, что такое парсер профиля? Если вы знакомы с Python и используете его какое-то время, вы, вероятно, встречали термин парсер профиля или извлечение данных. Парсер профиля — это, по сути, извлечение настроенных данных по вашему выбору для профилей или данных в целом на веб-сайте по выбору программиста.
Здесь вы будете извлекать информацию и детали, такие как имя, возраст, адрес электронной почты, номер телефона. и относительную информацию, которую пользователь разрешил на таких сайтах, как linkedin, Facebook, instagram и т. д., и разрешил публичное и доступное использование в соответствии с положениями и условиями сайта.
Теперь давайте начнем.

IDE
Откройте IDE и терминал. Для этого я буду следовать вместе с VS Code, но вы можете использовать любую платформу по вашему выбору. Я также буду использовать Google Chrome для извлечения данных из Linked In в свою IDE.

Сначала нам нужно убедиться, что у нас установлены некоторые пакеты, чтобы извлечь данные, поэтому, если вы сначала получите доступ к этому сайт: https://www.pypi.org. Вы хотите сначала убедиться, что вы проверили, какая у вас версия Chrome. Моя версия для этого примера — Версия 103.0.5060.114 (официальная сборка) (64-разрядная версия).
Вы можете получить доступ к своей версии, выбрав настройки с тремя точками в браузере, нажав Настройки и слева выберите О Хроме

InstallPackages
Итак, пакеты, которые вы хотите убедиться, что они установлены и настроены:
Импортный запрос
From time import sleep
From selenium import webdriver
Импортируйте chromedriver_binary
Начиная с Selenium, вы можете установить это из pypi или просто использовать pip install selenium.
С точки зрения chromedriver_binary нам не обязательно устанавливать последнюю версию, но версию, наиболее близкую к ваша версия Chrome. Чтобы найти правильную версию, нажмите на историю выпусков версий слева и выберите ближайшую для вас версию.

Так что в моем случае лучше всего выбрать 103.0.5060.53.0, поскольку он ближе к моей версии Chrome, а последняя версия 104.0.5112.20.0 мне не подойдет.

AnalyzingCode
Теперь давайте пройдемся по коду:

С драйвером = webdriver.chrome() с помощью этой инструкции откроется приложение Chrome и подождет 5 секунд. Затем он максимизирует окно и снова будет ждать 5 секунд.
Это не обязательно, но здесь вставлено 5 секунд, чтобы при выполнении кода вы могли видеть, что происходит. После этого мы откроем базовый запрос в основной задаче linkedin, чтобы получить файлы cookie, поэтому, когда вы отправляете запрос профиля с серверной частью, мы должны установить файлы cookie, поэтому я отправляю запрос на основе linkedin.com, чтобы получить файлы cookie из браузера Chrome. .
Теперь с cookies_dict = {} это переменная словаря для сохранения файла cookie, который мы получили из браузера Chrome. В файле cookie_dict = {} будет сохранен файл cookie и пара имен и значений.
Следующая инструкция закроет браузер. Cookie уже сохранен с cookies_dict = {} здесь запрос на отправку с request.get, затем я должен установить URL-адрес связанного профиля, здесь мы устанавливаем файлы cookie, мы сохраняем cookies_dict = {} затем мы устанавливаем все необходимые заголовки, такие как пользовательский агент, и т. д. , теперь, какой бы ответ я ни получил из текста, мы сохраняем переменную html, html равнозначный ответ точка текстового ответа является этой переменной.

Следующая задача — сохранить полученный ответ в вашей локальной папке. Для этого нужно указать полный путь, поэтому диск, а затем любая папка и имя файла, вот диск d и страницы подчеркивания linkedin, это папка, в которой я должен сохранить html-страницу с именем одного html, теперь я беру одну функцию, и синтаксис открыт и нужно применить полный путь html, следующая запятая, затем «w», это для функции записи, мы должны написать html-страницу, здесь я упомянул «w», тогда я должен применить кодировку к правой странице, мы должны применить кодировку utf-8 поэтому мы можем написать, что кодировка равна utf-8, следующая функция страницы права. Я должен написать текст, который я получил в ответ, поэтому я упомянул html, я должен написать fun.write (html). Теперь мы закроем функцию с помощью page_fun.close().
Итак, эта функция записывает страницу в папку на диске linked_pages.

Как только мы запустим этот код, он автоматически откроет ваш браузер, а затем развернет его вскоре после запуска linkedin.com, он отправит серверный запрос профиля, сохранит html-страницу и папку и одновременно сохранится как 1.html.

Мы можем открыть это с помощью браузера Chrome, щелкнув правой кнопкой мыши и щелкнув открыть с помощью и выбрав chrome. Затем откроется страница, как показано ниже:

ResponseText
Итак, теперь, чтобы проверить текст ответа, просто введите в консоль имя переменной html. И здесь вы найдете текст ответа переменной html.

Вы можете анализировать данные после их сохранения на локальном диске, вы можете анализировать данные от текста ответа до данных имени профиля, количества сотрудников, местоположения, подписчиков, раздела о нас, веб-сайта, размера компании, штаб-квартиры, специальности и многое другое без входа в систему или наличия учетной записи.

Теперь, если вам требуется несколько страниц, вы можете использовать цикл for. Вам не нужно открывать браузер несколько раз, вам нужно отправить запрос с другим URL-адресом, потому что файл cookie уже сохранен, и cookie_dict{} уже применяется здесь, поэтому вам не нужно открывать страницу снова и снова.

Таким образом, вы можете изменить URL-адрес связанного профиля, а также создать список и отправить разные URL-адреса и сохранить страницы. Вы можете изменить html-путь с инкрементным значением 1,2,3.

Однако, если у вас возникли проблемы с извлечением данных из базы данных, я предлагаю вам посмотреть это видео здесь.

Заключение
Теперь, чтобы завершить эту статью:
Почему это полезно?

Веб-скрапинг сайтов с помощью Python в LinkedIn полезен в руках некоторых разработчиков, поскольку это простой способ извлечения данных в больших количествах и их преобразования в структурированные веб-данные, которые вы не сможете получить обычным образом через API. Это также высокая скорость и сокращение времени, как только вы научились делать это один раз и можете использовать снова для других проектов, которые вы, возможно, захотите использовать в будущем.

Надеюсь, вам понравился этот учебник.

Спасибо за внимание,
Мальч/Мика