Что такое сканирование данных?
Сканирование данных означает работу с большими наборами данных, когда вы разрабатываете свои поисковые роботы (или боты), которые сканируют самые глубокие веб-страницы [1].
Инструменты для сканирования данных
Twitter Intelligence Tool (TWINT) — это продвинутый инструмент очистки Twitter, написанный на Python, который позволяет очищать твиты из профилей Twitter без использования Twitter API [2].
Демонстрация
Вы можете использовать Python, Jupyter Notebook или Google Colab. В этом случае я продемонстрирую «Простой способ использования TWINT» с помощью Jupyter Notebook.
Важно: не устанавливайте Twint с помощью этой команды.
пип установить твинт
Потому что у меня возникла проблема с реализацией этой команды. Альтернативный способ, вы можете использовать эту команду:
pip install — user — update git+«https://github.com/twintproject/twint.git@origin/master#egg=twint»
Эта команда даст вам доступ к вашему пользовательскому каталогу.
Импорт библиотеки
импортировать twint
импортировать pandas как pd
Просто введите эту команду ниже и АБРАКАДАБРА..!!
c = твинт.Конфигурация ()
c.Search = «minyak goreng pemerintah»
c.Limit = 100
c.Since = '2022–01–26' # год-месяц-день
c.Pandas = True
twint.run.Search(c)
Некоторые пояснительные термины в коде описаны ниже:
- Config() означает конфигурацию TWINT, которую мы используем.
- Поиск (строковый тип данных) означает
Search terms
, что вы хотите сканировать или искать - Ограничение (целочисленный тип данных) означает
Number of Tweets to pull (Increments of 20)
- Поскольку (строковый тип данных) означает
Filter Tweets sent since date, works only with twint.run.Search (Example: 2017-12-27)
- Панды (логическое значение) означает
Enable Pandas integration
Если вы запустите команду, ниже будут показаны следующие данные:
Итак, следующий вопрос: "Как преобразовать его во фрейм данных?" , "Это легко?".
ДА, ЭТО СУПЕР ПРОСТО!
Вам нужно определить конфигурацию Pandas с помощью этой команды
def column_names():
return twint.output.panda.Tweets_df.columns
def twint_to_pd(столбцы):
return twint.output.panda.Tweets_df[столбцы]
Если вы хотите увидеть список столбцов, вы можете просто запустить эту команду
имена_столбцов()
Далее я хочу выбрать дату, имя пользователя и функции твита в столбце фрейма данных, просто запустите эту команду: D
tweet_df = twint_to_pd([«дата», «имя пользователя», «твит»])
tweet_df
И…… ОЧЕНЬ ПРОСТОЙ СПОСОБ ИЗМЕНЕНИЯ ДАННЫХ В ФРЕЙМЕ ДАННЫХ
Инструменты TWINT имеют множество настроек и команд, но вы можете изменить их, прочитав их документацию на https://github.com/twintproject/twint/wiki/
Пожалуйста, дайте аплодисменты и комментарии, если этот пост полезен.
Если вы хотите получать от меня больше полезных руководств, поддержите меня, подписавшись на эту учетную запись.
Спасибо!
Использованная литература:
[1] https://www.promptcloud.com/data-scraping-vs-data-crawling/