Что такое сканирование данных?

Сканирование данных означает работу с большими наборами данных, когда вы разрабатываете свои поисковые роботы (или боты), которые сканируют самые глубокие веб-страницы [1].

Инструменты для сканирования данных

Twitter Intelligence Tool (TWINT) — это продвинутый инструмент очистки Twitter, написанный на Python, который позволяет очищать твиты из профилей Twitter без использования Twitter API [2].

Демонстрация

Вы можете использовать Python, Jupyter Notebook или Google Colab. В этом случае я продемонстрирую «Простой способ использования TWINT» с помощью Jupyter Notebook.

Важно: не устанавливайте Twint с помощью этой команды.

пип установить твинт

Потому что у меня возникла проблема с реализацией этой команды. Альтернативный способ, вы можете использовать эту команду:

pip install — user — update git+«https://github.com/twintproject/twint.git@origin/master#egg=twint»

Эта команда даст вам доступ к вашему пользовательскому каталогу.

Импорт библиотеки

импортировать twint
импортировать pandas как pd

Просто введите эту команду ниже и АБРАКАДАБРА..!!

c = твинт.Конфигурация ()

c.Search = «minyak goreng pemerintah»
c.Limit = 100
c.Since = '2022–01–26' # год-месяц-день
c.Pandas = True
twint.run.Search(c)

Некоторые пояснительные термины в коде описаны ниже:

  • Config() означает конфигурацию TWINT, которую мы используем.
  • Поиск (строковый тип данных) означает Search terms, что вы хотите сканировать или искать
  • Ограничение (целочисленный тип данных) означает Number of Tweets to pull (Increments of 20)
  • Поскольку (строковый тип данных) означает Filter Tweets sent since date, works only with twint.run.Search (Example: 2017-12-27)
  • Панды (логическое значение) означает Enable Pandas integration

Если вы запустите команду, ниже будут показаны следующие данные:

Итак, следующий вопрос: "Как преобразовать его во фрейм данных?" , "Это легко?".

ДА, ЭТО СУПЕР ПРОСТО!

Вам нужно определить конфигурацию Pandas с помощью этой команды

def column_names():
return twint.output.panda.Tweets_df.columns

def twint_to_pd(столбцы):
return twint.output.panda.Tweets_df[столбцы]

Если вы хотите увидеть список столбцов, вы можете просто запустить эту команду

имена_столбцов()

Далее я хочу выбрать дату, имя пользователя и функции твита в столбце фрейма данных, просто запустите эту команду: D

tweet_df = twint_to_pd([«дата», «имя пользователя», «твит»])
tweet_df

И…… ОЧЕНЬ ПРОСТОЙ СПОСОБ ИЗМЕНЕНИЯ ДАННЫХ В ФРЕЙМЕ ДАННЫХ

Инструменты TWINT имеют множество настроек и команд, но вы можете изменить их, прочитав их документацию на https://github.com/twintproject/twint/wiki/

Пожалуйста, дайте аплодисменты и комментарии, если этот пост полезен.

Если вы хотите получать от меня больше полезных руководств, поддержите меня, подписавшись на эту учетную запись.

Спасибо!

Использованная литература:

[1] https://www.promptcloud.com/data-scraping-vs-data-crawling/

[2] https://github.com/twintproject/twint