Загрузка корпуса Twitter

Я работаю над системой интеллектуального анализа данных, и одним из требований является возможность выполнения анализа без использования API. Есть ли способ загрузить базу данных Twitter (или, по крайней мере, большую ее часть) и работать с ней локально?


person Anas Al-Masri    schedule 13.11.2017    source источник


Ответы (2)


Есть статья о создании корпусов из твиттера. Он называется "TWORPUS — простой в использовании инструмент для Создание специализированных корпораций Twitter». Я рекомендую прочитать его, потому что он также охватывает вопросы лицензирования и т. д. Они также предоставляют код на Github. .

Фактически, вы не можете загрузить дампы данных Twitter напрямую. Я могу скачать отдельные твиты и сохранить их в корпусе. Но также не разрешается делиться этими данными. Поэтому авторы создали клиент Tworpus для создания частных корпусов твиттеров.

person schrieveslaach    schedule 01.02.2018

API — это официальный способ получения данных Twitter, и они работают очень хорошо, поэтому непонятно, почему вы не хотите использовать API. Веб-скрапинг — это обходной путь, но не рекомендуется, кроме того, вы хотели бы получить большую его часть, поэтому я не думаю, что вы будете им удовлетворены. Вы также можете купить данные у Gnip.

person ZPB    schedule 13.11.2017
comment
Я уже использовал Twitter API для проекта, и он отлично работает, но мои клиенты указали, что они не хотят использовать API. Вместо этого они хотят анализировать данные локально. Как вы думаете, есть ли другой способ (или другая загружаемая база данных) для этого дела? - person Anas Al-Masri; 13.11.2017