Я работаю над системой интеллектуального анализа данных, и одним из требований является возможность выполнения анализа без использования API. Есть ли способ загрузить базу данных Twitter (или, по крайней мере, большую ее часть) и работать с ней локально?
Загрузка корпуса Twitter
Ответы (2)
Есть статья о создании корпусов из твиттера. Он называется "TWORPUS — простой в использовании инструмент для Создание специализированных корпораций Twitter». Я рекомендую прочитать его, потому что он также охватывает вопросы лицензирования и т. д. Они также предоставляют код на Github. .
Фактически, вы не можете загрузить дампы данных Twitter напрямую. Я могу скачать отдельные твиты и сохранить их в корпусе. Но также не разрешается делиться этими данными. Поэтому авторы создали клиент Tworpus для создания частных корпусов твиттеров.
API — это официальный способ получения данных Twitter, и они работают очень хорошо, поэтому непонятно, почему вы не хотите использовать API. Веб-скрапинг — это обходной путь, но не рекомендуется, кроме того, вы хотели бы получить большую его часть, поэтому я не думаю, что вы будете им удовлетворены. Вы также можете купить данные у Gnip.