Как сжать потоковую передачу Twitter с помощью LZO в среде Linux/Python/Tweepy?

Я получаю огромное количество потоковых данных из Твиттера, используя Tweepy (библиотека Python API Twitter). Что я хочу сделать, так это сжать поток полученных твитов и сохранить их в файле.

Сжатие должно быть LZO, и я не хочу использовать каналы Linux для сжатия. Я хочу использовать LZO непосредственно из кода Python. Используя трубы Linux, я мог бы сделать:

Python downloader.py | lzop -c > output.json.lzo

Но я не хочу использовать каналы и хочу сжимать поток в загрузчике сценариев Python.

Я не смог найти никакой библиотеки Python или примера кода для сжатия потоковых данных с помощью LZO.

Ash 07.05.2016 источник

comment

Я написал здесь фрагмент кода, который выполняет эту работу: github.com/ afshinrahimi/twitter-fetcher/blob/master/fetcher.py - Ash 03.11.2016

Ответы (1)

arrow_upward
2
arrow_downward

Два варианта:

используйте библиотеку.
если по какой-то причине вы не можете использовать библиотеку, следующий код является эквивалентом того, что вы написали:
```
from subprocess import Popen, PIPE, STDOUT

p = Popen(['lzop', '-c'], stdout=PIPE, stdin=PIPE, stderr=STDOUT)    
result_stdout = p.communicate(input=json.dump(results))[0]
```

lesingerouge 07.05.2016

comment

Окончательный код предназначен для пользователей, столкнувшихся с той же проблемой в будущем pastebin.com/npzW5fh7. - Ash; 08.05.2016

comment

Также в качестве еще одного примечания: если вы используете потоковую передачу, вам не следует использовать p.communicate, поскольку впоследствии он закрывает канал. Вместо этого вы должны использовать p.stdin.write(data), чтобы канал оставался открытым. Для вывода вывода в файл вместо stdout=PIPE вы можете заменить PIPE файлом, как в open('output.json.lzo', 'wb'). - Ash; 08.05.2016

comment

Код находится здесь: github.com/afshinrahimi/twitter-fetcher/blob /мастер/fetcher.py - Ash; 09.05.2016

Как сжать потоковую передачу Twitter с помощью LZO в среде Linux/Python/Tweepy?

Ответы (1)

Вопросы по теме