Получение заголовков тем общедоступных групп google с помощью RSS-канала

Я пытаюсь получить заголовки всех тем в общедоступной группе Google из RSS фида. Я пытаюсь получить все названия тем. В нем почти 8000 тем. Я использую следующий код для чтения каналов с помощью feedparser.

import feedparser
url = 'https://groups.google.com/forum/feed/caffe-users/topics/rss_v2_0.xml?num=50'
feed = feedparser.parse(url)
for entry in feed['entries']:
    content = entry['title']
    print(content)

Я замечаю, что когда использую num = 50, я получаю все 50 названий. Но когда я меняю num = 50 на num = 8000 или даже num = 500, я вижу только 15 заголовков? Результат будет примерно таким:

15
"Invalid integer constant expression" Error during Installation
Can't complete make pycaffe (Python.h not found)
Kernels not compiling with Vienna-CL for openCL Intel build on Centos 7
"import caffe" failed
Frozen training model -  Reading dangerously large protocol message ?
Specifying the solver file parameters
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
Making the network shorter, adding dropout and augmenting the dataset produce overfitting, why?
Fwd: [Scala.js] Fwd: Us congress hearing of maan alsaan Money laundry قضية الكونغجرس لغسيل الأموال للمليادير معن الصانع
Feature maps from network for multiple images all the same
How to interpret the result of Ristretto?
how do I train DB with 3~10 features per image ?
Recompile with -fPIC
scaling the pixels  in deployment.prototxt in [0,1]
hi im installing caffe and i have this error

Есть идеи, почему это происходит? Я получаю 50 заголовков, когда num = 50, но почему выбранный заголовок уменьшается до фиксированного числа 15, когда я увеличиваю значение num? Любая помощь или предложение будут оценены. Спасибо. С библиотекой gggd я столкнулся со следующей проблемой:

atan-115b-02: src mislam $ ./gggd.py -l -C cookies.txt caffe-users Войдите в свою учетную запись групп Google (перемещайтесь по полям формы с помощью стрелок вверх и вниз, отправьте форму с помощью Enter), а затем выйти из браузера (с помощью клавиши «q»). Нажмите Enter, чтобы продолжить.

Предупреждение !: Этот клиент не поддерживает URL-адреса HTTPS.

lynx: нет доступа к начальному файлу https://www.google.com/a/UniversalLogin?continue=https://groups.google.com/forum/&service=groups2&hd=default gggd.py: ValueError (" недопустимый литерал для int () с базой 10: 'client' ",) для справки используйте --help


person Md Johirul Islam    schedule 18.02.2018    source источник


Ответы (1)


Чтобы загрузить все сообщения из этой группы Google, вам потребуется другой интерфейс, кроме RSS. Интерфейс RSS групп Google отправляет не более 50 самых последних сообщений. Нет поддержки разбивки на страницы или даты, поэтому вы не можете использовать интерфейс RSS для получения всех сообщений из группы.

Решение

Получить данные групп Google - это проект Python2, который сканирует указанную группу Google и загружает все ее сообщения. После установки lynx на мой Mac я смог очистить caffe-users форум, указанный в вашем исходном коде.

Скриншот ниже. Удачи.

введите описание изображения здесь

person Spence Wetjen    schedule 18.02.2018
comment
Я обновил свой вопрос, указав на проблему, с которой столкнулся в связи с вашим предложением. Вы могли понять, почему это происходит? Спасибо - person Md Johirul Islam; 18.02.2018
comment
@MdJohirulIslam Я думаю, что пользователи кафе - это общедоступная группа? В таком случае вы сможете пропустить файлы cookie и запустить только ./src/gggd.py -v caffe-users - person Spence Wetjen; 19.02.2018