Как получить список файлов WARC с помощью HTTP для набора данных Common Crawl News?

Я могу получить список для Common Crawl:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

Как это сделать с помощью набора данных Common Crawl News?

Я пробовал разные варианты, но всегда получаю ошибки:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz


person Andrey    schedule 20.03.2021    source источник


Ответы (1)


Поскольку каждые несколько часов в набор данных новостей добавляется новый файл WARC, статический список файлов не имеет смысла. Вместо этого вы можете получить список файлов с помощью интерфейса командной строки AWS — для любого подмножества по годам или месяцам, например

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

См. также уведомление о выпуске новостных данных.

person Sebastian Nagel    schedule 21.03.2021