Как получить список файлов WARC с помощью HTTP для набора данных Common Crawl News?

Я могу получить список для Common Crawl:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

Как это сделать с помощью набора данных Common Crawl News?

Я пробовал разные варианты, но всегда получаю ошибки:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz

http amazon-web-services common-crawl

Andrey 20.03.2021 источник

Ответы (1)

arrow_upward
1
arrow_downward

Поскольку каждые несколько часов в набор данных новостей добавляется новый файл WARC, статический список файлов не имеет смысла. Вместо этого вы можете получить список файлов с помощью интерфейса командной строки AWS — для любого подмножества по годам или месяцам, например

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

См. также уведомление о выпуске новостных данных.

Sebastian Nagel 21.03.2021

Как получить список файлов WARC с помощью HTTP для набора данных Common Crawl News?

Ответы (1)

Вопросы по теме