loadrdf-tool прерывает или останавливает загрузку 1B+ троек

Я настроил graphdb на сервере Windows с 32 ГБ памяти. Я изменил команду loadrdf и добавил «-Xms16G -Xmx24G».

Нет, я пытаюсь импортировать весь rdf-дамп Викиданных, но у меня возникают трудности. Сначала я попытался со значением размера индекса объекта 10 000 000, которое работало нормально, пока инструмент loadrdf не прервался после достижения чуть более 1 миллиарда троек. Затем я попытался установить значение размера индекса сущности 2.000.000.000, но это работает хуже. На данный момент он обработал 500 000 000 троек, но скорость загрузки упала до 7 000 ст/с.

Существуют ли какие-либо другие настройки/конфигурации, о которых я должен знать, которые могут заставить импорт работать?


person Rune Stilling    schedule 13.06.2017    source источник


Ответы (1)


Публичный дамп Wikidata RDF содержит около 2 миллиардов операторов и, вероятно, около 500 миллионов уникальных ресурсов RDF. По умолчанию структура пула сущностей (индекс всех уникальных ресурсов RDF) хранится в пространстве вне кучи, и вам потребуется зарезервировать не менее 8 ГБ. Добавьте по крайней мере 3 ГБ больше для системы ОС, и это означает, что вам действительно нужно будет уменьшить объем используемой памяти до «-Xmx20G».

Для увеличения скорости загрузки данных документация GraphDB рекомендует использовать SSD. Это повысит скорость загрузки данных, поскольку SSD имеет гораздо меньшее время поиска.

person vassil_momtchev    schedule 15.06.2017