Я работаю в сфере высокопроизводительных вычислений и хранения данных уже 20 лет. С акцентом (в течение последних 5 лет) на высокопроизводительную аналитику данных в финансах. И это привело меня к выводу, что вы можете улучшить соотношение цена/производительность хранилища в 4 раза. И вы можете сделать это сегодня!

Существуют современные решения для хранения данных с лучшим соотношением цены и производительности, чем ваше текущее решение. С программным обеспечением, предназначенным для использования преимуществ:

  • Флэш-память NVMe
  • Высокоскоростные сети (100Gb или 200Gb)
  • Распределение данных
  • Параллелизм рабочей нагрузки

Я хотел бы провести конкретное сравнение с вашим существующим решением для хранения, но существует слишком много решений. Итак, давайте взглянем на плюсы и минусы категорий хранения больших ведер. Затем я поделюсь некоторыми прямыми сравнениями производительности.

Хранилище с прямым подключением (DAS)

Плюсы:

- Низкая задержка производительности

Минусы:

- Данные не передаются между клиентами, поэтому вам нужно много копий данных для параллелизма клиентских рабочих нагрузок.

- Ваша система DAS является единственной точкой отказа. Вам нужно больше копий данных, которые он содержит

Сети хранения данных (SAN)

Плюсы:

- Ресурсы хранилища распределяются между несколькими клиентами

- Нет единой точки отказа

Минусы:

- Очень дорого

- SAN — это блочное хранилище. Для современных приложений финансовой аналитики (например, InfluxDB, MongoDB, KX kdb+, Spark, PyTorch, TensorFlow, SAS Viya и т. д.) требуется файловая система.

- Размещение файловых служб поверх блочной SAN увеличивает задержку, сложность и стоимость.

Сетевое хранилище (NAS)

Плюсы:

- Обмен данными между многими клиентами

- Нет единой точки отказа

Минусы:

- Протоколы общей файловой системы, NFS и SMB, имеют более высокую задержку, чем современные протоколы.

- Протоколы NFS и SMB имеют более низкую производительность на одного клиента, чем параллельное хранилище.

- Устройства NAS обеспечивают низкую плотность производительности

Параллельные файловые системы (также известные как Parallel NAS)

Плюсы:

- Обмен данными между многими клиентами

- Параллельные протоколы (специфичные для выбранной файловой системы) обеспечивают более высокую производительность для каждого клиента.

- Хорошая производительность для больших файлов с последовательным вводом-выводом

Минусы:

- Плохая производительность при работе с небольшими файлами и произвольным вводом-выводом.

- Плохая производительность метаданных

Представляем ВекаФС

Файловая система Weka (WekaFS) — это современная параллельная файловая система, предназначенная для повышения производительности хранилища NVMe в высокоскоростных сетях. Он сочетает в себе преимущества DAS, NAS и SAN с непревзойденной производительностью, отказоустойчивостью и стоимостью.

Давайте посмотрим на плюсы WekaFS.

Представление:

- Блокировать хранилище, например задержку

- Пропускная способность до 3 раз выше, чем у DAS

- Параллельный протокол насыщает сети 100Gb или 200Gb

- Огромная производительность одного клиента

- Четырехкратная совокупная плотность производительности по сравнению с устройствами NAS, использующими только флэш-накопители.

- Разбивает все файлы на фрагменты по 4 КБ, обеспечивая отличную производительность для маленьких и больших файлов.

- Распределенные метаданные и масштабируемые службы метаданных

Устойчивость:

- Потерять до 4 серверов хранения без потери данных

- Быстрая реконструкция в случае отказа диска

- Снимки с нулевым влиянием на производительность

- Упрощенное резервное копирование и аварийное восстановление

Общая стоимость собственности:

- Возможность использования стандартного оборудования

- Автоматическое многоуровневое переключение с флэш-памяти на вращающийся диск в общем пространстве имен.

- Простое резервное копирование без стороннего программного обеспечения для резервного копирования

- Простое аварийное восстановление без репликации данных

- Интеграция с общедоступным облаком для пакетных или гибридных развертываний.

Прямое сравнение производительности

Финансы — это конкурентный рынок. Компании не хотят разглашать технологии, которые дают им конкурентное преимущество. Так, Weka и ее партнеры, HPE и KX, привлекли STAC Benchmark Council (STAC). STAC — это группа ведущих финансовых фирм и поставщиков технологий. Он создает наборы эталонных тестов, которые представляют рабочие нагрузки финансовых приложений. Weka и ее партнеры решили запустить набор тестов STAC M3 Tick Data Analytics.

STAC M3 имеет два набора данных: Antuco и Kanaga. Antuco — это ограниченный набор данных, не нагружающий подсистему хранения. Kanaga — это масштабируемый набор данных, который делает это.

Производительность измеряется задержкой для каждого из 24 тестов Kanaga. Решение тестируется с увеличением параллелизма клиентов и наборов данных. Из 24 тестов Канаги WekaFS установила новые мировые рекорды в 12.

Сравнение результатов WekaFS с конкурентными решениями (также использующими KX) позволяет сделать следующие выводы:

- WekaFS преуспевает там, где параллелизм клиентов выше.

- Средняя задержка по всем 24 тестам WekaFS:

  • В 3,9 раза быстрее, чем NAS на флэш-дисках
  • В 4,5 раза быстрее, чем DAS (сервер Optane SSD)
  • В 1,6 раза быстрее, чем SAN (NVMe-oF)

Выводы

WekaFS сочетает в себе преимущества DAS, NAS и SAN с невероятной производительностью для финансовой аналитики.

WekaFS использует обычное аппаратное обеспечение, чтобы обеспечить в 4 раза большую плотность производительности по сравнению с NAS на флеш-накопителях. Верно! При том же количестве флэш-памяти вы можете ожидать 4-кратного увеличения производительности.

— -

Если вы хотите узнать больше, вы можете посетить Weka здесь.

Зарегистрируйтесь здесь, если вы заинтересованы в том, чтобы получать мои блоги прямо на ваш почтовый ящик.

Первоначально опубликовано на https://www.derekburke.co.uk 5 сентября 2020 г.