Я работаю в сфере высокопроизводительных вычислений и хранения данных уже 20 лет. С акцентом (в течение последних 5 лет) на высокопроизводительную аналитику данных в финансах. И это привело меня к выводу, что вы можете улучшить соотношение цена/производительность хранилища в 4 раза. И вы можете сделать это сегодня!
Существуют современные решения для хранения данных с лучшим соотношением цены и производительности, чем ваше текущее решение. С программным обеспечением, предназначенным для использования преимуществ:
- Флэш-память NVMe
- Высокоскоростные сети (100Gb или 200Gb)
- Распределение данных
- Параллелизм рабочей нагрузки
Я хотел бы провести конкретное сравнение с вашим существующим решением для хранения, но существует слишком много решений. Итак, давайте взглянем на плюсы и минусы категорий хранения больших ведер. Затем я поделюсь некоторыми прямыми сравнениями производительности.
Хранилище с прямым подключением (DAS)
Плюсы:
- Низкая задержка производительности
Минусы:
- Данные не передаются между клиентами, поэтому вам нужно много копий данных для параллелизма клиентских рабочих нагрузок.
- Ваша система DAS является единственной точкой отказа. Вам нужно больше копий данных, которые он содержит
Сети хранения данных (SAN)
Плюсы:
- Ресурсы хранилища распределяются между несколькими клиентами
- Нет единой точки отказа
Минусы:
- Очень дорого
- SAN — это блочное хранилище. Для современных приложений финансовой аналитики (например, InfluxDB, MongoDB, KX kdb+, Spark, PyTorch, TensorFlow, SAS Viya и т. д.) требуется файловая система.
- Размещение файловых служб поверх блочной SAN увеличивает задержку, сложность и стоимость.
Сетевое хранилище (NAS)
Плюсы:
- Обмен данными между многими клиентами
- Нет единой точки отказа
Минусы:
- Протоколы общей файловой системы, NFS и SMB, имеют более высокую задержку, чем современные протоколы.
- Протоколы NFS и SMB имеют более низкую производительность на одного клиента, чем параллельное хранилище.
- Устройства NAS обеспечивают низкую плотность производительности
Параллельные файловые системы (также известные как Parallel NAS)
Плюсы:
- Обмен данными между многими клиентами
- Параллельные протоколы (специфичные для выбранной файловой системы) обеспечивают более высокую производительность для каждого клиента.
- Хорошая производительность для больших файлов с последовательным вводом-выводом
Минусы:
- Плохая производительность при работе с небольшими файлами и произвольным вводом-выводом.
- Плохая производительность метаданных
Представляем ВекаФС
Файловая система Weka (WekaFS) — это современная параллельная файловая система, предназначенная для повышения производительности хранилища NVMe в высокоскоростных сетях. Он сочетает в себе преимущества DAS, NAS и SAN с непревзойденной производительностью, отказоустойчивостью и стоимостью.
Давайте посмотрим на плюсы WekaFS.
Представление:
- Блокировать хранилище, например задержку
- Пропускная способность до 3 раз выше, чем у DAS
- Параллельный протокол насыщает сети 100Gb или 200Gb
- Огромная производительность одного клиента
- Четырехкратная совокупная плотность производительности по сравнению с устройствами NAS, использующими только флэш-накопители.
- Разбивает все файлы на фрагменты по 4 КБ, обеспечивая отличную производительность для маленьких и больших файлов.
- Распределенные метаданные и масштабируемые службы метаданных
Устойчивость:
- Потерять до 4 серверов хранения без потери данных
- Быстрая реконструкция в случае отказа диска
- Снимки с нулевым влиянием на производительность
- Упрощенное резервное копирование и аварийное восстановление
Общая стоимость собственности:
- Возможность использования стандартного оборудования
- Автоматическое многоуровневое переключение с флэш-памяти на вращающийся диск в общем пространстве имен.
- Простое резервное копирование без стороннего программного обеспечения для резервного копирования
- Простое аварийное восстановление без репликации данных
- Интеграция с общедоступным облаком для пакетных или гибридных развертываний.
Прямое сравнение производительности
Финансы — это конкурентный рынок. Компании не хотят разглашать технологии, которые дают им конкурентное преимущество. Так, Weka и ее партнеры, HPE и KX, привлекли STAC Benchmark Council (STAC). STAC — это группа ведущих финансовых фирм и поставщиков технологий. Он создает наборы эталонных тестов, которые представляют рабочие нагрузки финансовых приложений. Weka и ее партнеры решили запустить набор тестов STAC M3 Tick Data Analytics.
STAC M3 имеет два набора данных: Antuco и Kanaga. Antuco — это ограниченный набор данных, не нагружающий подсистему хранения. Kanaga — это масштабируемый набор данных, который делает это.
Производительность измеряется задержкой для каждого из 24 тестов Kanaga. Решение тестируется с увеличением параллелизма клиентов и наборов данных. Из 24 тестов Канаги WekaFS установила новые мировые рекорды в 12.
Сравнение результатов WekaFS с конкурентными решениями (также использующими KX) позволяет сделать следующие выводы:
- WekaFS преуспевает там, где параллелизм клиентов выше.
- Средняя задержка по всем 24 тестам WekaFS:
- В 3,9 раза быстрее, чем NAS на флэш-дисках
- В 4,5 раза быстрее, чем DAS (сервер Optane SSD)
- В 1,6 раза быстрее, чем SAN (NVMe-oF)
Выводы
WekaFS сочетает в себе преимущества DAS, NAS и SAN с невероятной производительностью для финансовой аналитики.
WekaFS использует обычное аппаратное обеспечение, чтобы обеспечить в 4 раза большую плотность производительности по сравнению с NAS на флеш-накопителях. Верно! При том же количестве флэш-памяти вы можете ожидать 4-кратного увеличения производительности.
— -
Если вы хотите узнать больше, вы можете посетить Weka здесь.
Зарегистрируйтесь здесь, если вы заинтересованы в том, чтобы получать мои блоги прямо на ваш почтовый ящик.
Первоначально опубликовано на https://www.derekburke.co.uk 5 сентября 2020 г.