1) Хадуп:

Программная библиотека Apache Hadoop — это платформа для работы с большими данными. Это позволяет распределенную обработку огромных наборов данных по группам ПК. Он предназначен для масштабирования от отдельных рабочих до огромного количества машин.

Возможности:

  • Улучшения аутентификации при использовании прокси-сервера HTTP
  • Спецификация работы файловой системы, совместимой с Hadoop
  • Поддержка расширенных атрибутов файловой системы в стиле POSIX.
  • Он предлагает надежную экосистему, которая хорошо подходит для удовлетворения аналитических потребностей разработчиков.
  • Это обеспечивает гибкость в обработке данных
  • Это позволяет ускорить обработку данных

Ссылка для скачивания: https://hadoop.apache.org/releases.html

2) КВД:

HPCC — это инструмент для работы с большими данными, разработанный LexisNexis Risk Solution. Он обеспечивает единую платформу, единую архитектуру и единый язык программирования для обработки данных.

Возможности:

  • Высокоэффективно выполнять задачи с большими данными с гораздо меньшим количеством кода.
  • Предлагает высокую избыточность и доступность
  • Его можно использовать как для комплексной обработки данных на кластере Thor
  • Графическая IDE для упрощения разработки, тестирования и отладки
  • Он автоматически оптимизирует код для параллельной обработки
  • Обеспечьте повышенную масштабируемость и производительность
  • Код ECL компилируется в оптимизированный C++, а также может расширяться с помощью библиотек C++.

3) Шторм:

Storm — это бесплатная платформа для расчета больших данных с открытым исходным кодом. Он предлагает распределенную непрерывную, открытую структуру подготовки ошибок. С непрерывными вычислительными мощностями.

Возможности:

  • Он оценивался как обработка одного миллиона 100-байтовых сообщений в секунду на узел.
  • Он использует параллельные вычисления, которые выполняются на кластере машин.
  • Он автоматически перезапустится в случае смерти узла. Рабочий будет перезапущен на другом узле
  • Storm гарантирует, что каждая единица данных будет обработана хотя бы один раз или ровно один раз.
  • После развертывания Storm, безусловно, становится самым простым инструментом для анализа больших данных.

Ссылка для скачивания: http://storm.apache.org/downloads.html

4) Куболе:

Data — это автономная платформа для управления большими данными. Это самоуправляемый, самооптимизирующийся инструмент, который позволяет группе обработки данных сосредоточиться на бизнес-результатах.

Возможности:

  • Единая платформа для каждого варианта использования
  • Движки с открытым исходным кодом, оптимизированные для облака
  • Комплексная безопасность, управление и соответствие
  • Предоставляет действенные оповещения, информацию и рекомендации для оптимизации надежности, производительности и затрат.
  • Автоматически применяет политики, чтобы избежать повторяющихся ручных действий.

5) Кассандра:

База данных Apache Cassandra сегодня широко используется для обеспечения эффективного управления большими объемами данных.

Возможности:

  • Поддержка репликации между несколькими центрами обработки данных за счет снижения задержки для пользователей.
  • Данные автоматически реплицируются на несколько узлов для обеспечения отказоустойчивости.
  • Это наиболее подходит для приложений, которые не могут позволить себе потерять данные, даже если весь центр обработки данных не работает.
  • Cassandra предлагает контракты на поддержку, а услуги доступны от третьих лиц.

6) Статус:

Statwing — это простой в использовании фактический инструмент. Он был разработан исследователями больших данных и для них. Его передовой интерфейс естественным образом выбирает поддающиеся измерению тесты.

Возможности:

  • Исследуйте любые данные за считанные секунды
  • Statwing помогает очищать данные, исследовать взаимосвязи и создавать диаграммы за считанные минуты.
  • Он позволяет создавать гистограммы, диаграммы рассеяния, тепловые карты и гистограммы, которые экспортируются в Excel или PowerPoint.
  • Он также переводит результаты на простой английский язык, поэтому аналитики, незнакомые со статистическим анализом,

7) Диванная база данных:

CouchDB хранит данные в записях JSON, которые можно получить в Интернете или задать вопрос с помощью JavaScript. Он предлагает распределенное масштабирование с непредусмотренным накоплением дефицита. Это позволяет получить данные, характеризуя Couch Replication Protocol.

Возможности:

  • CouchDB — это база данных с одним узлом, которая работает как любая другая база данных.
  • Это позволяет запускать один логический сервер базы данных на любом количестве серверов.
  • Он использует вездесущий протокол HTTP и формат данных JSON.
  • Простая репликация базы данных между несколькими экземплярами сервера.
  • Удобный интерфейс для вставки, обновления, поиска и удаления документов
  • Формат документа на основе JSON может быть переведен на разные языки.

8) Пентахо:

Pentaho предоставляет устройства для работы с большими данными для извлечения, подготовки и смешивания данных. Он предлагает представления и исследования, которые меняют наилучший подход к ведению любого бизнеса. Это устройство для работы с большими данными позволяет преобразовывать большие данные в большие объемы знаний.

Возможности:

  • Доступ к данным и интеграция для эффективной визуализации данных
  • Это позволяет пользователям создавать большие данные в источнике и передавать их для точной аналитики.
  • Плавно переключайтесь или комбинируйте обработку данных с выполнением в кластере, чтобы получить максимальную производительность
  • Разрешить проверку данных с помощью простого доступа к аналитике, включая диаграммы, визуализации и отчеты.
  • Поддерживает широкий спектр источников больших данных, предлагая уникальные возможности

9) Флинк:

Apache Flink — это инструмент для потоковой обработки больших данных с открытым исходным кодом. Это распространенные, высокопроизводительные, постоянно доступные и точные приложения для потоковой передачи данных.

Возможности:

  • Предоставляет точные результаты даже для неупорядоченных или запоздавших данных
  • Он сохраняет состояние и отказоустойчив и может восстанавливаться после сбоев.
  • Он может работать в больших масштабах, работая на тысячах узлов.
  • Имеет хорошие характеристики пропускной способности и задержки
  • Этот инструмент для обработки больших данных поддерживает потоковую обработку и работу с окнами с семантикой времени события.
  • Он поддерживает гибкое управление окнами на основе времени, количества или сеансов для окон, управляемых данными.
  • Он поддерживает широкий спектр соединителей для сторонних систем для источников данных и приемников.

10) Клаудера:

Cloudera — это самый быстрый, простой и исключительно безопасный современный этап работы с большими данными. Это позволяет любому получить любые данные о любых условиях в рамках одной универсальной платформы.

Особенности:

Элитная экспертиза

Предлагает организацию мультиоблачных

Отправлять и контролировать Cloudera Enterprise в AWS, Microsoft Azure и Google Cloud Platform.

Включайте и заканчивайте группы и, возможно, платите за то, что требуется, когда это необходимо.

Создание и подготовка моделей данных

Объявление, расследование и самостоятельная проверка бизнес-аналитики

Передача непрерывных битов знаний для проверки и идентификации

Управление точным подсчетом очков и подачей моделей

11) Openrefine:

Open Refine — это удивительный инструмент для работы с большими данными. Он помогает работать с хаотичными данными, очищать их и менять из одной конфигурации в другую. Это также позволяет расширить его веб-администрированием и внешними данными.

Особенности:

Устройство OpenRefine поможет вам легко исследовать огромные наборы данных

Его очень хорошо можно использовать для подключения и расширения вашего набора данных с помощью различных веб-сервисов.

Импорт данных в различных конфигурациях

Исследуйте наборы данных очень быстро

Применение существенных и ускоренных изменений в ячейках

Разрешает управлять ячейками, которые содержат различные качества

Устанавливайте быстрые связи между наборами данных

Используйте извлечение именованных веществ в текстовых полях, чтобы последовательно различать предметы

Выполнение действий с управляемыми данными с помощью Refine Expression Language

12) Рапидмайнер:

RapidMiner — это инструмент для работы с большими данными с открытым исходным кодом. Он используется для подготовки данных, искусственного интеллекта и организации моделей. Он предлагает набор элементов для создания новых процедур интеллектуального анализа данных и организации предпросмотра.

Особенности:

Разрешить различные данные методы руководителей

Графический интерфейс или групповая обработка

Интегрируется с внутренними базами данных

Интеллектуальные общие информационные панели

Предвидение больших данных

Ведение дистанционного обследования

Разделение, объединение, соединение и объединение данных

Производство, подготовка и утверждение перспективных моделей

Храните потоковые данные в различных базах данных

Отчеты и уведомления о зачете

13) Очиститель данных:

DataCleaner — это приложение для исследования качества данных и этап ответа. Он имеет надежный двигатель профилирования данных. Он расширяемый и включает в себя очистку данных, изменения, координацию и смешивание.

Выделять:

Интуитивное и исследовательское профилирование данных

Пушистое место записи копии

Изменение данных и нормализация

Утверждение и раскрытие данных

Использование справочных данных для очистки данных

Освойте конвейер приема данных в озере данных Hadoop

Гарантируйте, что правила в отношении данных верны, прежде чем клиент вложит свою энергию в подготовку

Откройте для себя аномалии и другие закулисные тонкости, чтобы либо заблокировать, либо исправить неправильные данные.

14) Каггле:

Kaggle — крупнейшая в мире сеть больших данных. Это заставляет ассоциации и ученых публиковать свои данные и идеи. Это лучшее место для безупречного исследования данных.

Особенности:

Лучшее место для поиска и последовательного анализа открытых данных

Поле поиска для обнаружения открытых наборов данных

Присоединяйтесь к разработке открытых данных и присоединяйтесь к другим любителям данных

15) Улей:

Hive также представляет собой программное обеспечение для работы с большими данными с открытым исходным кодом. Это позволяет разработчикам программного обеспечения разбивать огромные наборы данных в Hadoop. Это помогает быстро задавать вопросы и контролировать огромные наборы данных.

Особенности:

Он поддерживает SQL, как язык вопросов для ассоциации и отображения данных.

Он объединяет язык с двумя основными направлениями деятельности и редуктором.

Это позволяет характеризовать эти задания с помощью Java или Python.

Улей, предназначенный для наблюдения и опроса только что организованных данных.

Язык Hive, основанный на SQL, изолирует клиента от многогранной природы программирования Map Reduce.

Он предлагает интерфейс Java Database Connectivity (JDBC).

Источник: https://bigdata-world.net/