1) Хадуп:
Программная библиотека Apache Hadoop — это платформа для работы с большими данными. Это позволяет распределенную обработку огромных наборов данных по группам ПК. Он предназначен для масштабирования от отдельных рабочих до огромного количества машин.
Возможности:
- Улучшения аутентификации при использовании прокси-сервера HTTP
- Спецификация работы файловой системы, совместимой с Hadoop
- Поддержка расширенных атрибутов файловой системы в стиле POSIX.
- Он предлагает надежную экосистему, которая хорошо подходит для удовлетворения аналитических потребностей разработчиков.
- Это обеспечивает гибкость в обработке данных
- Это позволяет ускорить обработку данных
Ссылка для скачивания: https://hadoop.apache.org/releases.html
2) КВД:
HPCC — это инструмент для работы с большими данными, разработанный LexisNexis Risk Solution. Он обеспечивает единую платформу, единую архитектуру и единый язык программирования для обработки данных.
Возможности:
- Высокоэффективно выполнять задачи с большими данными с гораздо меньшим количеством кода.
- Предлагает высокую избыточность и доступность
- Его можно использовать как для комплексной обработки данных на кластере Thor
- Графическая IDE для упрощения разработки, тестирования и отладки
- Он автоматически оптимизирует код для параллельной обработки
- Обеспечьте повышенную масштабируемость и производительность
- Код ECL компилируется в оптимизированный C++, а также может расширяться с помощью библиотек C++.
3) Шторм:
Storm — это бесплатная платформа для расчета больших данных с открытым исходным кодом. Он предлагает распределенную непрерывную, открытую структуру подготовки ошибок. С непрерывными вычислительными мощностями.
Возможности:
- Он оценивался как обработка одного миллиона 100-байтовых сообщений в секунду на узел.
- Он использует параллельные вычисления, которые выполняются на кластере машин.
- Он автоматически перезапустится в случае смерти узла. Рабочий будет перезапущен на другом узле
- Storm гарантирует, что каждая единица данных будет обработана хотя бы один раз или ровно один раз.
- После развертывания Storm, безусловно, становится самым простым инструментом для анализа больших данных.
Ссылка для скачивания: http://storm.apache.org/downloads.html
4) Куболе:
Data — это автономная платформа для управления большими данными. Это самоуправляемый, самооптимизирующийся инструмент, который позволяет группе обработки данных сосредоточиться на бизнес-результатах.
Возможности:
- Единая платформа для каждого варианта использования
- Движки с открытым исходным кодом, оптимизированные для облака
- Комплексная безопасность, управление и соответствие
- Предоставляет действенные оповещения, информацию и рекомендации для оптимизации надежности, производительности и затрат.
- Автоматически применяет политики, чтобы избежать повторяющихся ручных действий.
5) Кассандра:
База данных Apache Cassandra сегодня широко используется для обеспечения эффективного управления большими объемами данных.
Возможности:
- Поддержка репликации между несколькими центрами обработки данных за счет снижения задержки для пользователей.
- Данные автоматически реплицируются на несколько узлов для обеспечения отказоустойчивости.
- Это наиболее подходит для приложений, которые не могут позволить себе потерять данные, даже если весь центр обработки данных не работает.
- Cassandra предлагает контракты на поддержку, а услуги доступны от третьих лиц.
6) Статус:
Statwing — это простой в использовании фактический инструмент. Он был разработан исследователями больших данных и для них. Его передовой интерфейс естественным образом выбирает поддающиеся измерению тесты.
Возможности:
- Исследуйте любые данные за считанные секунды
- Statwing помогает очищать данные, исследовать взаимосвязи и создавать диаграммы за считанные минуты.
- Он позволяет создавать гистограммы, диаграммы рассеяния, тепловые карты и гистограммы, которые экспортируются в Excel или PowerPoint.
- Он также переводит результаты на простой английский язык, поэтому аналитики, незнакомые со статистическим анализом,
7) Диванная база данных:
CouchDB хранит данные в записях JSON, которые можно получить в Интернете или задать вопрос с помощью JavaScript. Он предлагает распределенное масштабирование с непредусмотренным накоплением дефицита. Это позволяет получить данные, характеризуя Couch Replication Protocol.
Возможности:
- CouchDB — это база данных с одним узлом, которая работает как любая другая база данных.
- Это позволяет запускать один логический сервер базы данных на любом количестве серверов.
- Он использует вездесущий протокол HTTP и формат данных JSON.
- Простая репликация базы данных между несколькими экземплярами сервера.
- Удобный интерфейс для вставки, обновления, поиска и удаления документов
- Формат документа на основе JSON может быть переведен на разные языки.
8) Пентахо:
Pentaho предоставляет устройства для работы с большими данными для извлечения, подготовки и смешивания данных. Он предлагает представления и исследования, которые меняют наилучший подход к ведению любого бизнеса. Это устройство для работы с большими данными позволяет преобразовывать большие данные в большие объемы знаний.
Возможности:
- Доступ к данным и интеграция для эффективной визуализации данных
- Это позволяет пользователям создавать большие данные в источнике и передавать их для точной аналитики.
- Плавно переключайтесь или комбинируйте обработку данных с выполнением в кластере, чтобы получить максимальную производительность
- Разрешить проверку данных с помощью простого доступа к аналитике, включая диаграммы, визуализации и отчеты.
- Поддерживает широкий спектр источников больших данных, предлагая уникальные возможности
9) Флинк:
Apache Flink — это инструмент для потоковой обработки больших данных с открытым исходным кодом. Это распространенные, высокопроизводительные, постоянно доступные и точные приложения для потоковой передачи данных.
Возможности:
- Предоставляет точные результаты даже для неупорядоченных или запоздавших данных
- Он сохраняет состояние и отказоустойчив и может восстанавливаться после сбоев.
- Он может работать в больших масштабах, работая на тысячах узлов.
- Имеет хорошие характеристики пропускной способности и задержки
- Этот инструмент для обработки больших данных поддерживает потоковую обработку и работу с окнами с семантикой времени события.
- Он поддерживает гибкое управление окнами на основе времени, количества или сеансов для окон, управляемых данными.
- Он поддерживает широкий спектр соединителей для сторонних систем для источников данных и приемников.
10) Клаудера:
Cloudera — это самый быстрый, простой и исключительно безопасный современный этап работы с большими данными. Это позволяет любому получить любые данные о любых условиях в рамках одной универсальной платформы.
Особенности:
Элитная экспертиза
Предлагает организацию мультиоблачных
Отправлять и контролировать Cloudera Enterprise в AWS, Microsoft Azure и Google Cloud Platform.
Включайте и заканчивайте группы и, возможно, платите за то, что требуется, когда это необходимо.
Создание и подготовка моделей данных
Объявление, расследование и самостоятельная проверка бизнес-аналитики
Передача непрерывных битов знаний для проверки и идентификации
Управление точным подсчетом очков и подачей моделей
11) Openrefine:
Open Refine — это удивительный инструмент для работы с большими данными. Он помогает работать с хаотичными данными, очищать их и менять из одной конфигурации в другую. Это также позволяет расширить его веб-администрированием и внешними данными.
Особенности:
Устройство OpenRefine поможет вам легко исследовать огромные наборы данных
Его очень хорошо можно использовать для подключения и расширения вашего набора данных с помощью различных веб-сервисов.
Импорт данных в различных конфигурациях
Исследуйте наборы данных очень быстро
Применение существенных и ускоренных изменений в ячейках
Разрешает управлять ячейками, которые содержат различные качества
Устанавливайте быстрые связи между наборами данных
Используйте извлечение именованных веществ в текстовых полях, чтобы последовательно различать предметы
Выполнение действий с управляемыми данными с помощью Refine Expression Language
12) Рапидмайнер:
RapidMiner — это инструмент для работы с большими данными с открытым исходным кодом. Он используется для подготовки данных, искусственного интеллекта и организации моделей. Он предлагает набор элементов для создания новых процедур интеллектуального анализа данных и организации предпросмотра.
Особенности:
Разрешить различные данные методы руководителей
Графический интерфейс или групповая обработка
Интегрируется с внутренними базами данных
Интеллектуальные общие информационные панели
Предвидение больших данных
Ведение дистанционного обследования
Разделение, объединение, соединение и объединение данных
Производство, подготовка и утверждение перспективных моделей
Храните потоковые данные в различных базах данных
Отчеты и уведомления о зачете
13) Очиститель данных:
DataCleaner — это приложение для исследования качества данных и этап ответа. Он имеет надежный двигатель профилирования данных. Он расширяемый и включает в себя очистку данных, изменения, координацию и смешивание.
Выделять:
Интуитивное и исследовательское профилирование данных
Пушистое место записи копии
Изменение данных и нормализация
Утверждение и раскрытие данных
Использование справочных данных для очистки данных
Освойте конвейер приема данных в озере данных Hadoop
Гарантируйте, что правила в отношении данных верны, прежде чем клиент вложит свою энергию в подготовку
Откройте для себя аномалии и другие закулисные тонкости, чтобы либо заблокировать, либо исправить неправильные данные.
14) Каггле:
Kaggle — крупнейшая в мире сеть больших данных. Это заставляет ассоциации и ученых публиковать свои данные и идеи. Это лучшее место для безупречного исследования данных.
Особенности:
Лучшее место для поиска и последовательного анализа открытых данных
Поле поиска для обнаружения открытых наборов данных
Присоединяйтесь к разработке открытых данных и присоединяйтесь к другим любителям данных
15) Улей:
Hive также представляет собой программное обеспечение для работы с большими данными с открытым исходным кодом. Это позволяет разработчикам программного обеспечения разбивать огромные наборы данных в Hadoop. Это помогает быстро задавать вопросы и контролировать огромные наборы данных.
Особенности:
Он поддерживает SQL, как язык вопросов для ассоциации и отображения данных.
Он объединяет язык с двумя основными направлениями деятельности и редуктором.
Это позволяет характеризовать эти задания с помощью Java или Python.
Улей, предназначенный для наблюдения и опроса только что организованных данных.
Язык Hive, основанный на SQL, изолирует клиента от многогранной природы программирования Map Reduce.
Он предлагает интерфейс Java Database Connectivity (JDBC).
Источник: https://bigdata-world.net/