Поток данных быстр и изменчив по своей природе, не может храниться из-за бесконечного размера. Алгоритм требовал получения непрерывных изменений. Методами интеллектуального анализа данных для потоковой передачи данных являются кластеризация, классификация, а также частый анализ шаблонов.

Проблемы для хорошего алгоритма кластеризации из-за характера потока данных, бесконечного размера и высокой скорости, динамической природы, склонной к кластеризации с частичной моделью, должны быть обновлены. Озеро глобального значения, выбросы ведут себя как обычные объекты из-за изменяющейся природы, многомерных данных и настройки параметров требуют знания предметной области. Будущие, требующие для алгоритма кластеризации инкрементного характера, данных одиночного сканирования из-за динамического характера потока данных, низкой временной и пространственной сложности, модели кластеризации в любое время из-за бесконечности потока данных невозможно получить результат в конце процесса, Надежность для выброс. Это поток, CluStream, rDenstream, поток DD.

Мы также можем использовать существующий традиционный алгоритм интеллектуального анализа данных с концепцией скользящего окна, который помогает нам двунаправленную поддержку с MOA и WEKA.

Алгоритмы обучения пару данных сложно разрабатывать из-за необходимости большого набора данных/бесконечной емкости для обработки любой структуры, что является сложной задачей. Например, классификация потоков данных и алгоритмы кластеризации. При традиционном подходе к интеллектуальному анализу данных обратитесь к WEKA за внедрением нового алгоритма, визуализацией результатов и мерой оценки. Для потока данных недавно была представлена ​​структура для оценки потокового обучения под названием Massive Online Analysis (MOA), основанная на работе WEKA. Massive Online Analysis (MOA) — это программная среда для реализации алгоритмов и проведения экспериментов для онлайн-обучения на основе меняющихся потоков данных. Он содержит набор автономных и онлайн-алгоритмов как для классификации, так и для кластеризации, а также инструменты для оценки. Исследователи получают выгоду от MOA, получая представление о работе и проблемах различных подходов, практики могут легко сравнивать несколько алгоритмов и применять их к наборам данных и настройкам реального мира. MOA также поддерживает двунаправленное взаимодействие с WEKA.

Просто перейдите по ссылкам на видео, как указано ниже, вы можете установить MOA и дополнительные возможности weka, добавленные во вторую ссылку на видео.

  1. Интеллектуальный анализ данных — массовый онлайн-анализ — настройка MOA
  2. Сравните MOA с обширным онлайн-руководством по анализу weka (Data Mining)

Характеристики

MOA — это платформа с открытым исходным кодом для работы с огромными, потенциально бесконечными, развивающимися потоками данных. Требования к среде потока данных отличаются от традиционных настроек пакетного обучения.

  • Обрабатывайте пример за раз и проверяйте его только один раз (максимум).
  • Используйте ограниченный объем памяти.
  • Работа в ограниченное время.
  • Будьте готовы предсказать в любой момент

Функции

  • MOA имеет алгоритмы кластеризации, алгоритмы классификации, генераторы данных, а также предоставляет методы оценки. В этом разделе подробно представлена ​​каждая часть.
  • Генераторы данных для развивающихся потоков данных (включая такие события, как новизна, слияние и т. д.)
  • Расширяемый набор алгоритмов кластеризации потоков.
  • Меры оценки кластеризации потоков.
  • Инструменты визуализации для анализа результатов и сравнения различных настроек.

посмотреть видео для более подробной информации