Прогнозирование временных рядов фондового рынка Китая с использованием Weka-Part 2. Методология

Хао, Чжэн

ДжиПэн, Лю

Наннан, Лу

2. Методология

2.1 Блок-схема системы

Структура исследования интеллектуального анализа данных показана на рисунке 8, и наш эксперимент основан на этой инфраструктуре, рекомендованной нашим лектором. Эта структура разделена на три части.

Часть A. Исследование началось со сбора данных, после чего последовала их предварительная обработка. После очистки данных, интеграции данных, преобразования и сокращения данных необработанные данные преобразуются в формат CSV. Эти процедуры завершаются в задании 1, что означает, что набор данных всех членов группы готов к непосредственному использованию в интеллектуальном анализе данных.

Часть B. Это самый важный этап, который мы исследовали в этом эксперименте. Подробную структуру моделирования интеллектуального анализа данных см. на рис. 9. Подробное описание рисунка 9 см. в главе 3.

Часть C. Для каждого целевого индекса в главах 3.6.3, 3.7.3, 3.8.3 будет представлена диаграмма, а в главе 4 — общая визуализация.

2.2 Введение в модель блок-схемы

1) Извлечение данных

Извлечение данных обычно представляет собой процесс или действие по получению данных из различных источников для использования в будущем (хранение или обработка). После импорта в промежуточную систему запускается процесс преобразования данных; или в некоторых случаях за этим следует добавление метаданных перед экспортом на другой этап рабочего процесса данных.

2) Предварительная обработка данных

Предварительная обработка данных является одним из наиболее важных этапов в процессе интеллектуального анализа данных. В процессе сбора данных обычно методы контролируются очень слабо, что приводит к получению значений вне диапазона, неправильных комбинаций данных или отсутствующих данных. Если использовать данные, которые не были строго проверены, получится некоторый вводящий в заблуждение результат. В результате перед выполнением анализа, во-первых, мы должны обеспечить репрезентативность и качество данных. [16]

3) Данные чистые

Очистка данных — это процесс обработки шумовой даты. Неверные или неточные данные будут обнаружены и исправлены из таблицы/записи/базы данных; это также процесс выявления неправильных, неполных, нерелевантных или неточных частей набора данных и, таким образом, замены, изменения или удаления шумовых данных.

4) Интеграция данных

Интеграция данных — это процесс объединения данных из разных источников и, таким образом, предоставление людям единого представления о данных. [17] Этот процесс становится все более и более заметным в значительных условиях, включая научную и коммерческую сферы. Между тем, из-за резкого увеличения объема данных и потребности в совместном использовании существующих данных интеграция данных становится все более популярной. [18]

5) Преобразование данных

Преобразование данных — это процесс применения детерминированной математической функции к каждой точке множества данных. Обработка преобразования обычно используется, потому что при ее использовании значение данных будет более близко к предположениям определенной процедуры статистического вывода; или иногда может улучшить внешний вид и интерпретируемость графиков.

6) Сокращение данных

Обработка данных — это процесс преобразования буквенных или числовых данных или цифровой информации в упорядоченный, правильный и упрощенный формат. Основная цель состоит в том, чтобы уменьшить огромное количество данных и преобразовать их в значимые части.

7) Модуль интеллектуального анализа данных и прогнозирование

Теории и примеры будут представлены в главе 3.

8) Модель визуализации

Модель визуализации используется для того, чтобы пользователь терминала знал, что происходит с системой интеллектуального анализа данных. Смысл интеллектуального анализа данных заключается в том, чтобы найти даже скрытую информацию из различных исходных данных; в результате этого сложно понять процесс обработки данных. Хотя уже существуют различные методы графического представления модели, визуализация используется для выбора наилучшего способа максимизации ценности для зрителя. Если наблюдатель с терминала является экспертом в реальном бизнесе, но не обладает знаниями в области моделирования данных, мы должны перевести модель в более реалистичное для него представление.

2.3 Трудности и решения

1) Данные чистые

Фондовый рынок имеет огромное количество данных, и количество соответствующих факторов, которые могут повлиять на цену акций, также велико. Поэтому интегрировать все эти данные — серьезная проблема. Например, разные атрибуты имеют разный временной диапазон; между тем, есть много шумовых данных.

Решение. Мы использовали Python для объединения всех данных в соответствии с желаемым шаблоном и кластеризации их по определенному временному диапазону.

2) Преобразование данных

Факторы, влияющие на фондовый рынок, находятся в неопределенности. Некоторые социальные факторы, такие как политика, стихийные бедствия, войны, должны играть важную роль на фондовом рынке. Проблема в том, что мы не уверены, в какой степени и как долго этот фактор будет влиять на фондовый рынок.

Решение: мы устанавливаем для каждого типа социального фактора значение «int» и делаем положительный фактор положительным значением, а отрицательный фактор — отрицательным значением. Затем мы записали событие как значение дня, когда оно произошло. Это не идеальное решение, но мы хотим отметить этот день и проверим в ходе эксперимента, эффективно ли это влияет или нет.

3) Сокращение данных

Чтобы удовлетворить потребности бизнеса, мы извлекли множество атрибутов, необходимых для анализа доходности акций. Но некоторые атрибуты имеют ограниченное влияние на анализ рынка. Например, значение ИПЦ для людей, живущих в сельской местности, по историческим причинам мало влияет на фондовый рынок Китая.

Решение: Мы рассматриваем значения, исключая эти данные.

Прогнозирование временных рядов фондового рынка Китая с использованием Weka-Part 2. Методология

Оглавление

2. Методология

2.1 Блок-схема системы

2.2 Введение в модель блок-схемы

Вопросы по теме