Краткая история и практическое введение

Интеллектуальный анализ данных — это то, что он говорит: интеллектуальный анализ данных. Хотя это часто связано с доступом к данным из баз данных, это всего лишь один шаг. Интеллектуальный анализ данных в конечном счете направлен на извлечение неочевидных закономерностей из потенциально ценных данных. Другими словами, интеллектуальный анализ данных извлекает информацию из данных. Объем генерируемых и записываемых данных резко возрос за последние десятилетия. Снижение стоимости цифрового хранения и передачи позволяет собирать все больше и больше данных в различных формах, таких как изображения, видео и текст. Однако количество полезной информации может быть намного меньше. Поиск информации в данных можно рассматривать как поиск алмазов в море углерода. Как можно оценить ценность данных? Одним из способов является использование теории информации.

Что такое информация? Это то, чего вы еще не знаете. Если часть данных не раскрывает ничего нового или является достоверной, она не содержит информации [1]. Эта мера информации была сделана Клодом Шенноном в 1948 году в его статье «Математическая теория коммуникации». Для измерения информации данные рассматриваются как часть большего набора, а не универсальный набор всего. Например, английские буквы составляют часть набора из 26 символов (с учетом только нижнего регистра). Некоторые символы, например буква «е», встречаются чаще, чем другие. Эта вероятность появления указывает, сколько информации содержит символ или часть данных. Если символ встречался всегда, он имеет вероятность 1 и содержит 0 информации. Это может показаться немного нелогичным, но после некоторого размышления имеет смысл. Если вы читаете статью и знаете, какая буква будет следующей, вы не получаете новой информации. Существует обратная связь между вероятностью и количеством информации или неопределенностью, как показано на рисунке 1. Чем ниже вероятность элемента данных, тем больше количество информации, которая имеет единицы битов.

На рис. 2 представлена ​​информативность первых пяти букв а, б, в, г, д. Буква «е», будучи наиболее распространенной, несет наименьшее количество информации. Средняя информация всех букв дает энтропию алфавита, которая оценивается примерно в 1,8 бита на букву [2].

Энтропия является мерой информации Шеннона и обозначается буквой H. Энтропия дает среднее количество информации в наборе из N элементов данных. Элемент n имеет вероятность появления pn.

Бит также используется для обозначения двоичной цифры, 1 или 0. Однако биты в этом контексте относятся к количеству информации, в частности, это связано с количеством вопросов «да/нет», необходимых для определения того, какой элемент данных произошел. Одна двоичная цифра может нести один бит информации или меньше. Размер элемента данных, такого как файл или изображение, лишь приблизительно дает количество содержащейся в нем информации.

Тогда интеллектуальный анализ данных можно рассматривать как извлечение битов информации. Например, в прогнозировании цель состоит в том, чтобы классифицировать элемент данных по категории или предсказать непрерывное значение, используя функции элемента. Если Y — это класс предмета, а X — характеристика предмета, прирост информации, H(Y|X), показывает, сколько битов информации X дает об Y. Он равен исходной энтропии H(Y) за вычетом взаимная информация между X и Y. Взаимная информация I (Y, X) является прямым обобщением формулы энтропии для двух переменных.

Простая задача представляет собой задачу решить играть в гольф в определенный день, более подробно описанную в ссылке [3]. На рисунке 3 показано, что этот набор данных имеет 1 целевую переменную, для воспроизведения да или нет, и 4 функции или предикторы. Это тренировочный набор, в котором цель известна. Задача состоит в том, чтобы использовать этот набор для создания модели, которая предсказывает, если заданы только 4 функции, играть в гольф или нет. Если вы не являетесь поклонником гольфа, возможно, ваш супруг (супруга) им является. Дерево решений — это простая интуитивная модель, которая может дать такой прогноз. Как показано, дерево организует функции, чтобы решить, да или нет. Использование прироста информации дает полезный способ обучения дерева. Учебный процесс обычно протекает следующим образом.

1. Рассчитайте начальную целевую энтропию H(Play Golf) = 0,94 бит.

2. В качестве первого решающего фактора выберите предиктор, дающий наибольший информационный прирост.

а. Outlook: дает 0,247 бит информации, и выбрана функция «Outlook».

б. Температура: дает 0,029 бит

в. Влажность: дает 0,152 бита

д. Windy: дает 0,048 бит

3. Рассмотрим только оставшиеся предикторы и повторим шаг 2 для каждого из значений выбранного предиктора.

Хотя это простой пример, он хорошо показывает общий процесс использования теории информации в классификации. Информация в битах извлекается из функций для определения результата. Сколько стоит бит? Данные, хранящиеся в памяти и передаваемые в долларах, имеют определенную стоимость в долларах. Также было подсчитано, что стирание 1 бита информации требует минимального количества энергии порядка kTlog2, где T — температура, а k — постоянная Больцмана [ 2]. Значение зависит от контекста.

Таким образом, интеллектуальный анализ данных пытается извлечь из данных интересные, потенциально полезные закономерности. Он не сильно отличается от других областей, таких как машинное обучение или наука о данных [4]. Один из способов количественной оценки ценности извлеченных паттернов — использование меры информации Шеннона. Хотя исходные данные могут содержать гораздо меньше информации для некоторых приложений, их следует по возможности сохранить. Общее ожидание состоит в том, что сбор всех этих данных может генерировать известные знания и использоваться для целей, которые ранее не предполагались.

Ссылки

[1] Гершенфельд «Физика информационных технологий», Cambridge University Press, 2000.

[2] Стоун «Теория информации. Введение в учебник», Sebtel Press 2015.

[3] http://saedsayad.com/decision_tree.htm

[4] Заки и Мейра «Интеллектуальный анализ и анализ данных. Фундаментальные концепции и алгоритмы», издательство Кембриджского университета, 2014 г.