Я думаю, что для любой программной системы понимание входных и выходных данных гораздо важнее, чем знание того, что происходит между ними, и интеллектуальный анализ данных не является исключением.

Ввод принимает форму концепций, экземпляров и атрибутов.

Итак, в этой статье я объясняю эти термины и рассказываю о подготовке данных.

Что такое концепция?

В приложениях для интеллектуального анализа данных используются четыре принципиально разных стиля обучения.

При классификационном обучении схема обучения представлена ​​набором классифицированных примеров, на основе которых ожидается изучение способа классификации невидимых примеров.

При ассоциативном обучении ищется любая связь между признаками, а не только те, которые предсказывают значение конкретного класса.

При кластеризации ищутся группы примеров, которые принадлежат друг другу. При числовом прогнозировании прогнозируемым результатом является не дискретный класс, а числовая величина.

Независимо от типа обучения, мы называем изучаемую вещь концепцией, а результат, полученный в результате схемы обучения, описанием концепции.

Что в примере?

Входными данными для схемы машинного обучения является набор экземпляров.

Эти экземпляры должны быть классифицированы, связаны или сгруппированы.

Хотя до сих пор мы называли их примерами, в дальнейшем мы будем использовать более конкретный термин экземпляры для обозначения входных данных.

Каждый случай представляет собой индивидуальный, независимый пример изучаемой концепции.

Что содержится в атрибуте?

Каждый отдельный независимый экземпляр, предоставляющий входные данные для машинного обучения, характеризуется своими значениями фиксированного, предопределенного набора функций или атрибутов.

Экземпляры — это строки таблиц.

Подготовка ввода

Подготовка исходных данных для расследования интеллектуального анализа данных обычно занимает большую часть усилий, затрачиваемых на весь процесс интеллектуального анализа данных.

Хотя эта статья на самом деле не о проблемах подготовки данных, я хочу дать вам представление о связанных с этим проблемах, чтобы вы могли оценить сложности.

Горький опыт показывает, что реальные данные зачастую имеют разочаровывающе низкое качество, и тщательная проверка — процесс, известный как очистка данных, многократно окупается.

Сбор данных вместе

Интеграция данных из разных источников обычно сопряжена со многими трудностями, не глубокими принципиальными вопросами, а неприятными реалиями практики.

Разные отделы будут использовать разные стили ведения записей, разные соглашения, разные периоды времени, разные степени агрегации данных, разные первичные ключи и будут иметь разные виды ошибок.

Данные должны быть собраны, интегрированы и очищены.

Идея интеграции баз данных в масштабах всей компании известна как хранилище данных.

Хранилища данных обеспечивают единую непротиворечивую точку доступа к корпоративным или организационным данным, выходящую за рамки отделов.

Это место, где старые данные публикуются таким образом, чтобы их можно было использовать для принятия бизнес-решений.

Отсутствующие значения

Большинство наборов данных, встречающихся на практике, содержат пропущенные значения.

Отсутствующие значения часто обозначаются записями вне диапазона, например, отрицательным числом (например, -1) в числовом поле, которое обычно является только положительным, или 0 в числовом поле, которое обычно никогда не может быть 0.

Для номинальных атрибутов отсутствующие значения могут быть указаны пробелами или тире.

Иногда различают разные типы отсутствующих значений (например, неизвестные, неучтенные и нерелевантные значения) и, возможно, представляют разные отрицательные целые числа (-1, -2 и т. д.).

Неточные значения

Данные устаревают. Многие предметы меняются по мере изменения обстоятельств.

Например, элементы в списках рассылки: имена, адреса, номера телефонов и т. д. Часто меняйте.

Вам нужно подумать, актуальны ли данные, которые вы собираете.

Вывод:

Очистка данных — это трудоемкая и трудоемкая процедура, но она абсолютно необходима для успешного интеллектуального анализа данных.

С большим набором данных люди часто сдаются.

Как они могут все это проверить?

Вместо этого вы должны попробовать несколько экземпляров и тщательно их изучить.

Вы будете удивлены тем, что найдете. Время, просматривающее ваши данные, всегда потрачено с пользой.