ДАННЫЕ ИСТОРИИ | ОЦЕНКА АВТОМОБИЛЯ | KNIME АНАЛИТИЧЕСКАЯ ПЛАТФОРМА

Контролируемое машинное обучение для оценки модели автомобиля с помощью KNIME

Создайте прогностическую модель с менее чем 10 узлами!

Как впервые опубликовано на Open Source For You

1. Аналитическая платформа KNIME

KNIME (Konstanz Information Miner) Analytics Platform — это мощная и наиболее полная бесплатная платформа для аналитики с помощью перетаскивания, машинного обучения, статистики и операций ETL (извлечение, преобразование и загрузка). Предварительная обработка данных, моделирование, анализ и визуализация доступны в KNIME. Рабочие процессы могут выполняться как через интерактивный интерфейс, так и в пакетном режиме. Эти две настройки позволяют легко управлять локальными заданиями и регулярно выполнять процессы. KNIME объединяет различные компоненты для машинного обучения и интеллектуального анализа данных посредством концепции модульной конвейерной обработки данных Lego of Analytics.

Эта статья направлена ​​на реализацию алгоритма дерева решений с контролируемым машинным обучением с использованием KNIME для набора данных оценки модели автомобиля. Для моделей автомобилей создано Дерево решений на основе технических характеристик, таких как критерии ценообразования (общая стоимость, стоимость обслуживания), комфорт, размер багажника, безопасность, вместимость и т.д. Tree Predictor» связаны с набором данных поезда для обучения и набором тестовых данных для прогнозирования и оценки модели соответственно. На этапе оценки узел Decision Tree Predictor подключается к узлу Scorer для создания показателей производительности и отчетов.

Дерево решений

Дерево решений — это популярный алгоритм машинного обучения, который часто используется в качестве инструмента поддержки принятия решений. Он использует древовидную модель решений и их возможных последствий, включая исходы событий, затраты ресурсов и полезность. Это один из способов построения модели, содержащей операторы условного управления. Деревья решений используются для эффективной обработки нелинейных наборов данных, и в реальной жизни они находят применение во многих областях, таких как проектирование, гражданское планирование, юриспруденция и бизнес.

2. Список узлов

Это список узлов KNIME, которые мы будем использовать в этой статье:

3. Разработка контролируемой модели машинного обучения для оценки автомобилей с использованием дерева решений

Вот шаги, необходимые для создания модели дерева решений для оценки автомобиля:

  • Создайте новый рабочий процессдля оценки модели автомобиля.
  • Перетащите файл .csv в KNIME, чтобы создать и инициализировать узел чтения CSV.
  • Подключите его к узлу Color Manager, где каждому типу автомобиля можно назначить определенный цвет в образцах или предустановку в палитрах.
  • Соедините узел Color Manager с узлом Partitioning. Этот узел используется для разделения данного набора данных на 2 раздела: один состоит из 80% данных (набор поездов), а другой состоит из оставшихся 20% данных (тестовый набор). Этот раздел делается путем выбора опции «Рисовать случайным образом».
  • Соедините узел Partitioning с узлом Decision Tree Learner. Настройте столбец класса, выберите желаемую меру качества и определите количество записей в соответствии с требуемым анализом.
  • Соедините узел «Дерево решений для обучения» с узлом «Предиктор дерева решений». Импортируйте модель Lean в узел Predictor дерева решений и примените ее к меньшему разделу данных (набору тестов), чтобы вывести прогнозы.
  • Наконец, отправьте выходные данные узлу Scorer, чтобы измерить производительность модели. Настройте и выполните все узлы на каждом этапе подключения, чтобы получить правильные результаты.
  • Для развертывания сохраните изученную модель с помощью узла PMML Writer.

4. Конфигурации узлов

4.1 Узел чтения CSV

Этот узел читает файлы CSV. Вы также можете использовать этот узел для чтения CSV-файлов, если рабочий процесс выполняется на сервере или в пакетном режиме, а также когда структура входного файла изменяется от одного выполнения к другому. Набор данных Car Model Evaluation загружается с помощью узла CSV Reader.

4.2 Узел диспетчера цветов

Цвета могут быть назначены либо номинальным (должны быть доступны возможные значения), либо числовым столбцам (с нижней и верхней границами). Если эти границы недоступны, в качестве минимального и максимального значения указывается «?». Затем значения вычисляются во время выполнения. Если выбран атрибут столбца, цвет можно изменить с помощью средства выбора цвета.

4.3 Узел разделения

Входная таблица разделена на два раздела (т. е. по строкам), например. обучающие и тестовые данные. В данном случае это 80% обучения и 20% тестирования.

4.4 Узел обучаемого дерева решений

Этот узел обучает алгоритм дерева решений для классификации в основной памяти. Целевой атрибут должен быть номинальным. Другие атрибуты, используемые для принятия решений, могут быть как номинальными, так и числовыми. Числовые разбиения всегда двоичные (два результата), делящие домен на два раздела в заданной точке разбиения. Здесь целевой переменной является «vhigh».

4.5 Узел предиктора дерева решений

Этот узел использует изученную модель дерева решений (переданную через порт модели) для прогнозирования значения класса для новых шаблонов.

4.6 Узел счетчика

Этот узел сравнивает два столбца по их парам атрибут-значение и показывает матрицу путаницы, т. е. сколько строк того или иного атрибута и их классификации совпадают. Кроме того, можно выделить ячейки этой матрицы, чтобы определить основные строки. Здесь достигается точность 95,6%.

5. Визуализация вывода

На рисунке 9 показаны выходные данные дерева решений оценки модели автомобиля, которые визуализируют изученное дерево решений. В зависимости от выбора дерево можно разворачивать и сворачивать с помощью знаков плюс/минус.

Вместе с критериями разделения отображается имя атрибута родительского узла, а также сообщается его числовое значение и номинальное заданное значение. Значение в круглых скобках (x из y) указывает, что для каждого атрибута x — это количество большинства классов, а y — общее количество примеров в этой ветви дерева.

Узел записи PMML (предиктивного языка разметки моделей) используется для совместного использования и развертывания моделей. PMML объединяет модели и использует узлы чтения и записи для импорта и экспорта моделей в другое программное обеспечение. На рис. 10 представлен отчет о визуализации оценки модели автомобиля.

6. Заключение

Реализация прошла успешно в KNIME Analytics Platform вместе со сборкой узлов и их разводкой.

Биография автора

Доктор. Р. Махесвариявляется заведующим кафедрой (CPS) Школы компьютерных наук и инженерии Центра интеллектуальных сетевых технологий Технологического института Веллора в Ченнаи. Она опубликовала семь патентов в своей исследовательской области и получила такие награды, как награда за выдающийся вклад FOSSEE от IIT Bombay & MHRD, Govt. Индии, награда за лучший преподавательский состав, награда за лучшую успеваемость, награда за лучший исследователь, награда за лучшую статью и награда за отличную работу, награда за лучший координатор клуба. У нее более 50 публикаций в различных международных рецензируемых журналах (IEEE, ACM и т. д.), книгах, главах книг, журнальных статьях и конференциях. Она создала свой собственный след благодаря своей работе в FOSSEE (бесплатное программное обеспечение с открытым исходным кодом для образования), таких как eSim, Scilab. Она выступала в качестве эксперта, члена группы, главного гостя, почетного гостя и выступала с пленарными докладами на различных семинарах, семинарах и конференциях в национальных и международных организациях. Ее преподавательский и исследовательский опыт охватывает широкий спектр предметных областей, включая аналитику данных, машинное обучение, технологию блокчейн, встроенные системы, архитектуру уровня процессора, высокопроизводительные вычисления, реконфигурируемые вычисления, IoT и т. д.