Что такое RapidMiner?

RapidMiner — это мощная и удобная платформа для анализа данных, которая позволяет пользователям выполнять широкий спектр задач по анализу данных, включая предварительную обработку данных, исследование, моделирование и развертывание. Он предоставляет интуитивно понятный графический пользовательский интерфейс (GUI), который позволяет пользователям легко создавать, тестировать и развертывать модели машинного обучения без необходимости написания кода.

С RapidMiner пользователи могут получить доступ к целому ряду мощных инструментов анализа данных, включая визуализацию данных, прогнозное моделирование и анализ текста. Он поддерживает широкий спектр источников данных, включая базы данных, электронные таблицы Excel и облачные службы данных, и может быть интегрирован с популярными инструментами обработки данных, такими как Python и R.

RapidMiner широко используется в различных отраслях, включая финансы, здравоохранение, розничную торговлю и производство. Он предлагает как бесплатную, так и платную версию, а платная версия предоставляет дополнительные функции и возможности, такие как расширенная аналитика и инструменты для совместной работы.

RapidMiner был предоставлен мне Колледжем Майами Дейд во время посещения курса интеллектуального анализа данных в их программе бакалавриата по аналитике данных.

Для получения дополнительной информации о RapidMiner вы можете посетить их веб-сайт по адресу: https://rapidminer.com/

Используемый набор данных

Наш набор данных предоставлен репозиторием машинного обучения UCI. Набор данных предназначен для сбора информации о производительности труда сотрудников, занимающихся производством одежды. Он содержит несколько столбцов параметров (всего четырнадцать) с различными типами данных. Последний столбец представляет собой показатель производительности, который может принимать значения от 0 до 1.

Для получения дополнительной информации об используемом наборе данных вы можете посетить: https://archive.ics.uci.edu/ml/datasets/Productivity+Prediction+of+Garment+Employees.

Загрузка набора данных

Загрузка любого набора данных в RapidMiner — довольно простой процесс. В правом верхнем углу RapidMiner вы можете найти кнопку Импорт данных, которая позволяет выполнять поиск набора данных локально или в существующей базе данных. Здесь вы можете видеть, что мы загружаем наш набор данных и обнаружили орфографические ошибки (в разделе «Отдел»), а также нулевые значения (в столбцах smv и wlp). Продолжая хранить наши данные локально в RapidMiner, мы можем перейти к обработке наших данных с помощью Turbo Prep.

Что такое Turbo Prep?

Начнем с определения Turbo Prep. Turbo Prep — это инструмент подготовки данных, который позволяет пользователям быстро и легко очищать, преобразовывать и обогащать свои данные. С помощью Turbo Prep пользователи могут визуально исследовать свои данные, выявлять пропущенные значения, выбросы и несоответствия, а также преобразовывать свои данные с помощью широкого набора встроенных операторов. Turbo Prep использует алгоритмы машинного обучения для автоматизации многих задач подготовки данных, таких как подстановка пропущенных значений и обнаружение аномалий, что делает процесс более быстрым и точным.

Преобразование с помощью Turbo Prep

Как только мы закончим загрузку нашего набора данных, мы можем начать его преобразование и очистку. щелкнув правой кнопкой мыши набор данных в нашем проводнике репозитория, мы можем быстро увидеть, что Turbo Prep появляется как один из наших вариантов. Нажав на нее, мы можем сразу приступить к работе.

Я обычно начинаю с преобразования данных, так как начало очистки обычно приводит к большему количеству проблем в будущем. После того, как мы нажмем «Преобразовать», мы можем выбрать столбец и тип преобразования, которое мы будем проводить. Начиная со столбца нашего отдела, мы можем заменить обнаруженную ранее орфографическую ошибку. Используя информацию, которую мы почерпнули из описания и метаданных нашего набора данных, мы знаем, что, скорее всего, название отдела должно быть «шитьем».

Щелкнув отдел и нажав заменить, нас приветствуют две текстовые записи, в которые мы можем вставить сначала «sweing», а затем «шить». После нажатия кнопки «Применить» давайте проверим наш столбец, щелкнув левой кнопкой мыши, затем правой кнопкой мыши и выбрав «Показать подробности». Похоже, у нас есть еще одна проблема с нашим отделом отделки, но мы, кажется, решили нашу предыдущую. Давайте завершим это преобразование, нажав зафиксировать преобразование вверху. Давайте решим нашу следующую задачу.

Как мы видим выше, наша колонка содержит необрезанную версию окончания названия отдела. Повторив предыдущий шаг (replace), но вместо этого заменив «finishing» на «finishing», мы могли бы решить нашу проблему. Нажмите зафиксировать преобразование, и у нас будет очищенный столбец, готовый к подготовке данных. Давайте посмотрим, требуется ли дополнительное преобразование данных, взглянув на детали столбца. Похоже, возникла проблема, когда мы показываем подробности в столбце квартала.

Под описанием квартала UCI мы видим, что в месяц должно быть только четыре квартала, но, похоже, есть квартал 5. Глядя на даты, соответствующие этим неточным кварталам, мы видим, что все эти кварталы закончились примерно в конце января. . Давайте заменим «Квартал5» на «Квартал4» и продолжим наш процесс поиска грязных данных.

При поиске более грязных данных вы, скорее всего, наткнетесь на wip (работа в процессе). Этот столбец состоит из чисел, 42,27% значений которых являются нулевыми. Хотя мы можем заменить наши нулевые значения средним или медианным значением нашего столбца, это сильно изменит столбец. При использовании этих данных для моделирования лучше всего обратиться к команде, ответственной за создание этих данных, и получить разъяснения. Поскольку в данном случае это невозможно, мы просто сохраним нулевые значения. Это по большей части охватывает фазу трансформации нашего проекта. Теперь приступим к очищению.

Автоматическая очистка с помощью Turbo Prep

В Turbo Prep есть мощная функция очистки данных, которая называется Автоматическая очистка. Автоочистка — это в основном мастер для быстрого просмотра данных с использованием предопределенных параметров и удаления коррелированных столбцов и неверных данных. Auto Cleansing также может выполнять создание фиктивных столбцов, нормализацию и PCA (анализ главных компонентов). Давайте удалим наши данные низкого качества.

Мы начинаем с выбора целевого столбца, в данном случае fact_productivity, затем нажимаем «Далее». Оттуда Автоматическая очистка удалит столбцы с высокой стабильностью, поскольку они не улучшат наши модели. Нажмите «Далее» и продолжите. Мы также изменим желаемые типы столбцов на числа. Этот процесс автоматически создает фиктивные переменные для всех наших категориальных столбцов. Мы нажимаем «Далее», чтобы перейти к следующему вопросу о избыточной изменчивости наших числовых данных. Мы хотели бы выполнить нормализацию, но если вы внимательно прочитаете, то увидите, что RapidMiner предпочитает, чтобы мы позволяли ему выполнять нормализацию на этапе автоматического моделирования. Наконец, мы применим автоочистку и зафиксируем очистку.

В качестве последнего шага мы экспортируем наш набор данных в виде CSV-файла с именем «garments_worker_productivity_clean.csv» и сохраняем его локально. Это гарантирует, что у нас есть как грязный, так и чистый набор данных, и что мы можем перейти к автоматической модели.

Что такое автомодель?

Auto Model — это инструмент для построения моделей машинного обучения, который автоматизирует многие трудоемкие и сложные задачи, связанные с созданием и развертыванием моделей машинного обучения. С Auto Model пользователи могут быстро создавать и развертывать точные модели машинного обучения всего за несколько кликов. Инструмент автоматически выбирает лучший алгоритм и параметры модели на основе пользовательских данных и целей моделирования, а также автоматически выполняет задачи разработки функций, настройки гиперпараметров и оценки модели. Это позволяет пользователям легко создавать, тестировать и развертывать модели машинного обучения без необходимости писать какой-либо код или иметь глубокие знания алгоритмов машинного обучения.

Нашим первым шагом в использовании этого мощного инструмента является импорт очищенных и подготовленных данных. Как только мы закончим импорт наших данных, мы должны увидеть их в нашем проводнике репозитория. Если щелкнуть правой кнопкой мыши наш новый набор данных и выбрать Автомодель, мы перейдем к нашему набору данных с тремя различными возможностями (прогнозирование, кластеры и выбросы). Поскольку нашей первоначальной целью было прогнозирование, мы нажимаем на фактическую_продуктивность и нажимаем «Далее».

Мы не будем превращать наш предиктор в классификатор. Как только вы нажмете «Далее», вы увидите, что благодаря нашему предыдущему преобразованию и очистке данных все наши данные в порядке. Мы нажимаем «Далее», и в качестве последнего шага перед началом моделирования мы можем выбрать, какие модели мы используем. Я буду использовать все доступные модели и бежать. Вот мои результаты.

Во всех тестах с несколькими сеансами Gradient Boosted Trees больше всего уменьшали количество ошибок. С относительной ошибкой 10,7% (+/- 1,2%) модель хорошо работает при прогнозировании производительности. Главной движущей силой производительности являются стимулы, незавершенная работа (незавершенная работа) и целевая производительность. Следовательно, можно сказать, что за счет увеличения финансовых стимулов, установления целей производительности и наличия множества доступных рабочих мест производительность труда работников по пошиву одежды повысится.

Спасибо, что нашли время, чтобы узнать о Turbo Prep и Auto Model от RapidMiner вместе со мной. Чтобы узнать больше о проектах, связанных с наукой о данных, подписывайтесь на меня, чтобы узнать больше о науке о данных и бизнес-аналитике.