7 шагов машинного обучения

1. Соберите данные

Сбор данных — это систематический подход к сбору и измерению информации из различных источников для получения полной и точной картины интересующей области. Сбор данных позволяет человеку или организации отвечать на соответствующие вопросы, оценивать результаты и делать прогнозы относительно будущих вероятностей и тенденций.

Методы сбора данных

· Наблюдение. Непосредственное наблюдение за простыми явлениями может быть очень быстрым и эффективным способом сбора данных с минимальным вмешательством. Все, что вам нужно, это создать правильный механизм наблюдения.

· Анкеты. Анкеты – это автономные инструменты сбора данных, которые будут предоставляться участникам выборки по почте, телефону или через Интернет.

· Интервью. Интервью могут помочь вам лучше понять мысли, лежащие в основе ответов респондентов.

· Сессии фокус-групп. Сессии фокус-групп выводят интерактивные преимущества интервью на новый уровень, собирая тщательно отобранную группу для модерируемого обсуждения темы опроса.

2. Подготовьте данные

Генерируйте данные, которые в конечном итоге могут быть преобразованы в знания.

Методы подготовки данных

· Проверка анкеты. Проверка анкеты включает удаление неприемлемых анкет. Эти вопросники могут быть неполными, инструкции не соблюдены, незначительные отклонения, отсутствующие страницы, просроченная дата окончания или респондент не соответствует требованиям.

· Редактирование: Редактирование направлено на исправление неразборчивых, неполных, непоследовательных и двусмысленных ответов.

· Кодирование: кодирование обычно присваивает буквенные или цифровые коды ответам, которые еще не имеют их, чтобы можно было применить статистические методы.

· Расшифровка: расшифровка данных включает в себя передачу данных, чтобы сделать их доступными для людей или приложений для дальнейшей обработки.

· Очистка: очистка проверяет соответствие данных. Несоответствия могут возникать из-за ошибочной логики, выхода за пределы диапазона или экстремальных значений.

· Статистические корректировки. Статистические корректировки применяются к данным, которые требуют взвешивания и преобразования масштаба.

· Выбор стратегии анализа. Наконец, выбор стратегии анализа данных основывается на предыдущей работе по разработке исследовательского проекта, но завершается после рассмотрения характеристик собранных данных.

3. Выберите модель

Выбор статистической модели не прост. При выборе статистической модели также можно руководствоваться формой отношений между зависимой и объясняющей переменными. Графическое исследование этих взаимосвязей может быть очень полезным.

4. Обучить модель

мы будем использовать наши данные для постепенного улучшения способности нашей модели предсказывать результат. Это означает, что вы должны предоставить набор данных, содержащий исторические данные, из которых можно изучать закономерности. Данные должны содержать как результат (метку), который вы пытаетесь предсказать, так и связанные с ним факторы (переменные). Модель машинного обучения нуждается в результатах, чтобы определить функции, которые лучше всего предсказывают результаты. В процессе обучения данные сортируются по результатам, и алгоритм извлекает статистические закономерности для построения модели.

5. Оценка

После завершения обучения пришло время проверить, хороша ли модель, используя Оценку. Именно здесь вступает в игру тот набор данных, который мы отложили ранее. Оценка позволяет нам протестировать нашу модель на данных, которые никогда не использовались для обучения. Эта метрика позволяет нам увидеть, как модель может работать с данными, которые она еще не видела. Это должно быть представлением того, как модель может работать в реальном мире.

6. Настройка гиперпараметров

После того, как вы провели оценку, возможно, вы захотите посмотреть, сможете ли вы еще больше улучшить свое обучение каким-либо образом. Мы можем сделать это, настроив гиперпараметры. Было несколько параметров, которые мы неявно предполагали при обучении, и сейчас самое время вернуться назад, проверить эти предположения и попробовать другие значения.

7. Прогноз

Машинное обучение использует данные для ответа на вопросы. Итак, предсказание или вывод — это шаг, на котором мы получаем ответы на некоторые вопросы. Это точка всей этой работы, где реализуется ценность машинного обучения.