Стать инженером по машинному обучению | Шаг 2. Выберите процесс

Выбор процесса очень важен

Шаг 1. Измените свое мышление

После нескольких прикладных задач машинного обучения вы обычно разрабатываете шаблон или процесс для быстрого начала работы и достижения хороших результатов. Когда у вас есть этот процесс, становится тривиальным использовать его снова и снова в проекте за проектом. Чем более развит ваш процесс, тем быстрее вы получите результаты!

Позвольте мне дать вам фору и научить вас 5-этапному систематическому процессу, который я разработал, когда стал инженером по машинному обучению. Это только отправная точка, и вы можете изменить ее в соответствии со своими потребностями.

Определите проблему

Этот шаг предназначен для того, чтобы узнать больше о проблеме. Ознакомьтесь с предметной областью и поймите, почему вы создаете это решение. Чтобы облегчить это, всегда задавайте себе вопросы ниже

В чем проблема? Опишите, в чем проблема формально и неформально. Убедитесь, что вы перечисляете свои предположения и любые похожие проблемы.

Почему нужно решать проблему? Перечислите любые мотивы решения проблемы. Какие преимущества дает решение и как бы вы его использовали?

Как бы я решил проблему? Опишите, как проблема будет решена вручную, чтобы расширить знания предметной области.

Подготовить данные

Вы понимаете данные, которые вам были предоставлены? Многие люди пропускают этот шаг, потому что он часто утомителен, но очень важен. Эта работа заставляет вас думать о данных в контексте проблемы, прежде чем они потеряны в сумасшествии алгоритмов.

Выбор данных: подумайте, какие данные вам доступны. Какие-то данные отсутствуют? Можете ли вы удалить какие-нибудь данные?

Предварительная обработка данных: систематизируйте выбранные данные. Отформатируйте его, очистите и возьмите образец

Преобразование данных. Обработайте готовые данные для машинного обучения, разработав его функции с помощью масштабирования, декомпозиции атрибутов и агрегирования атрибутов.

Изучите различные алгоритмы

Теперь, когда у вас есть данные, пора опробовать несколько различных стандартных алгоритмов машинного обучения. Обычно вы запускаете 10–20 стандартных алгоритмов для преобразованных и масштабированных версий набора данных, подготовленных на последнем шаге.

Основная цель попробовать все эти различные алгоритмы и комбинации наборов данных - это распространение вашей сети повсюду. Посмотрите, что работает, а что нет. За этим последуют более подробные исследования с хорошо работающими алгоритмами.

Улучшение результатов

После того, как вы закончили изучать различные алгоритмы и выбрали тот, который хорошо работает для вашего набора данных, пора выжать из него наилучшие результаты. Вы можете сделать это несколькими способами, но важно убедиться, что ваши результаты значительны на данном этапе, потому что настройка гиперпараметров не превратит плохой результат в хороший результат. Это просто поможет вам выжать немного больше производительности.

Вот несколько стандартных способов улучшить уже работающий алгоритм.

Настройка гиперпараметров. Все алгоритмы имеют гиперпараметры, и их оптимизация является ключом к достижению максимальной производительности.

Ансамблевые методы: прогнозы делаются путем объединения нескольких моделей.

Разработка экстремальных функций: разложение и агрегирование атрибутов, наблюдаемое при подготовке данных, доведено до предела.

Представить результаты

Результаты сложной задачи машинного обучения часто бессмысленны в вакууме. Важно поместить их в контекст. Обычно это означает презентацию заинтересованным сторонам. Это касается больших встреч с руководителями и онлайн-соревнований. Это хорошая практика, которая дает всем участникам хорошее представление о проблеме и о том, как вы ее решили.

Вот краткий шаблон, чтобы вы могли представить свои результаты:

Зачем. Определите среду, в которой существует проблема, и создайте мотивацию для решения.

Вопрос: Опишите проблему как вопрос, на который вы вышли и ответили.

Решение. Кратко опишите решение как ответ на только что заданный вопрос.

Выводы. Составьте список всех открытий, сделанных вами при решении проблемы.

Ограничения: явно превышайте ограничения модели. Чем он не хорош и что можно сделать лучше.

Выводы. Вернитесь к тому, почему, вопросу и решениям, и свяжите их вместе так, чтобы их было легко запомнить.

Помните, что это еще не конец всех процессов, но это хороший шаг к тому, чтобы стать инженером по машинному обучению.

Шаг 3. Выберите инструмент

Спасибо за чтение :) Если вам понравилось, нажмите кнопку хлопка внизу как можно больше раз! Это будет много значить для меня и побудит меня писать больше подобных историй

Давайте также подключимся к Twitter, LinkedIn или электронной почте