7 шагов: как избежать потери усилий в процессе машинного обучения

Шаги, которые я научился избегать попадания в черную дыру

Эта статья представляет собой простое руководство по шагам, которые необходимо выполнить для создания отличного проекта машинного обучения. Вы не хотите, чтобы ваши усилия были напрасными. Я научился методом проб и ошибок и много раз терпел неудачу. Вот что я вспомнил во время путешествия, чем хотел бы поделиться.

1. Задайте себе вопросы

Один друг однажды сказал: «Вопросы лучше, чем ответы». Эта фраза абсолютно верна для проекта машинного обучения.

Спросите себя, что вы хотите спрогнозировать?

Кто является экспертом в этой области, который может помочь мне понять, какие данные мне нужно собирать и откуда?

Поделитесь своей идеей с парой людей вокруг вас.

Многие пытаются изобретать велосипед. Постарайтесь убедиться, что ваше решение будет несколько отличаться или лучше существующих решений.

В этом случае вы можете быть экспертом в предметной области, поэтому следуйте своему мнению.

2. Подготовьте формулировку проблемы с экспертом в предметной области.

Это ключ. Составьте формулировку проблемы, которая станет основой вашего проекта машинного обучения. Само это утверждение поможет вам вернуться в правильный режим каждый раз, когда вы отвлечетесь от своего понимания машинного обучения и того, почему вы начали этот проект.

Ключевым моментом здесь является согласование функции потерь; Как вы хотите измерить точность?

Планирование - это половина дела. На этом этапе вы выполнили 50% тяжелой работы. Это само по себе большое достижение.

3. Теперь вы готовы к сбору данных.

К настоящему времени вы будете знать источники, содержащие требуемые данные. Распакуйте их в нужном формате.

Очистите данные, чтобы их можно было ввести в модель.

4. Сначала постройте простую модель.

Так много проектов попадают в запутанную черную дыру, потому что они начинаются с самых сложных моделей. Если вы начнете с простой модели, такой как регрессия, вы сможете интерпретировать модель, вы можете объяснить модель другим, вы сможете лучше понять проблемы с данными, плюс это сэкономит ваше время и усилия для будущих моделей.

На этом этапе у вас есть эталон.

Вы будете точно знать, как разные источники данных связаны друг с другом и нужно ли вам исходить или исключать данные. Вы также будете знать о различных библиотеках и о том, как можно измерить производительность.

5. Вернитесь к эксперту в предметной области и объясните свои выводы.

Вот как вы можете ускорить свою работу. Объясните, что вы уже поняли о проекте, эксперту в предметной области.

Поздравляем, вы изучили методы проекта машинного обучения.

Вы можете не только объяснить отношения и модель в терминах непрофессионала, но также уточнить, как и почему. Здесь вы завершили 80% битвы.

Получите обратную связь с шагов 4 и 5 и выполните дальнейшую разработку функций.

6. Теперь приступайте к разработке функций.

Странно, спросите вы, но я уверен, что именно здесь вы принесете больше пользы, чем проба разных моделей. Кроме того, отзывы эксперта в предметной области помогут вам понять, что вам нужно делать с данными дальше.

Для начала убедитесь, что вы выбрали соответствующие функции. Затем уберите шум. Очистите данные дальше. Убедитесь, что вы не переборщили или не переобоили. Удалите функции, которые не приносят достаточной ценности.

Оставайтесь с простой моделью. Сравните с вашим тестом. Это ваш новый ориентир

Что удивительно, сейчас и эксперт в предметной области, и специалист по анализу данных / программист машинного обучения находятся на одной странице. Это повысит производительность в 10 раз.

7. Начните использовать сложные модели и параметры настройки.

Выбирайте свои сложные модели. Начни скармливать им данные. Настройте параметры и оцените производительность.

Все эти люди.

Вот краткое изложение на изображении

Надеюсь, это было полезно.