Эти 5 основных шагов можно использовать для планирования любого проекта по науке о данных.

Если вы чем-то похожи на меня, контрольные списки и процессы — это ваши спасательные круги. Они не только помогают вам быть организованными, но также помогают предвидеть и устранять проблемы, которые могут возникнуть в ходе проекта.

Имея образование в области разработки программного обеспечения, я знал жизненный цикл разработки программного обеспечения (SDLC) наизусть и подготовил для себя множество контрольных списков, чтобы гарантировать, что я всегда пишу наилучший код (см.: Этот быстрый и простой 7-шаговый Контрольный список поможет вам написать лучший код на Python для науки о данных.

Однако, когда я начал изучать многочисленные курсы по науке о данных и сертификаты, доступные в Интернете, я заметил, что не хватает одной важной вещи: любого упоминания о жизненном цикле проекта. Только когда я провел собственное расследование, я узнал, что наука о данных имеет общий жизненный цикл и достаточно гибка, чтобы ее можно было модифицировать в соответствии с потребностями каждой команды или проекта.

Есть несколько причин, по которым полезно знать жизненный цикл проекта по науке о данных. Во-первых, это делает вас эффективным членом команды и специалистом по данным. Проект получается только тогда, когда каждый член команды работает в унисон или когда отдельный человек поставил все галочки для создания сплоченного проекта. Во-вторых, вы можете получить на собеседовании вопрос о жизненном цикле проектов по науке о данных, и ваш ответ может дать рекрутеру хорошее представление о том, как вы подходите на эту роль. Наконец, и, возможно, об этом не нужно говорить, жизненный цикл проекта по науке о данных помогает направлять ваши проекты по науке о данных. В нем представлен пошаговый набор контрольных точек, которые помогут вам спланировать и реализовать всесторонний проект, а также помогут вам подготовиться и смягчить любые потенциальные проблемы, которые могут возникнуть в дальнейшем.

Жизненный цикл науки о данных

Прежде всего важно отметить, что жизненный цикл науки о данных может выглядеть немного по-разному для всех. Существует несколько различных интерпретаций, хотя все они в целом напоминают следующую структуру:

1. Определите и поймите проблему

Проблема не может быть решена, если вы не знаете, в чем проблема.

Многие руководители обратятся к своим командам по обработке и анализу данных, заявив, что проблема существует и команда по обработке данных должна ее решить, но при этом не будут знать, как сформулировать проблему, почему ее необходимо решить и какая связь между ними. бизнес-кейс и технический кейс.

Первый шаг — дать четкое определение и понимание проблемы или бизнес-кейса, а затем перевести это в задачу науки о данных с практическими шагами и целями. Это включает в себя четкое и краткое общение с руководителями бизнеса и задавание достаточного количества вопросов, чтобы не было противоречивых результатов. Решение проблемы с данными требует много работы, так что вы можете сделать это правильно с первого раза.

Один из ключевых вопросов, который следует задать руководителям, заключается в том, какую пользу принесет решение проблемы компании (или ее клиентам) и как проблема вписывается в другие процессы компании. Это не только поможет вам и вашей команде определить, какие наборы данных будут извлечены, но и типы анализов, которые вы будете выполнять, и ответы, которые вы будете искать.

2. Сбор данных

Если вы задали правильные вопросы и имеете четкое представление о проблеме, которую пытаетесь решить, вы должны быть хорошо подготовлены к сбору правильных данных для работы.

Я говорю, что вы должны быть хорошо подготовлены, но сбор данных может вызвать всевозможные проблемы. Не все компании поддерживают отличные наборы данных, и не все компании обязательно имеют правильные данные для работы. На этот шаг следует потратить больше времени, чем вы думаете, чтобы убедиться, что у вас есть правильные данные с самого начала — опять же, эти проекты требуют много времени и усилий, поэтому вы можете сделать это правильно с первого раза.

Кроме того, всегда полезно собрать больше данных, чем, по вашему мнению, вам понадобится. Наборы данных могут быть неполными или ошибочными по другим причинам, поэтому всегда полезно иметь дополнительные данные на всякий случай. Таким образом, весь ваш проект может быть завершен независимо от качества данных. Это просто потребует, чтобы вы прошлись по данным гребнем с очень мелкими зубьями, чтобы убедиться, что вы используете только лучшие данные для проекта.

3. Очистка и подготовка данных

Как я описал в предыдущем шаге, сбор большего количества данных, чем, по вашему мнению, вам понадобится, всегда будет полезен, если вы начнете прочесывать необработанные данные частым гребнем, чтобы выбрать неполные или ошибочные записи.

Повторяющаяся тема этого процесса заключается в том, что вы должны делать каждый шаг правильно с первого раза, чтобы уменьшить вероятность того, что вам придется делать это снова и снова. Наука о данных — это работа с умом, а не усердно. Это означает, что для создания правильных моделей на пятом этапе процесса вам необходимо правильно очистить и подготовить данные, которые вы планируете использовать. Очень важно помнить, что ваши модели потенциально могут изменить то, как ваша компания ведет бизнес, а это означает, что вы должны быть правы с первого раза при разработке своих моделей.

Некоторые из ключевых типов ошибочных данных, о которых вам необходимо знать, включают неправильно отформатированные данные, поврежденные данные, повторяющиеся или нулевые значения, экстремальные выбросы и даже отсутствующие данные.

Это самый длинный шаг в жизненном цикле проекта по науке о данных, и многие специалисты по данным утверждают, что он составляет большую часть времени, затрачиваемого на проект. Поговорка о том, что 20 % ваших результатов зависят от 80 % вашей работы, здесь верна. Однако плохие данные создают плохие модели, а это означает, что вы должны потратить время сейчас, а не исправлять свои ошибки позже.

4. Исследовательский анализ данных

Это, возможно, первый «забавный» шаг в жизненном цикле проекта по науке о данных, поскольку вы, наконец, можете написать некоторый код и увидеть, что все данные, которые вы кропотливо очистили, пытаются вам сказать.

Исследовательский анализ данных используется для обобщения основных характеристик набора данных и часто завершается разработкой визуализаций данных. Эти визуализации помогут вам быстро увидеть закономерности и выявить аномалии в данных. Настало также время для вас провести проверку гипотез или проверить любые предположения, которые у вас могут быть или которые могли быть подняты во время ваших первоначальных обсуждений с руководителями компании. То, что вы обнаружите на этом этапе, поможет вам позже разработать модели, свободные от допущений или ошибочных выводов.

Некоторыми из инструментов, которые вы можете использовать во время исследовательского анализа данных, являются методы кластеризации и уменьшения размеров, одномерная визуализация, двумерная визуализация и сводная статистика, многомерная визуализация, кластеризация K-средних или линейные регрессии.

Важно отметить, что это может быть заключительный этап вашего проекта в зависимости от бизнес-задачи, которую вам нужно решить. Если первоначальный вопрос был простым: доверительные интервалы или стандартные отклонения, ваш проект завершится созданием пары визуализаций, которые помогут руководителям понять. Однако, если вопрос носит более предсказательный характер, вы перейдете к последнему этапу цикла: построению и развертыванию модели.

5. Создание и развертывание модели

Вы подошли ко второму и последнему «забавному» этапу жизненного цикла проекта по науке о данных. Настало время разделить ваш набор данных на обучающие и тестовые наборы, которые будут использоваться для разработки ваших моделей машинного обучения.

Здесь вы определите, нужно ли вам создавать контролируемую или неконтролируемую модель машинного обучения. Контролируемые модели используются для классификации невидимых данных и прогнозирования будущих тенденций и результатов путем обучения шаблонов в обучающих данных. Неконтролируемые модели используются для поиска сходства в данных, понимания взаимосвязей между различными точками данных в наборе и выполнения дополнительного анализа данных. Например, контролируемые модели могут использоваться для защиты компании от спама или для прогнозирования изменений на рынках. Неконтролируемые модели могут использоваться для сегментации клиентов в маркетинговую среду или рекомендации продуктов и услуг клиентам на основе их предыдущих покупок.

Вашим моделям может потребоваться несколько корректировок здесь и там, но если вы правильно выполнили все предыдущие шаги, не должно быть никаких серьезных изменений.

После создания модели, которая вас удовлетворит, она будет развернута в производственной среде. Хотя команда разработчиков программного обеспечения вашей компании, скорее всего, возьмет на себя большую часть развертывания, вот несколько советов о том, как вы можете упростить для них этот процесс:



Последние мысли

Хотя жизненный цикл проекта по науке о данных может показаться очевидным, его не часто преподают в онлайн-сертификатах или курсах. Это оставляет огромный разрыв между техническими навыками, которые вы изучаете, и реальностью того, как они будут использоваться на рабочем месте.

Однако, изучив базовую структуру, описанную выше, вы станете более всесторонним специалистом по данным, сможете ответить на любые вопросы о жизненном цикле, которые могут быть заданы вам на собеседовании, и у вас будет больше возможностей для Помогите своей команде подготовить и реализовать жизненно важный проект по науке о данных.

Подпишитесь, чтобы получать мои истории прямо на ваш почтовый ящик: Story Subscription

Пожалуйста, станьте участником, чтобы получить неограниченный доступ к Medium по моей реферальной ссылке (я буду получать небольшую комиссию без дополнительных затрат для вас): Medium Membership

Поддержите мое письмо, пожертвовав средства на создание большего количества историй, подобных этой: Пожертвовать