Почему обоснование проектов по науке о данных с точки зрения бизнеса является ключом к их успеху.

Компании на конкурентных рынках должны быть агрессивны в том, как дифференцированный опыт может обогатить их конечных пользователей и партнеров по экосистеме. Данные были охарактеризованы как «естественный ресурс» предприятия. Дифференциация может быть достигнута за счет использования корпоративных данных для выявления и понимания тенденций, шаблонов и даже поведения. Модели машинного обучения (ML) могут быть разработаны для создания прогнозов на основе этих ценных корпоративных данных, которые могут предоставить информацию, позволяющую донести эту дифференциацию до конечных пользователей.

Вот чему я научился на практике: большинство проектов по науке о данных терпят неудачу, потому что упускают из виду потребности бизнеса. Эксперты часто погрязают в червоточинах науки о данных и упускают из виду общую цель. Если нам не удастся обосновать наши модели машинного обучения с точки зрения бизнеса, мы потеряем свой потенциал стимулировать рост бизнеса. Рассмотрим некоторые ключевые вопросы, которые помогут решить эту проблему.

Понимание проблемы бизнеса.

  • Семинары по бизнес-структурированию: Как гордый IBMer и CSMer, я могу сказать, что мы в IBM крутим это. Фреска — отличный инструмент для выполнения этого упражнения удаленно. Семинары по бизнес-структуре направлены исключительно на определение варианта использования, адаптированного к потребностям бизнеса.
  • Отраслевые исследования. Ваш бизнес связан с банковским делом, розничной торговлей или телекоммуникациями? Понимание вашей отрасли позволяет вам определить ключевые бизнес-факторы, основанные на отраслевом контексте.
  • Экономическое обоснование. Поддерживается ли вариант использования и финансируется ли оно за счет экономического обоснования? Приведут ли наши усилия к росту доходов в случае успеха?

Взгляд на проект через призму бизнеса.

Вот три вопроса, которые могут помочь нам держать руку на пульсе проектов по работе с данными.

  1. Могу ли я четко сформулировать бизнес-проблему другим?
  2. Обладаю ли я всей информацией, необходимой для понимания проблемы?
  3. Как моя модель машинного обучения решает проблему?

Обеспечение решения бизнес-проблемы моделью.

Есть книги и карьеры, посвященные именно этому вопросу, так что воспринимайте это как введение в выбор модели. Здесь стоит упомянуть, что подготовка и очистка данных здесь не рассматриваются — это на другой день… или год, в зависимости от того, сколько времени вы потратите на очистку своих данных.

  1. Тестирование модели машинного обучения.Тестирование будет включать разделение данных на обучающие, проверочные и тестовые наборы. Затем мы подбираем модели-кандидаты в обучающем наборе, оцениваем и выбираем в проверочном наборе и сообщаем о производительности окончательной модели в тестовом наборе. Здесь очень важно, чтобы наборы для обучения, проверки и тестирования были полностью разделены для справедливой оценки.
  2. Оценка модели машинного обучения. Какая модель лучше всего соответствует бизнес-требованиям? Можем ли мы развернуться и сориентироваться на более эффективную модель? Разумно ли мы разделяем имеющиеся данные?

Идеальных моделей не существует — цель состоит в том, чтобы найти такую, которая достаточно хороша для решения бизнес-проблем.

Вывод

С большими данными приходит большая сила. Привязка этого проекта данных к бизнес-перспективе жизненно важна для его успеха. При выборе модели машинного обучения задайтесь вопросом, действительно ли модель решает бизнес-проблемы.

использованная литература

  1. Наука о данных для бизнеса, Фостер Провост и Том Фосетт
  2. Общеотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM) — Что такое CRISP-DM?
  3. Преобразование данных в действие — статья Ли Шленкера На пути к науке о данных.

Сноска

На практике может быть недостаточно данных для разделения на обучение, проверку и тестирование. В этом случае для приближенного выбора модели используются два метода: