Майк Тербер, главный научный сотрудник Elder Research

Управление проектами в области науки о данных должно быть настроено так, чтобы оно лучше всего работало в каждой организации, но мы считаем, что наши проекты наиболее успешны, когда они управляются с использованием процесса Agile + CRISP-DM, а не традиционного каскадного подхода. Планирование спринта в рамках Agile + CRISP-DM постоянно побуждает команду учитывать возникающие требования и делать повороты на основе результатов предыдущего спринта.

Процесс доставки науки о данных

Инициативы в области науки о данных ориентированы на проекты, поэтому у них есть определенное начало и конец. Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM) — это высокоуровневый расширяемый процесс, который представляет собой эффективную основу для проектов по науке о данных. На рисунке 1 показаны шесть основных шагов (кружки). Хотя шаги показаны в общем порядке их выполнения, важно отметить, что CRISP-DM, как и процесс гибкой разработки программного обеспечения, представляет собой итеративную структуру процесса. Каждый шаг можно пересматривать столько раз, сколько необходимо для уточнения понимания проблемы и результатов. Этот повторяющийся цикл позволяет обмениваться информацией и извлекать уроки из проектной деятельности. Вместо того, чтобы пытаться усовершенствовать один этап перед переходом к другому, команда проекта может создать «минимально жизнеспособный проект» (MVP) в режиме быстрого прототипирования, извлекая уроки и делая заметки для следующей итерации, и, таким образом, гораздо лучше осведомлена о «нисходящих» проблем, когда решение становится в центре внимания.

Шесть шагов CRISP-DM:

  1. Бизнес-понимание. Чтобы проекты по науке о данных были успешными, важно иметь полное представление о бизнес-проблеме. Очень важно встретиться с заинтересованными сторонами и экспертами в предметной области, чтобы четко определить «критерии успеха» для проекта. Критерии успеха обычно формулируются как решения, принимаемые более точно, эффективно, своевременно и прозрачно для достижения основной цели организации. К заинтересованным сторонам относятся как стратегические, так и тактические стороны, на которых воздействует ожидаемое решение, включая руководителей и конечных пользователей. Заинтересованные стороны будут предлагать и получать отзывы о реалистичных целях — величине выгод, которые они могут ожидать от проекта. Команда аналитиков способствует обсуждению того, как должна выглядеть «хорошая» модель, и показателей оценки, по которым можно оценить успех любого решения.
  2. Понимание данных. Необходимо оценить качество и степень детализации данных, чтобы определить, будут ли они способствовать достижению целей, определенных на этапе понимания бизнеса. Это, вероятно, будет включать сбор данных, их интеграцию, описание и оценку качества. После такой оценки часто бывает так, что ожидания заинтересованных сторон нуждаются в корректировке. Часто ключевые входные данные, которые, как известно, влияют на желаемый результат, недоступны. Или ключевые входные данные могут иметь высокий уровень пропуска. Некоторые входные данные могут быть объединены из разных источников и представлять разные вещи. Список проблем может быть довольно длинным, но это не должно обескураживать команду проекта. Компетентные группы специалистов по данным изучили множество методов успешной работы с зашумленными и неполными данными. Этот шаг также может включать обзор общедоступных данных, чтобы оценить, могут ли внешние источники данных улучшить результаты. Проблемы во время понимания данных обычно заставляют нас вернуться к шагу понимания бизнеса один или несколько раз.
  3. Подготовка данных. Далее необходимо получить доступ к имеющимся данным, преобразовать их и преобразовать в формат, подходящий для моделирования и оценки, который называется аналитической базовой таблицей (ABT). Он должен соответствовать степени детализации решения, которое будет обслуживать развернутая модель, подразумевая агрегирование необработанных данных до этого уровня или рациональное распределение значений до требуемого уровня. Исходные данные должны быть доступны на момент проведения оценки, и каждая метка целевого результата должна быть тщательно проверена. Подготовка данных может включать в себя такие процессы, как: очистка данных, вменение отсутствующих данных, преобразование признаков, взвешивание случаев и/или балансировка результатов, абстрагирование данных, разработка признаков и оценка важности признаков. Часто именно на этом этапе «искусство» анализа данных становится наиболее ценным. Обратите внимание, что этот шаг часто занимает значительную часть времени и ресурсов, необходимых для проекта анализа данных, и многократно повторяется.
  4. Моделирование. Модели задаются самыми разными способами. Модель — это представление объекта, системы или бизнес-процесса, содержащее оптимальное сочетание основных функций, соответствующих желаемым вариантам использования, например классификация или прогнозирование. Можно разработать несколько типов моделей в соответствии с требованиями, изложенными на этапе «Понимание бизнеса». Модельные подходы, а также «оптимальное» сочетание основных функций должны сбалансировать преимущества по нескольким критериям, таким как простота, интерпретируемость и скорость по сравнению с точностью.
  5. Оценка. Необходимо оценить несколько конкурирующих моделей, чтобы определить, какая модель (или совокупность моделей) лучше всего соответствует бизнес-целям. Критерии успеха, определенные на этапе «Понимание бизнеса», используются для создания метрики, которая оценивает производительность каждой модели в свете критериев предполагаемого использования, таких как стоимость ошибок (т. е. ложных положительных и ложных отрицательных результатов). Эта оценка не только определит, какая модель (модели) является лучшей, но и какие пороговые значения (или уровни чувствительности) являются наиболее подходящими. После получения результатов оценки важно сообщить о них заинтересованным сторонам. Это, несомненно, приведет к пересмотру бизнес-понимания и других предыдущих шагов, что позволит уточнить ожидания (аналитиков и конечных пользователей) и сообщить о предположениях и ограничениях выбранного подхода. Результат этапа оценки включает экономическое обоснование будущих исследований проблемы, основанное на достоинствах настоящего проекта. Перед внедрением модели выполняется окончательная оценка модели на свежих данных, которые ранее не использовались на этапах моделирования или оценки.
  6. Развертывание. Наконец, сосредоточьтесь на том, как сделать результаты действенными и простыми для понимания конечными пользователями аналитического продукта. На этом этапе выделяются критерии успеха, установленные на этапе понимания бизнеса. Действия включают в себя укрепление инфраструктуры данных для надежного ввода данных в модель, разработку наилучшего способа сделать результаты модели доступными (электронная таблица, визуализация, интерактивная панель), обучение конечных пользователей тому, как интерпретировать выводы, а также анализ допущений и ограничений данных. и методы моделирования с конечными пользователями и ключевыми заинтересованными сторонами. Развертывание обычно требует от ИТ-отдела и службы информационной безопасности авторизации нового программного обеспечения и обновления ИТ-инфраструктуры для поддержки оптимальных механизмов доставки для конечных пользователей. Для группы аналитиков важно часто взаимодействовать с этими командами на протяжении всего жизненного цикла, но особенно во время развертывания, чтобы обеспечить эффективное развертывание.

Альтернатива CRISP-DM

Мы призываем вас рассмотреть возможность формального принятия процесса CRISP-DM, но хотели бы указать на альтернативную методологию, созданную Microsoft, которая называется Процесс групповой обработки данных (TDSP). Процесс TDSP представляет собой гибкую итеративную методологию обработки данных для эффективного предоставления решений прогнозной аналитики и интеллектуальных приложений. Его два преимущества заключаются в том, что он более современный, с обновленными технологическими стеками и соображениями, а Microsoft предоставляет более подробную документацию. Его недостатки заключаются в том, что он многословен и иногда может сделать процесс обработки данных излишне сложным. У Elder Research есть опыт и успех в использовании обеих платформ, но мы чаще используем CRISP-DM и рекомендуем организациям, которые ищут простой и эффективный процесс анализа данных, использовать возможности Agile + CRISP-DM.

Преимущества процесса гибкой аналитики

Теперь, когда мы рассмотрели структуру CRISP-DM, важно понять, почему методология Agile предпочтительнее стандарта Waterfall для управления аналитическими проектами. Водопадный подход разбивает деятельность проекта на линейные последовательные этапы, то есть начало каждого этапа зависит от завершения предыдущего. Для разработки программного обеспечения и анализа данных эта линейная зависимость имеет тенденцию становиться негибкой и менее итеративной, поскольку прогресс течет вниз в одном направлении (отсюда и название). Этот подход плохо работает с аналитикой данных, потому что:

  1. Он жесткий и не допускает изменений, в то время как аналитика требует гибкости для поворота, всегда с целью добавления ценности.
  2. Для этого требуются подробные и полные спецификации требований заранее, тогда как специалисты по данным не знают заранее, на какие вопросы могут ответить данные.

Вместо этого гибкое управление проектами представляет собой итеративный и поэтапный подход. Он разрабатывает и предоставляет требования на протяжении всего жизненного цикла проекта, уделяя особое внимание уточнению, а не определению. Agile-проекты основаны на доверии, гибкости, расширении возможностей и сотрудничестве, поскольку они реагируют на результаты на протяжении всего проекта. Гибкий:

  • Отдает приоритет регулярному сотрудничеству с заинтересованными сторонами для интеграции их отзывов в дизайн
  • Принимает изменяющиеся требования даже на поздних этапах цикла разработки
  • Ценит самоанализ промежуточных результатов индуктивных процессов, таких как интеллектуальный анализ данных.
  • Повышает удовлетворенность клиентов за счет раннего и непрерывного предоставления ценной и полезной информации

Рисунок 2 иллюстрирует основные различия между двумя методами управления проектами. Специалисты по данным Elder Research и менеджеры проектов принимают Agile и используют его во всех своих проектах.

Agile доверяет самоорганизующейся команде быстро и эффективно реагировать на реальность на местах. Это способствует сотрудничеству и укрепляет доверие между командой специалистов по обработке и анализу данных и заинтересованными сторонами проекта, гарантируя, что они являются неотъемлемой частью процесса и находятся в гораздо более регулярном общении, чем это принято в других фреймворках. Есть много статей и документации по Agile, но мы рекомендуем Excella как отличный ресурс для обучения Agile и сертификации Scrum Master.

CRISP-DM может быть тесно связан и интегрирован с Agile, где каждый этап CRISP-DM (определение цели, понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка, развертывание, применение знаний и измерение) представляет собой столбцы или этапы внутри маневренная доска. Аналитический проект может быть запланирован как несколько Agile-спринтов, каждый из которых использует все этапы CRISP-DM, но фокусируется в первую очередь на одном или двух из них. Например, первый спринт, скорее всего, будет посвящен обнаружению: потребностям основного бизнеса, доступности и консолидации данных, текущим практикам и текущей производительности. Следующим может быть создание базовой модели, например, с использованием всего трех входных данных. Затем один или два спринта могут быть сосредоточены на поиске наилучшей спецификации модели. Последний спринт может отточить и укрепить структуру развертывания. Опять же, каждый спринт затрагивает каждую фазу CRISP-DM, но центральный фокус меняется с каждой фазой. В этой гибкой структуре проект остается ограниченным по времени для каждого спринта и для окончательных результатов проекта. Для каждого спринта запланированы обзорные и совместные сессии с соответствующими заинтересованными сторонами. Каждый основан на продуктах и ​​изучении предыдущего, что приводит к конечному результату, который понимается, принимается и принадлежит заинтересованным сторонам проекта.

Связанный

В чем ценность Data Engineering?

5 основных причин провала аналитических проектов

3 главных цели перед началом проекта аналитики

Первоначально опубликовано на https://www.elderresearch.com.