Когда вы привлекаете для проекта опыт в области науки о данных извне, вы сталкиваетесь с многоуровневой проблемой. Скорее всего, между вашими штатными экспертами и специалистами по обработке данных будет разрыв в знаниях в предметной области, существующие рабочие процессы не будут легко приспособлены к новым процессам, а между тем отсутствие общего рабочего языка может скрыть важные детали. Эти потенциальные препятствия могут накапливаться как снежный ком, потенциально снижая производительность и оставляя вас с результатами, которые не соответствуют вашим ожиданиям.

Команда специалистов по обработке и анализу данных Starschema реализовала более сотни проектов для крупных клиентов из самых разных отраслей, от здравоохранения до финансов, от производства до глобальных НПО. Этот опыт привел нас к списку неписаных передовых практик, которые мы снова и снова находили, чтобы облегчить бесперебойную и эффективную работу в ситуациях, когда клиент использует внешние знания в области науки о данных. Мы решили изложить их в письменном виде, чтобы помочь будущим клиентам - нашим и коллегам из других компаний - максимально использовать свой опыт работы с поставщиком данных для анализа данных.

Вот восемь советов с редкими примерами из реальной жизни, которые упростят работу с специалистами по обработке данных от поставщика и помогут вам быстрее получить лучшие результаты.

1. Обеспечьте взаимопонимание требований проекта.

Четко сообщите, как будут использоваться ожидаемые результаты, как они будут оцениваться и каковы ключевые показатели эффективности. Например, если решение должно работать в режиме реального времени, специалисты по обработке данных должны будут знать, что сложная ансамблевая модель, в которой несколько методов обучения используются параллельно, может не подходить, поскольку такие модели требуют слишком много времени для расчета.

KPI для науки о данных не всегда хорошо предсказывают бизнес-результаты, что часто представляет проблему даже в обычных случаях использования. Например, прогностическая модель может точно предсказать потенциальные оттоки, но если этот результат не используется для формулирования соответствующих стимулов удержания, коэффициент оттока не улучшится.

2. Будьте готовы к корректировке бизнес-процессов.
Интеграция науки о данных, например постоянного мониторинга производительности моделей, может потребовать изменений в бизнес-процессах. Допустим, модель используется для предотвращения негативных бизнес-результатов. Если вы предпримете превентивные бизнес-меры во всех случаях, когда модель предсказывает отрицательный результат, вы, возможно, никогда не столкнетесь с этой проблемой в будущем, но как вы можете быть уверены, что профилактика использовалась только там, где это необходимо?

Если профилактика стоит дорого, сосредоточьтесь только на тех случаях, когда это действительно необходимо. Имеет смысл сохранить «контрольную группу», где профилактические меры не применяются. Затем модель может быть проверена по этому образцу для тестирования на исторических данных. Выбор размера этой выборки требует определенных знаний: выборка должна быть тщательно отобрана, чтобы она была как можно меньше, но в то же время была репрезентативной.

3. Помогите экспертам в предметной области преобразовать их потребности в задачи по науке о данных.
Ваши штатные эксперты в предметной области, скорее всего, не являются специалистами по данным, но их знание бизнес-кейса может быть обширным. Помогая им преобразовать свои потребности в задачи по науке о данных, можно облегчить общение. Этого можно добиться с помощью поставщика услуг по анализу данных - на самом деле, это помогает вовлечь поставщика на раннем этапе. Очень важно найти KPI принятия, основанный на соглашении между вашими штатными командами и специалистами по обработке данных. KPI должен быть измерен на основе связанных данных и поддерживать ваши бизнес-цели, отражая как бизнес-ценность, так и количественные показатели производительности модели.

В некоторых областях выбор KPI относительно прост, поскольку в организациях используются хорошо известные показатели. Например, при работе над проблемой сегментации изображения, когда на изображениях должны находиться определенные заранее определенные шаблоны, иногда в середине проекта мы узнаем, что не существует автоматической оценки результатов, а есть только «проверка на глаз». Это явно не объективно и, что более важно, непрактично при работе с тысячами изображений. Преобразование желаемых аспектов решения, таких как распознавание определенного шаблона, в задачу науки о данных, значительно облегчит своевременную и экономичную доставку в таких случаях.

4. Чаще проводите статусные встречи.
Убедитесь, что анализ идет в правильном направлении. У вас может возникнуть множество вопросов, на которые лучше ответить сразу, а не после доставки, когда уже не остается времени для внесения существенных изменений. Основываясь на первых результатах, эксперты в предметной области могут найти ценный результат, который поможет уточнить подход к проблеме.

Незначительные изменения в фокусе анализа не являются чем-то необычным, особенно если специалисты по обработке данных не являются экспертами в данной области. Например, при анализе рентгеновских изображений мы можем определить источник, в котором модель уступает по характеристикам по сравнению с другими источниками. Причина может заключаться в том, что рентгеновский аппарат использовал другие настройки (например, более низкие) или создавал артефакт, поэтому все изображения, поступающие из этого источника, следует либо отбрасывать, либо анализировать отдельно.

5. Экспертные знания могут сделать или испортить подготовку данных.

Один из важнейших вкладов, который вы можете внести в проект по науке о данных, - это качественная подготовка данных. Если данные хорошо подготовлены и в модель отправлены правильные переменные, можно ожидать хороших результатов. Модель хороша ровно настолько, насколько хороши исходные данные. Если в данных не подготовлены соответствующие переменные, даже лучший алгоритм не даст вам качественных прогнозов.

Эксперты в предметной области, вероятно, знают, какие переменные имеют наибольшее влияние на цель и какие записи следует отфильтровать из данных. Если они поддержат команду по анализу данных такими идеями, производительность модели, вероятно, улучшится.

Простой пример: допустим, мы прогнозируем болезнь, при которой ожирение увеличивает риск. Указать только рост и вес в данных может быть недостаточно. Но вычисляя ИМТ (индекс массы тела), мы получаем уровень ожирения, который может быть лучшим предсказателем, чем вес или рост.

Без знания предметной области специалисты по данным могут получить множество новых переменных, комбинируя входные данные по-разному - и если им повезет, они натолкнутся на соответствующие факторы, но самый безопасный и продуктивный способ - это собирать всю эту информацию от экспертов в предметной области.

6. Строго учитывайте интерпретируемость.

Модели черного ящика могут обеспечивать более точные прогнозы, но часто более эффективно - а иногда и требуется по закону - использовать интерпретируемые алгоритмы. Когда ваш алгоритм поддается интерпретации, эксперты целевой области могут проверить отношения, которые он определяет, и убедиться, что прогноз рассчитывается на основе соответствующей информации. Известны известные случаи, когда модели черного ящика обучались функциям, не имеющим отношения к цели. Чтобы узнать больше по этой теме, см. Наш официальный документ по интерпретируемости:



7. Содействовать пониманию преимуществ проекта для всех участников.

Это часто помогает вовлечь каждую затронутую сторону на раннем этапе и создать взаимопонимание, почему данный проект выгоден не только для компании, но и для отдельных лиц. Как мы упоминали выше, важно, чтобы специалисты по обработке данных и эксперты в предметной области работали вместе, чтобы делиться знаниями в конкретной предметной области и подтверждать выводы анализа. Однако трудно достичь этой синергии, если не все будут на одной волне.

Например, представьте себе проект маркетингового агентства по автоматизации отчетов об эффективности кампании с использованием интеллектуального анализа текста. Хотя для руководства очевидно, почему автоматизация выгодна для компании, это может быть не так очевидно для члена команды, который в настоящее время создает эти отчеты. С их точки зрения, проект может стать угрозой, что сделает их работу ненужной. При таком отношении разумно ожидать, что этот сотрудник будет менее склонен к сотрудничеству.

На самом деле проекты по науке о данных могут автоматизировать и улучшить относительно небольшую часть работы человека, а не полностью ее устранить, поэтому подобные опасения обычно преувеличены. Фактически, проекты, как правило, высвобождают время и энергию, чтобы сосредоточиться на более сложных и увлекательных задачах для сотрудников. Стоит разобраться с проблемами такого рода и решить их на ранней стадии, чтобы убедиться, что все участники поддерживают проект, понимают его ценность и разделяют стремление продвигать его вперед.

8. Микроменеджмент убивает дух.

Требуются значительные усилия для создания действительно совместной системы, в которой поставщик данных и собственная команда экспертов могут и готовы работать вместе над конкретным проектом. И лучший способ испортить это - тщательно контролировать каждую проблему. Ничто не может замедлить проект больше, чем регулярное ожидание, пока руководитель отдела утвердит ответы на вопросы группы по анализу данных, которые не требуют их проверки или не получают от нее никакой пользы.

Вместо того, чтобы создавать процесс получения одобрения, установите четкие границы того, что можно и чем нельзя делиться, и что требует специального разрешения. Результирующий процесс можно дополнительно оптимизировать, назначив менеджера проекта, который имеет полномочия совершать такие звонки и может вмешаться в случае необходимости. Это может обеспечить адекватный поток информации, очищая границы между решениями и обязанностями, и способствовать бесперебойной реализации проекта.

В целом, лучшая стратегия вовлечения поставщика данных в проект - это подготовить внутреннюю команду к сотрудничеству. Специалисты по обработке данных обладают знаниями в области обработки данных и алгоритмов, в то время как ваши штатные эксперты в предметной области приносят отраслевые знания, которые необходимы для успеха, когда речь идет о прогнозном моделировании или связанных с ним методах.
, вы уже настраиваете проект на успех!

Вам - как клиенту или специалисту по данным - есть что добавить в этот список? Испытывали ли вы трудности с проектами из-за несоблюдения одного или нескольких из вышеперечисленных пунктов? Мы были бы рады услышать об этом, поэтому дайте нам знать в комментариях ниже или в наших профилях в социальных сетях!

Об авторах:

Эстер Виндхагер-Покол - руководитель отдела науки о данных в Starschema. Она имеет степень в области прикладной математики и имеет более чем десятилетний опыт поддержки принятия решений на основе данных в качестве консультанта, а также имеет дополнительный опыт исследования совместной фильтрации и разработки продуктов для анализа поведения пользователей в целях ИТ-безопасности. Эстер регулярно проводит тренинги по науке о данных для бизнес-пользователей и преподает Освоение процесса науки о данных в CEU в качестве приглашенного преподавателя. Она является организатором группы встреч R-Ladies Budapest и членом программных комитетов нескольких международных конференций по науке о данных. Связаться с Эстер в LinkedIn ..

Берта Бойте - специалист по обработке данных в компании Starschema. Она помогает компаниям предоставлять конечным пользователям более качественные услуги и продукты с помощью передовых решений для аналитики и машинного обучения. В последние годы ее основное внимание было сосредоточено на разработке инструмента рекомендаций для компании с Уолл-стрит, чтобы гарантировать, что клиенты получают высококачественные индивидуальные финансовые услуги. Свяжитесь с Бертой в LinkedIn.

Акос Фекете работал на различных должностях в области науки о данных и инженерии данных. Недавно он помог телекоммуникационной компании создать интегрированные данные для поддержки персонализированных рекомендаций для клиентов и получить геопространственную информацию, чтобы извлечь выгоду из их данных. Его работа также сыграла важную роль в разработке структуры качества данных для озера финансовых данных компании из списка Fortune 500. Помимо работы инженером по обработке данных в различных проектах, он также выполнил несколько проектов в области науки о данных. Свяжитесь с Акосом в LinkedIn .

ДОБАВИТЬСЯ К СТАРСХЕМЕ ЗДЕСЬ:



ПРОЧИТАЙТЕ БОЛЬШЕ ОТ STARSCHEMA: