5 уроков 24-часового хакатона, которые помогут предотвратить неудачи проектов машинного обучения

Для получения ценности от проекта нужны не только данные, навыки программирования и инструменты

По данным Gartner, более 85% проектов по науке о данных терпят неудачу, и только 20% аналитических идей приносят бизнес-результаты. Я могу подтвердить эти ставки из своего опыта консультирования компаний.

И нет, это не данные. Это не недостающие данные и не плохие данные.

Дни данных в ETH Zurich завершились 24-часовым хакатоном по машинному обучению 15 мая 2022 года, и я был членом жюри одного из четырех конкурсов.

Быть членом жюри такого конкурса дает привилегию получить много информации. Помимо решения как такового, есть несколько уроков о том, как разные команды подходят к решению проблем и их пути во время хакатона.

Какую задачу нужно было решить?

В нашем конкурсе командам нужно было создать чат-бота по страхованию путешествий, помогающего путешественникам решать различные проблемы в мире, управляемом COVID-19, с несколькими требованиями для каждой страны, вариантами поездок, страховым покрытием и помощью во всех этих ситуациях.

Покрываются ли расходы на карантин в отеле, если мой сын заболеет COVID-19?
Какую поддержку я могу получить в случае отмены рейса из-за пандемии?
В каких странах у меня есть туристическая страховка?

Эти красиво сформулированные вопросы приходят вам на ум, когда вы думаете о чат-боте для страхования путешествий.

Реальность выглядит иначе. Вопросы не выписываются, и ответы нельзя найти, просто имея инструмент «расширенного поиска». Условия договора страхования представляют собой юридические тексты с возможностью толкования. Иногда требуется личная помощь, и инциденты можно предотвратить.

Ответы, помощь и взаимодействие с пользователем должны быть персонализированы.

Что получили команды?

Все команды получили доступ к инструментам AWS для создания чат-ботов, НЛП и машинного обучения. Также была аннотация, что это только «стартовый набор», и нет никаких ограничений на использование любых инструментов и методов, независимых от любого поставщика.

Были даны данные страхового полиса и ряд вопросов, на которые нужно ответить.

По каким критериям оценивалось решение?

Мы оценивали решения по следующим пяти критериям.

(1) Количественная оценка за отвеченный (заданный) набор вопросов
(2) Качественная оценка дополнительных тестируемых каверзных вопросов
(3) Креативность решения
(4) Диапазон и глубина раствора
(5) Шаг вкл. рассказывание историй

В то время как (1) и (2) оценивали техническую точность решения, (3) связывали технические методы с деловой стороной. (4) рассказал о создании ценности для различных заинтересованных сторон с помощью этого решения и (5) показал навыки презентации и продажи решения руководству или бизнесу.

Это обычная оценка цепочки создания стоимости, которая определяет решение руководства о внедрении решения или отказе от него.

Наконец-то мы получили широкий спектр решений с несколькими разными подходами. Некоторые работали, некоторые нет.

Итак, вопрос:

Что отличало самые эффективные команды от остальных?

1. Сначала проясните бизнес-проблему, а затем определите, как воплотить ее в техническое решение.

Прежде чем начинать что-либо технически, начните с того, что проясните в деталях проблему, которую нужно решить, доступные данные и то, как перевести их в подход машинного обучения.

На этом первом шаге проясните,

Проблема бизнеса. Обобщите это в краткой постановке бизнес-задачи, которая сосредоточена на ответе на конкретный вопрос. Он содержит проблему — потребность — воздействие. Это направляет команду к цели и закладывает основу для общения с заинтересованными сторонами («шаг»).

Определите всех прямых и косвенных заинтересованных сторон, затронутых проектом и решениями. Вы строите это решение не только для клиентов страховой компании.

Анализ того, поддается ли бизнес-проблема аналитическому решению, инструментам и доступным данным.

Уточните формулировку бизнес-задачи на основе предшествующего анализа и, при необходимости, изобразите известные или возможные ограничения.

Определить выгоды для бизнеса. Выгоды для бизнеса бывают количественными (например, рентабельность инвестиций, чистая приведенная стоимость) и качественными (например, развитие навыков внутри компании). Он управляет установкой приоритетов во время проекта, поскольку у вас всегда будут ограничения по времени и ресурсам.

Получите согласие заинтересованных сторон в отношении формулировки бизнес-задачи, ресурсов, сроков, показателей эффективности и бюджета. В нашем случае используйте доступных экспертов и участников, чтобы договориться о критериях оценки и интерпретации проблемы, инструментов и ограничений.

Наиболее результативные команды уделили этому шагу довольно много времени.

2. Думайте с точки зрения разных заинтересованных сторон.

Несмотря на то, что решение должно решать проблему путешественника, подумайте о других заинтересованных сторонах.

Каковы затраты и выгоды вашей компании от внедрения такого решения? Каково положение людей, которые поддерживают решение, например, в ИТ? Какие навыки и ресурсы доступны? Какие другие заинтересованные стороны затронуты? Турагенства? Отели? Члены семьи клиента страховщика? Юристы и регуляторы? (защита данных или юридические споры, если дан неверный совет).

Определите интересы, потребности, ограничения и потенциальное положительное/отрицательное влияние всех заинтересованных сторон.

Клиенты / клиенты
Потенциальные клиенты
Владеть компанией
ИТ компании
Лицо, принимающее решения в бизнесе

Команды-победители сделали это и рассмотрели свои идеи в решениях. Некоторые из этих команд создали разных персонажей, чтобы отразить и протестировать дизайн решения. Они обосновали все решения, принятые во время хакатона, на основе анализа заинтересованных сторон.

3. UX имеет значение.

Клиентоориентированность — это главное. Лучшее техническое решение не будет иметь никакого применения и спроса, если не будет дан пользовательский опыт.

Оцените решение относительно пользователей и собственного поведения. По возможности протестируйте его на клиентах и покупателях. Позвольте им протестировать ваше решение и понаблюдать за поведением пользователя.

Как они работают с инструментом? Как используются результаты?

Этот подход создал различные функции. Одна команда внедрила перефразирование, когда запрос был двусмысленным. Другой провел перекрестную проверку с общедоступной информацией, чтобы предупредить о возможных изменениях ситуации и дать дополнительные ссылки на информацию. В то время как одни реализовали запасной вариант, возможное ручное взаимодействие в цикле, когда решение не может решить конкретный вопрос, другие прямо предоставили возможность ручной помощи. И последний автоматически перенаправлял пользователей на персональный сервис при появлении определенных триггерных выражений.

Все эти команды сделали это, потому что оценивали взаимодействие пользователей с решением. Одна группа заявила во время презентации: «Мы могли бы пойти дальше с технической точностью, но мы решили сосредоточиться на пользовательском опыте, когда опробовали наше собственное решение после более длительного перерыва и свежего взгляда на него».

4. Будьте независимы от инструментов (и подходов).

Все началось с предоставленного «стартового набора». Они обнаружили недостатки, когда разработали решение и протестировали различные инструменты. Пока половина команд пыталась исправить их в рамках данной экосистемы, другая половина начала экспериментировать с интеграцией других доступных инструментов: AWS с инструментами Azure, GPT-3, TensorFlow для интеграции последних исследований по анализу подобия и так далее.

Оба подхода исправят недостатки. Разница в приоритетах. Вместо того, чтобы заново изобретать велосипед, самые эффективные команды сосредоточились на своем стратегическом и уникальном УТП. То, что вы тоже можете его развить, не означает, что вы должны перестроить его.

Так что пользуйтесь тем, что есть и не изобретайте велосипед. Не стоит ограничиваться только одним провайдером и вкладывать время в разработку уже имеющихся вещей. Сосредоточьтесь на своем уникальном УТП, стратегическом отличии и дополнительных знаниях. Отличие заключается не в технологии, а в умном сочетании с вашим уникальным отличием. Это поможет вам добиться успеха на рынке.

5. Всегда проверяйте результаты на реальных примерах.

В каждом курсе машинного обучения мы учимся обучать и тестировать модель на данных. Затем у нас есть некоторые количественные показатели, выберите один или два и выберите модель. Но этого недостаточно.

Команда-победитель сделала это широко. Они взяли много разных отдельных случаев и протестировали их в реальном мире. Они не были глубокими экспертами по страхованию, поэтому они связались с этими экспертами и оценили вместе с ними в каждом конкретном случае многие точки данных, результат и то, каким должен быть правильный результат. Они накопили огромные знания о реальном мире и о том, как их решение реагирует на него, и соответствующим образом скорректировали алгоритмы. Точность результатов впечатляет.

Вам нужно вдаваться в подробности и выбирать отдельные наблюдения и результаты. Начните с простых случаев и шаг за шагом усложняйте. Сравните каждое наблюдение и результат в каждом конкретном случае с реальным миром. Это значительно улучшит ваше понимание того, как улучшить гипернастройку, настройку параметров и калибровку.

Соединение точек

Эти пять шагов должны применяться к любому проекту по науке о данных. Они проясняют важные темы, которые в первую очередь являются источником провала проекта. Исходя из моего опыта работы в разных отраслях, я бы сказал, что 90% всех проектов по науке о данных, которые не были развернуты, имели проблему по крайней мере с одним из этих пяти.

Мой совет для вашего следующего проекта по науке о данных:

Понимание бизнес-задачи во всех аспектах
Подумайте обо всех различных прямых и косвенных заинтересованных сторонах, их потребностях и проблемах.
Пользовательский опыт делает или ломает ваше решение
Не изобретайте велосипед, а сосредоточьтесь на своем стратегическом УТП
Тест против реального мира

Это значительно повышает вероятность успеха.

Вам нравится моя история?

При присоединении к моему списку рассылки вы будете получать уведомления каждый раз, когда я публикую новую историю, а став участником Medium, вы получаете доступ к тысячам вдохновляющих статей.

Далее чтения:
10 захватывающих примеров применения машинного обучения в здравоохранении
7 потрясающих вакансий в области обработки данных, где вам не нужны навыки программирования
10 ошибок, которых следует избегать новичку в науке о данных