Создание убеждения и доверия в машинном обучении

Motherbrain на Саммите по инновациям в области данных 2023

Второй год подряд компания Motherbrain была выбрана для участия в Саммите по инновациям в области данных в Стокгольме. На этот раз наша презентация была посвящена тому, как мы в Motherbrain пытаемся привить уверенность и доверие к нашим решениям, основанным на машинном обучении.

Надежное решение ML — это решение, которое устраняет четкую болевую точку и дает прогнозы с высокой точностью в хорошо согласованном контексте/области. Он также должен обслуживать правильный сегмент пользователей / клиентов и быть честным / гибким в отношении своих ограничений и уровня неопределенности.

Хотя вышеприведенное определение может показаться немногословным, доверие на самом деле имеет для нас экзистенциальное значение. Завоевание доверия и убежденности означает укрепление доверия. Если наши пользователи — специалисты по инвестициям EQT — не доверяют прогнозам нашей модели, они могут заменить нас внешними консультантами и услугами.

Наша презентация, по сути, резюмирует процесс формирования убеждения в виде трех этапов: (пере)определение нашего понимания пользователями, неустанное улучшение качества наших данных и постоянная переоценка. наши модели и функции. Обратите внимание, что их следует воспринимать не как одноразовые действия, а как непрерывный процесс.

Уточнение понимания пользователей

По мере того, как платформа Motherbrain расширяется за счет увеличения фондов и новых групп пользователей, становится необходимым точно фиксировать наших пользователей и их основные потребности. Для этого абсолютно необходимы наши UX-исследователи и дизайнеры — они проводят интервью в надлежащей форме, повторяют макеты и анализируют, как используется наша платформа. Кульминацией этой работы является определение персон (см. рис. выше) — небольшого количества категорий пользователей с четкими целями и набором потребностей.

Улучшение качества наших данных

Нет абсолютно никакой замены высококачественным данным. Улучшение качества данных обычно означает скоординированные усилия инженеров по данным и специалистов по обработке данных при надлежащем руководстве со стороны бизнес-подразделений. Дедупликация данных, анализ охвата и точности источников данных и соответствующая переприоритизация, ручная маркировка и усилия по очистке — все это стандартные методы улучшения качества данных. В идеале они поддерживаются набором показателей качества данных. В некоторых случаях мы можем проявить смекалку и повысить/улучшить качество данных, объединив несколько несовершенных источников данных в один канонический источник данных — наш коллега Дрю подробно описал один из таких подходов, который мы предприняли. Появление больших языковых моделей (LLM) предлагает дополнительные возможности для обогащения данных.

Переоценка моделей и функций

Важно напомнить себе, что модели машинного обучения — это просто отражение нашего собственного поведения и окружающего мира. Мир представляет собой динамичную систему, и особенно это касается глобальной экономики и частного капитала. Для нас в Motherbrain это означает, что наши пользователи теперь смотрят на разные типы компаний, секторов и географических регионов, и каждый из них через совершенно другую призму. Для некоторых моделей необходимо обновить функции, чтобы отразить это новое поведение, иначе мы упустим некоторые фантастические инвестиционные возможности. А в некоторых случаях всю модель нужно выкинуть просто потому, что ее объем нам уже не актуален. Это важный урок для нас, инженеров машинного обучения — хотя кривые AUC/ROC могут указывать на отличную производительность, в конечном счете именно качественные оценки говорят нам правду. Не привязываться лично к конкретным функциям или моделям — это часть процесса зрелости каждого инженера машинного обучения.

Разлука с мыслями…

В то время как наша презентация на Саммите по инновациям в области данных в этом году очень четко говорила о доверии к решениям ML, на каждом углу саммита была тонкая тема надежности и достоверности, особенно в отношении генеративного ИИ и LLM. На самом деле, внушение убежденности и доверия будет важнее, чем когда-либо — входной барьер для использования ИИ для получения информации и потенциального формирования политики и бизнес-решений находится на самом низком уровне за всю историю. Поэтому становится все более важным, чтобы мы тщательно изучали данные и числа, которые они предоставляют, и действительно задавались вопросом — ДЕЙСТВИТЕЛЬНО ли это рисует правильную картину?