Хорошая команда разработчиков машинного обучения (ML) состоит из нескольких специалистов; от исследований, проектирования и разработки до дизайна, стратегии, управления продуктами и многого другого. Эти специальности могут помочь выявить «слепые зоны» друг друга (создание продуктов, которые одновременно желательны, выполнимы и жизнеспособны), определить дорожную карту для успешных инноваций и сотрудничать для ее реализации. С другой стороны, относительная новизна продуктов машинного обучения — особенно в определенных областях, отраслях и компаниях — означает, что такие команды не имеют доступ к богатым базам знаний (например, ноу-хау, тематические исследования , индивидуальный опыт и рекомендации), к которым более традиционные приложения и продукты (например, в потребительском Интернете) имеют доступ и могут учиться. Хотя время обогатит общую базу знаний сообщества (например, предлагая больше тематических исследований, анекдотов и т. д.), вдохновение из других областей может стать решением этой проблемы в краткосрочной (или среднесрочной) перспективе; области, которые выводят на рынок новые научные концепции с неопределенностями (и потенциальными трансформационными эффектами).

Начнем с сравнения точности модели с ее коммерческим влиянием

В продуктах ML модели являются одними из ключевых функций, без которых продукт не может быть успешным. В продуктах, ориентированных на ИИ, это пойдет еще дальше: не будет продукта без некоторых эффективных моделей машинного обучения. Таким образом, разработчики продуктов довольно часто стремятся повысить точность модели (например, за счет поиска модели, большего количества данных и включения большего количества предварительных знаний) выше определенного порога (например, 90% областей под ROC-кривой для продукта). классификатор). Хотя можно ожидать, что более точная модель будет более полезной, чем менее точная, реальность, однако, может поставить под сомнение этот взгляд на простой одномерный выбор модели, основанный на точности. Например, такие показатели точности обычно неравномерно распределены по различным подгруппам выборки/совокупности; практические соображения (например, скорость и стоимость подготовки входных данных модели) могут сделать сопоставление между такими показателями ML и нижестоящими показателями продукта/бизнеса менее линейным (и даже менее монотонным) и зависящим от ряда других факторов (обычно менее научных и больше руководствуется UX и коммерческими реалиями). Это приводит к вопросам, связанным с лучшими практиками: как определить хорошую/полезную/эффективную/точную модель для продуктов ML/AI?

Медицина занимается такими проблемами уже несколько десятилетий

Хорошая новость заключается в том, что такие проблемы характерны не только для современных продуктов машинного обучения; такие области, как медицина, сталкивались с ними в разных формах и, следовательно, могут помочь найти ответы/вдохновение. Например, давайте рассмотрим оценку таких вмешательств, как вакцины, которая в наши дни стала мейнстримом. Процесс, вероятно, будет проходить через несколько этапов: начиная с доклинической фазы для создания и оценки некоторых гипотез (что может привести к появлению многих кандидатов, которые, вероятно, сработают); переход к фазам рандомизированных клинических испытаний (или РКИ для оценки безопасности и эффективности); и заканчивая массовым распространением (которое произойдет только с очень небольшим процентом доклинических и испытанных кандидатов). Во время массового развертывания такая вакцина будет оцениваться на предмет ее эффективности (т. е. клинические испытания фазы IV); В отличие от эффективности, которая направлена ​​на оценку снижения риска вакцины в хорошо контролируемых/отслеживаемых условиях (т. е. там, где люди, вероятно, будут делать то, о чем их просят), эффективность делает эту оценку в реальных условиях (где люди могут не придерживаются руководства, и контроль и мониторинг минимальны и т. д.). Конечно, эта история и подход не уникальны для вакцин, и это то, как строится и переоценивается доверие к медицинским вмешательствам в целом.

Продукты ML, встреча с медициной

Помните знаменитую фразу «все есть ремикс»? Что ж, я думаю, что продукты машинного обучения в наши дни — от обучения модели на данных наблюдений в автономном режиме (например, в блокнотах Jupyter) вплоть до ее окончательного производства/выпуска и оценки ее эффективности — имеют много общего с тем, что многие медицинские тесты/продукты/процедуры/вмешательства проходят до их утверждения. Поэтому ниже приведены 10 пунктов, которые, как мне кажется, могут помочь продуктам машинного обучения провести параллели между этими двумя мирами.

  1. Почти у всех программных продуктов есть неизвестные — до их производства / запуска — в отношении их эффективности в улучшении некоторых показателей (например, коммерческих или операционных KPI). Я думаю, что продукты машинного обучения имеют дополнительные источники неизвестных, выходящие за рамки продуктов, не связанных с машинным обучением (учитывая степень неопределенности и точность их прогнозов, а также характер их связи с принятием решений пользователями).
  2. Мы можем рассмотреть три режима продуктов машинного обучения: (A) информационный режим (т. е. помогать пользователям работать лучше, предоставляя им нужную информацию в нужное время); (B) вспомогательный режим (т. е. выполнение действий от имени своих пользователей, как при частичной или полной автоматизации); и © режим переосмысления (переработка и переосмысление того, как происходит бизнес / операция, учитывая, что ML может сделать в этом контексте). Все эти три сценария могут быть подвергнуты тщательной оценке (т. е. аналогично тому, что они делают в медицине для оценки эффективности и действенности), когда речь идет о влиянии некоторых моделей машинного обучения на коммерческий успех.
  3. Сегодня информационный режим, вероятно, является одним из наиболее распространенных (и желательных) режимов в принятии важных решений (например, в области здравоохранения и финансов) и в корпоративном программном обеспечении. Это сценарий, который, я думаю, больше всего похож на вмешательство в медицину, когда дело доходит до оценки того, какая часть результатов может быть приписана ИИ, а какая — другими факторами.
  4. Почему важна оценка действенности и эффективности? Создание моделей машинного обучения и их поддержание в производственной среде считается многими фирмами значительными инвестициями (от времени, данных, талантов и исследований до управления изменениями и последующего перехода/трансформации); возможность рассчитать рентабельность таких инвестиций (и их жизнеспособность с течением времени) играет ключевую роль в обосновании таких инвестиций. Кроме того, способность пользователей позволить машинному обучению влиять на их решения будет зависеть от их понимания сильных и слабых сторон таких моделей; такие расчеты могут помочь построить и укрепить доверие между пользователями и машинным обучением.
  5. Конечно, я не думаю, что каждая функция машинного обучения в продукте должна проходить оценку, которую проходят клинические вмешательства. Представьте себе изолированную задачу, которую машинное обучение выполняет с почти идеальной точностью в автономных данных; предположить, что взаимодействие пользователей с продуктом не повлияет ни на производительность модели, ни на принятие решений пользователями, а реальные данные очень похожи на те, на которых модель обучается и оценивается (например, нет дрейфа); такие функции можно просто развернуть на основе данных исследований.
  6. Другая категория, где потребность в таких тщательных исследованиях будет меньше, — это когда стоимость ошибок типа I и типа II очень низка (например, прогнозы с большим количеством пользователей, большими объемами, низкими ставками и непоследовательными прогнозами, такие как многие примеры в потребительском рынке). Интернет, например); здесь, например, можно напрямую оптимизировать коммерческие показатели (а-ля A/B-тестирование), в отличие от процессов, подобных RCT.
  7. Как упоминалось ранее, когда ставки высоки, а пользователи и модели настолько переплетены в достижении конечного результата, подход к количественной оценке воздействия модели будет иметь решающее значение. В качестве первого шага в этом направлении продукты машинного обучения должны определить коммерческие «конечные точки», для которых они планируют оптимизировать; эффективность и результативность определяются на основе таких конечных точек.
  8. Учитывая конечные точки и модель машинного обучения, продуктовые команды могут извлечь выгоду из набора гипотез о том, как перейти от прогнозов к коммерческим конечным точкам; это поможет им определить наиболее многообещающие модели для проведения дорогостоящего процесса оценки, подобного RCT. Конечно, в рамках UX-исследования и в качестве временного процесса пользователи могут взаимодействовать с моделями, чтобы определить такие конечные гипотезы (и быстро протестировать некоторые методологии а-ля бережливого производства). ).
  9. Учитывая набор многообещающих моделей (и связанных с ними UX-гипотез), продукты могут учиться на подходах к планированию экспериментов, которые медицинские исследователи усовершенствовали за последние десятилетия для оценки эффективности; эта статья рассматривает длинный список таких методов как для обсервационных, так и для интервенционных исследований. Обратите внимание, что уже есть статьи и исследования, направленные на более тщательную научную строгость A/B-тестов в сложных обстоятельствах (см., например, эту статью).
  10. Конечно, это не гарантирует решения всех подобных проблем. Например, некоторым конечным точкам требуется длительное время ожидания (например, когда ML прогнозирует риск дефолта компании в финансовой сфере или риск слабоумия в медицине), что выводит их за рамки таких оценок, подобных РКИ. В таких обстоятельствах может помочь сосредоточение внимания на более краткосрочных конечных результатах (например, улучшении некоторых операционных KPI) или альтернативных (например, кредитные события вместо дефолта в финансах или размер гиппокампа вместо клинического диагноза деменции). Кроме того, существуют продукты, которые имеют дело с небольшим числом пользователей и небольшим объемом решений, что затрудняет сбор необходимых образцов для оценки эффективности и действенности.

Это пятая статья из серии статей о разработке продуктов, ориентированных на ИИ (и цифровой трансформации, ориентированной на ИИ), а также о проблемах, возможностях и многом другом. Я хотел бы услышать ваши мысли, а также любые знания и опыт, которые вы и ваша компания можете получить в этом пространстве. Связаться! Конечно, это личное мнение, которое не обязательно отражает точку зрения AIG (или Оксфордского университета).