Итак, вы менеджер по продукту, которому нужно быстро учиться, чтобы взяться за проект машинного обучения. Когда я начал этот путь около года назад, у меня возникло искушение присоединиться к инженерам моей команды и пройти курс машинного обучения. Проблема заключалась в том, что 99% курсов машинного обучения не были предназначены для менеджеров по продукту. Они отлично помогли нашим инженерам и специалистам по обработке данных получить основы для начала работы, но они не помогли мне в работе.

Вот что я предлагаю сделать вместо этого. В этой статье я подробно расскажу о трех конкретных шагах, которые должны сделать менеджеры по продукту, чтобы начать работу с машинным обучением. На каждом этапе я буду приводить пример из своей работы в eSpark Learning и предлагать применить его в вашем проекте.

1. Определите ценные, действенные результаты

Может возникнуть соблазн погрузиться в технологию, чтобы понять, что вам нужно делать, но как менеджер по продукту вы должны в первую очередь сосредоточиться на ценности для бизнеса.

Несмотря на то, что существует множество более продвинутых подходов, наиболее распространенные коммерческие реализации машинного обучения сводятся к созданию системы, которая будет точно предсказывать выходные данные на основе входных данных. Это работает так: вы вводите в модели достаточное количество существующих примеров как входов, так и выходов, чтобы учиться на них. Затем модель может самостоятельно генерировать выходные данные. Классическое приложение - классификация спама. Gmail обучил модель с миллионами электронных писем, которые были вручную определены пользователями как спам. Теперь система может принимать новые электронные письма (ввод) и автоматически отмечать сообщения как спам (вывод). Поэтому самое важное для начала - это определить, какой результат будет ценным на основе ваших входов.

«Назначение PM, отвечающего за сбор набора тестов
, - один из наиболее эффективных процессов, позволяющих PM указать, что им действительно важно. »

- Искусственный интеллект - это новое электричество, профессор Стэнфордского университета Эндрю Нг

Пример. В случае с eSpark у нас был письменный продукт для учеников 4–8 классов. Мы хотели предоставить полезные отзывы о письмах учеников ученикам, учителям и руководителям школ. В нашем продукте уже использовались четыре категории рубрики для оценки коллег и учителей: Цель, Организация, Доказательства / Разработка и Соглашения. Проблема заключалась в том, что получение оценок только по этим категориям высокого уровня было не очень полезно для наших заинтересованных сторон. Нам нужна была обратная связь, чтобы она была конкретной и действенной.

Это привело нас к разработке 12-балльной рубрики с такими элементами, как эффективное введение, цитирование источников и правильное использование заглавных букв. Мы знали, что если сможем точно предсказать, как учащиеся справятся с этими элементами, мы сможем предоставить действенную обратную связь. Однако это было больше похоже на процесс обнаружения, чем на процесс доставки. В первые несколько месяцев мы несколько раз меняли рубрику, поскольку мы узнали о том, что, вероятно, будет работать с инженерной точки зрения, но по-прежнему будет полезно для школьных партнеров.

Ваша очередь: попробуйте создать электронную таблицу с подмножеством ваших данных. В одном столбце у вас есть источники ввода (например, текст, видео), в других столбцах - результаты или прогнозы (например, классификации, оценки), которые вы хотите, чтобы ваша модель генерировала. Этот шаг не требует каких-либо существующих моделей машинного обучения или опыта. Для определения того, какие входные данные у вас есть, и какая информация будет ценной для ваших пользователей, просто требуются знания в предметной области и в бизнесе. Этот набор данных облегчит разговор с вашей командой разработчиков о целесообразности и ценности, чтобы выделить предположения, которые вам, возможно, придется проверить.

2. Создайте стратегию обработки данных, которая немедленно приносит пользу

Как продукту-лидеру вам необходимо определить видение того, как вы создадите маховик, увеличивающий объем ваших структурированных данных (входы + выходы). Со временем это улучшит ваши продукты. Мы быстро поняли, что собрать достаточно структурированных данных труднее, чем найти правильную модель машинного обучения. Не выходите и не нанимайте эксперта или консультанта по машинному обучению, пока не разработаете свою стратегию обработки данных.

«Хорошо планировать все великие дела, которые вы можете сделать с данными, собранными в будущем, но вы должны предложить некоторую немедленную ценность, чтобы люди оставались рядом».

- 12 советов по разработке и управлению продуктом, управляемым искусственным интеллектом, автор Venture Beat Уилл Мерфи.

Пример. В нашем случае стратегия данных заключалась в использовании профессиональных оценщиков для оценки сочинений учащихся. Мы немедленно использовали эти результаты для создания отчетов для учителей и администраторов школ. Мы создали внутренний инструмент оценки, адаптированный к нашему варианту использования, чтобы повысить эффективность. Наше видение заключается в том, что со временем все больше элементов рубрики будут автоматизированы с помощью машинного обучения, что позволит нам в режиме реального времени доставлять отзывы непосредственно учащимся.

Ваша очередь. Обсудите и напишите ответы на эти вопросы со своей командой:

  1. Как вы будете получать данные сейчас и в будущем? Будут ли ваши пользователи генерировать его в продукте, или вы передадите его на платформу (например, Amazon mTurk, Figure Eight) или наймете для этого экспертов в предметной области?
  2. Как вы сразу же получите от этого выгоду?

3. Определите показатели успеха

Вам нужно направить свою команду на показатели так же, как и на достижение других целей команды. Одна из проблем, связанных с техническими курсами машинного обучения, заключается в том, что вы будете учиться внедрять различные модели, когда вам на самом деле не нужно знать эти детали. Хотя знание моделей на высоком уровне помогает, ваше основное внимание должно быть сосредоточено на понимании метрик для их оценки и качестве данных, которые их обучают.

Если вы предполагаете, что ваша система будет допускать некоторые ошибки, ваша задача - расставить их по приоритетам. Чтобы использовать пример спама, лучше ли пропустить некоторые спам-сообщения, которые появляются в папке «Входящие», или найти все спам-сообщения, но также отправить некоторые настоящие сообщения в папку «Спам»? Кроме того, убедитесь, что у вас есть данные о влиянии на ваших пользователей, потому что отличная модель не гарантирует хорошего впечатления.

«Ваша система машинного обучения будет делать ошибки ... Хотя все ошибки аналогичны системе машинного обучения, не все ошибки одинаковы для всех».

- Человеко-ориентированное машинное обучение дизайнеров Google Джоша Лавджоя и Джесс Холбрук.

Пример. В нашем случае мы только сейчас получаем достаточно данных, чтобы применить несколько простых моделей, чтобы предоставить учащимся обратную связь в режиме реального времени. При этом мы рассмотрели несколько показателей:

Качество данных. Хорошим показателем для нас было согласие между классами. Мы попросили нескольких оценщиков оценить некоторые работы учащихся, чтобы узнать, как часто они соглашаются. Затем мы обратились к оценщикам, чтобы прояснить двусмысленность или отметить проблемы.

Качество модели: мы на раннем этапе сосредоточились на точности, а не на отзыве, чтобы завоевать доверие студентов и учителей. Это означает, что некоторые студенты не получат отзывов, которые помогли бы им, но мы гарантируем, что отзывы, которые мы им даем, актуальны.

Ценность для пользователей: мы отслеживаем скорость, с которой учащиеся включают наши отзывы в свои окончательные проекты. Это дает нам представление о влиянии каждого отзыва на письмо учащегося. Рассмотрим простой пример. Примерно треть студентов, получивших наш отзыв на тему «Продолжайте писать!» вообще-то писал более длинные черновики!

Ваша очередь: ознакомьтесь с основами показателей машинного обучения здесь. Затем наметьте свои собственные показатели:

  1. Качество данных: как вы будете проверять свои данные?
  2. Качество модели: каковы цели производительности модели?
  3. Ценность для пользователей: как узнать, работает ли это для пользователей?

Мир машинного обучения - это увлекательный мир, который, несомненно, изменит будущее. Надеюсь, вам понравится ваше обучение так же, как и мне.

Если вам интересно узнать больше, вот несколько возможностей:

  • (Чикаго) Давайте встретимся: приходите на мероприятие по машинному обучению Женщины в продукте Чикаго 13 сентября. Я поговорю с несколькими другими замечательными женщинами-экспертами по машинному обучению.
  • (SF) Пройдите курс, предназначенный для менеджеров по продуктам: в Университете Сан-Франциско действует новая программа сертификации Data Science for Product Manager. Хелен Моу, потрясающий менеджер по Shopify, работающий над машинным обучением, ведет курс. На онлайн-курсе Эндрю Нг также есть отличные видео.

Пожалуйста, дайте мне знать в комментариях любую дополнительную информацию, вопросы или вопросы, которые у вас возникают. Я учту их для будущих публикаций в блоге!