Вы хотите ML с этим? Почему говорить да, а когда говорить нет

В связи с тем, что в последние два года международные поездки практически исключены, многие люди, где я живу в Австралии, решили путешествовать поближе к дому. Продажи караванов и полноприводных автомобилей зашкаливают. Однако покупка 4WD сопряжена с несколькими компромиссами — они дороги в покупке, дороги в эксплуатации и не очень экологичны. Так почему же выбрать 4WD? Потому что вам нужно ехать по бездорожью.

Хотите погонять по мокрому песку? Через загон для скота? Форд через реку? Отправиться в глубинку? С учетом этого дополнительные расходы, инженерное качество, шины повышенной проходимости, защитные дуги и да, возможно, даже лебедка спереди имеют смысл.

Системы машинного обучения (ML) имеют некоторое сходство с внедорожниками. Дорого в создании, дорого в обслуживании, но есть некоторые бизнес-проблемы, когда использование ML предлагает решения, которые иначе были бы невозможны. И иногда имеет коммерческий смысл решать эти проблемы даже с дополнительными затратами и сложностью. Так как же понять, когда сказать «да» машинному обучению для идеи вашего продукта?

На дорогах и бездорожье — общая стоимость владения

Каждый инженер-программист рано учится стремиться к слабой связи в архитектуре своего решения. Функции, которые зависят от конвейеров машинного обучения, могут привести к хаосу при таком подходе, связывая воедино дизайн UX, уровни передачи данных, операционные системы реального времени с пакетно-ориентированной аналитической обработкой.

Это также первые дни для действительно повсеместного машинного обучения в масштабе. Базовый набор технологий быстро развивается, поставщиков предостаточно, а устоявшихся шаблонов, которым могут следовать молодые команды, все меньше. Хранение и обработка дешевы, но не бесплатны, а продукты со встроенными конвейерами машинного обучения требуют больших объемов данных, как вы не поверите.

Соедините это с раскаленным добела рынком талантов для новых и, следовательно, все еще редких навыков и быстро растущей планкой объяснимости и приемлемого вреда, и легко недооценить общую стоимость владения на порядок или два.

Ответственное вождение (использование данных)

Проводится интенсивное и все более пристальное внимание к тому, создаются ли продукты и услуги, созданные с использованием пыли данных, образующейся в результате наших ежедневных путешествий по цифровому миру, ответственным образом и приводят к справедливым результатам.

Если вы думаете, что технологии решат ваши проблемы, вы не понимаете технологии — и вы не понимаете своих проблем. Учитель медитации Лори Андерсон, художника по машинному обучению в резиденции Австралийского института машинного обучения.

Эти соображения и проблемы не ограничиваются ML внутри продуктов, но так же, как сложность увеличивает общую стоимость владения, сложность алгоритмов ML, требующих обработки данных, увеличивает вероятность непреднамеренного вреда.

Конфиденциальность часто идет вразрез с персонализацией
Риск кодификации морали и предрассудков периода сбора данных

Не используйте кувалду, чтобы расколоть орех

И, наконец, ОД не так часто выгоден, как вы думаете. Машинное обучение все еще является новым и интересным для многих команд разработчиков, поэтому существует тенденция сразу же погружаться в него и предполагать, что изучение шаблонов на основе данных с помощью алгоритмов машинного обучения позволит создать лучший продукт и лучший результат для конечного пользователя. Но благодаря многолетнему опыту я оказался с Google в этом вопросе — если вы можете избежать использования конвейеров обработки данных на основе машинного обучения, вам следует это сделать. Попробуйте таблицы поиска, попробуйте коммерческие API, предоставляемые более крупными и авторитетными игроками. И, безусловно, попробуйте использовать людей для запуска ваших идей с пилотной пользовательской базой.

Если ваши пользователи могут добраться туда, куда им нужно, на Vespa, держите Jeep Wrangler в гараже. Но если вашим пользователям понадобится Jeep Wrangler, тогда читайте дальше.

Когда вам нужна опция 4WD — снижение неопределенности

Если вам посчастливилось работать в компании, богатой данными, где миллионы пользователей ежедневно используют ваше программное обеспечение для упрощения своей жизни, вы все еще можете оказаться в завидном положении, поскольку у вас больше потенциальных возможностей вырваться из 4WD, чем у вас есть возможность пытаться. К счастью, есть еще один фильтр.

Эти два вопроса, используемые параллельно, могут помочь вам избавиться от хороших идей структурированным способом, который проверяет осуществимость и направляет инвестиции в разработку.

«Насколько хорошим он должен быть, чтобы быть полезным?»

«Насколько хорошо мы можем сделать это с сегодняшними данными и рабочими процессами?»

Начнем с первого вопроса: насколько это должно быть хорошо, чтобы быть полезным? Что мы хотим сделать, так это уменьшить неопределенность нашего ответа на этот вопрос. Итак, мы хотим установить некоторые ограничения.

Вы можете получить действительно хорошую оценку этих двух границ с помощью нескольких сессий с доской, некоторых серьезных исследований UX и, возможно, нескольких пилотов, подготовленных людьми. Если вы сообразительны, вам не нужно будет писать ни строчки кода машинного обучения.

Параллельно с этим вам необходимо установить некоторые ограничения на возможность выполнения "Насколько хорошо мы можем сделать это с сегодняшними данными и рабочими процессами?"

Здесь следует учитывать текущие стандарты согласованности, точности и полноты данных. Были ли собраны необходимые вам данные? Какие пробелы? У вас есть разрешение пользователя использовать его для этого нового варианта использования?

Потребуется ли расчет новой услуги почти в реальном времени с использованием только что собранных поведенческих сигналов? Или вы можете удовлетворить своих пользователей вчерашними данными и, следовательно, полагаться на пакетную обработку?

По порядку величины, сколько данных вам может понадобиться для обработки? И какое время логического вывода вам потребуется, чтобы обеспечить бесперебойную работу?

Есть ли у вас закрытые петли обратной связи или вам нужно будет их создать (инструментирование продукта часто упускается из виду в подпитываемой адреналином спешке к MLP и паритету функций, и может потребоваться гораздо больше усилий, чем кажется, чтобы модернизировать всестороннее оборудование до установленного, многоканальная кодовая база.

Как насчет доступности помеченных данных? Подавляющее большинство коммерчески успешных сегодня продуктов машинного обучения построены на алгоритмах обучения с учителем, и для их обучения требуется множество и множество точно помеченных прошлых результатов. Предоставляет ли ваша пользовательская база их уже при использовании вашего продукта сегодня или вам нужно будет вручную пометить загрузочный набор?

Потратив некоторое время на ограничение вашей неопределенности в обоих измерениях, вы окупитесь. Конечно, вы надеетесь увидеть эту картину.

Но что, если это больше похоже на это?

Техническое обслуживание автомобиля — все работы, о которых забывают

Наконец, не становитесь жертвой только рассмотрения работы, необходимой для обучения вашего алгоритма. Сегодня большинство людей будут думать об обучении и оценке моделей. Надеюсь, вы также поймете, что вам нужно будет ПЕРЕОБУЧАТЬ модели. И перераспределить их.

Добавьте к этому работу, чтобы улучшить замкнутый цикл обратной связи — как качество данных, так и точность этикеток. Вам также понадобится целостный и надежный способ управления разделением аудитории, если вы хотите запустить в производство множество моделей или версий моделей. Если у вас нет очень простого продукта и пользовательской базы, существует скрытый мир сложности в разделении аудитории для взаимодействия с продуктом, который разыгрывается в течение более длительного периода времени, чем «какой текст кнопки дает мне самый высокий коэффициент конверсии корзины».

Вы также можете обнаружить, что у вас есть внутренние проблемы с управлением изменениями, если вы автоматизируете работу, которую в настоящее время выполняют ваши коллеги из службы поддержки клиентов или продаж. Требуется время, чтобы поверить, что машина действительно может выполнять достойную работу.

4WD — или нет?

Итак, мы видим, что системы машинного обучения имеют некоторое сходство с внедорожниками. Дорого в создании, дорого в обслуживании — но для некоторых бизнес-проблем машинное обучение предлагает полезное решение. Настоящая хитрость заключается в том, чтобы выяснить, добавляет ли машинное обучение ценность.

Общая стоимость владения, ответственное использование и техническое обслуживание — все это факторы, но ключевыми вопросами являются "Насколько хорошим он должен быть, чтобы быть полезным?" и "Насколько хорошим мы можем сделать его с помощью сегодняшние данные и рабочие процессы?» Выяснение того, есть ли совпадение между границами практичности и «может быть полезным», — это первый шаг к выяснению того, хотите ли вы ML с этим.