Технология машинного обучения (МО) может помочь нам извлечь важные сведения из данных, но необходимо понимать, что модель не является самоцелью. Основываясь на опыте взаимодействия BFA с партнерами на ранних стадиях развития на развивающихся рынках, такими как инвеститоры Catalyst Fund, мы увидели последствия поспешного внедрения машинного обучения без четкого понимания лежащих в основе данных. Как бизнес, неправильное прочтение этих данных может привести к тому, что вы будете гоняться за ошибочными гипотезами о потребностях вашего основного набора клиентов, что в крайних случаях может стоить вам всего. На данный момент мы рекомендуем, чтобы финтех-стартапы и другие финансовые учреждения сначала сосредоточились на производстве и уточнении этих данных в качестве топлива для запуска механизма анализа, прежде чем изучать все более сложные модели.

Навигация по ландшафту AI/ML

Искусственный интеллект (ИИ) и машинное обучение — одни из самых модных словечек современности. С увеличением воздействия растет число предприятий и частных лиц, стремящихся включить эти интересные инструменты в структуру своей деятельности.

В этой атмосфере волнения и ажиотажа новаторы и предприниматели, стремящиеся разработать стратегию AI/ML, могут задать целый ряд вопросов:

  • «Должен ли я использовать одну из этих крутых нейронных сетей, о которых я постоянно слышу?»
  • «Является ли простая регрессия слишком простой для рассматриваемой проблемы?»
  • «Есть ли что-то среднее, на что мне следует обратить внимание?»

Ответы кроются в ваших данных.

«Грубая ошибка — теоретизировать, не имея данных. Незаметно человек начинает искажать факты в соответствии с теориями, а не теории в соответствии с фактами».
— Шерлок Холмс

Хотя AI/ML действительно замечательны, чтобы начать ориентироваться в экспоненциально растущем количестве доступных вариантов, требуется определенный уровень благоразумия, опыта и знакомства с вашими базовыми данными.

Данные как топливо

«Информация — это масло 21 века, а аналитика — это двигатель внутреннего сгорания».
— Питер Сондергаард, старший вице-президент по исследованиям в Gartner Inc.

Для механизма машинного обучения данные — это топливо. Точно так же, как гонщик никогда не заправится бензином, предназначенным для газонокосилки, мы не должны обучать сложные модели, «наполненные» некачественными данными. Мы должны сначала внимательно изучить объем, аккуратность и достоверность имеющихся у нас данных, и только затем выбрать подходящую модель, которая позволит нам получить количественную информацию.

В большинстве случаев обучение нейронных сетей и других сложных моделей с нуля похоже на вождение гоночного автомобиля Формулы-1, чтобы пересечь гостиную.

Это означает, что передовые модели машинного обучения могут быть просто замечательными в конкретных ситуациях в правильных условиях: вы находитесь в достаточно большом пространстве, вам нужна высокая производительность, и у вас есть значительное количество «высококачественного топлива ( данные)". Но рассматривать этот подход как готовое решение для любой проблемы часто бывает излишним, потенциально разрушительным и, в конечном счете, может даже не привести вас туда, куда вы хотите. На самом деле, необходимо сначала иметь правильное топливо, чтобы даже пройти стартовую линию.

Основа для выбора правильной модели машинного обучения

Готовность данных: спектр

В работе BFA с организациями, управляемыми данными, в развивающихся странах мы определили то, что мы рассматриваем как явную возможность для бизнеса сократить расходы, в которой современные вычислительные технологии, статистические методы и модели машинного обучения играют важную роль. Мы предполагаем, что это снижение затрат приводит к увеличению чистой выручки предприятия. Например, бизнес-модели с более высокой маржой, более высокий уровень занятости и управляемые сборы за финансовые услуги для населения с низким доходом могут стать достижимыми целями, а не высокими идеалами.

Мы также видели спектр качественных и количественных данных, которые питают прогностические модели этих объектов, которые временами могут больше походить на минивэны или строительные краны, чем на гоночные автомобили. Текущее состояние каждой из этих организаций — будь то финтех-стартап, малый и средний бизнес, финансовое учреждение или финансовый орган — распределено по пути к полной «готовности данных».

В начале пути лежат стратегии генерации и сбора количественных данных: опросы, фокус-группы и инструментирование продуктов. С другой стороны, идеальной целью является полностью автоматизированное машинное обучение, встроенное в операции и непосредственно задействованное в процессе принятия решений.

Система статистики

Процесс генерации данных и прогнозного моделирования машинного обучения («построение модели») должен быть построен таким образом, чтобы он итеративно управлялся новыми идеями («обучение»). Как организация, ориентированная на данные, вы должны подняться по «стеку», опираясь на контекст и опыт, чтобы создавать гипотезы, основанные на данных, которые информируют о количественных характеристиках и моделях машинного обучения.

Не менее важно: вы должны обязательно зафиксировать идеи, полученные с помощью модели, и использовать эти знания для нового, более глубокого понимания контекста для информирования следующей итерации. Оптимизация требует не только фундаментального понимания контекста реального мира, но и механизма обратной связи для информирования следующей итерации.

В рамках этой структуры мы начали вырабатывать представление о том, какие подходы к машинному обучению могут лучше всего работать для объекта, исходя из его положения в спектре готовности данных. В приведенном ниже примере мы основывались на наших контекстуальных знаниях о мелких фермерских хозяйствах, на опыте WorldCover и на данных, полученных в ходе опросов в ходе их полевых исследований. Только ознакомившись с каждым из этих элементов, мы начали исследовать использование этих данных для построения проверяемых гипотез, извлечения соответствующих функций и передачи их на уровень машинного обучения.

Практический пример: применение предиктивной аналитики для конверсии потенциальных клиентов

В рамках недавнего взаимодействия с Catalyst Fund мы сотрудничали с WorldCover для дальнейшего развития отношений с клиентами и доверия к их исследованиям доступных полисов микрострахования на случай засухи для сельскохозяйственных культур мелких фермеров в северной Гане.

В качестве продолжения этого взаимодействия мы сосредоточились на количественном анализе, чтобы помочь WorldCover определить, каким сообществам будет лучше всего отдать предпочтение при посещении с целью продажи, на основе исторических данных из аналогичных сообществ, которые они ранее посещали. Другими словами, мы хотели спрогнозировать наиболее важные факторы, влияющие на продвижение потенциального клиента по воронке продаж WorldCover.

Надев свои исследовательские шляпы, мы начали с изучения их данных, эвристики и гипотез, которые они уже определили и исследовали, а также ключевых показателей, которые они надеялись получить.

Предиктивная аналитика для лид-воронки

Грубо говоря, лид-воронка для мелких фермеров-клиентов состоит из:

  • Шаг 1: Посещение общины для знакомства с фермерами и предоставление им сведений о данном страховом полисе.
  • Шаг 2: Сбор информации от заинтересованных фермеров
  • Шаг 3: Возвращение к сообществу для продажи полисов заинтересованным фермерам
  • Шаг 4. Сбор платежей за приобретенные полисы

Наша цель состояла в том, чтобы использовать любые данные сообщества, доступные до посещения, для определения приоритетности поездок на основе прогнозируемого процента конверсий платежей сообществом. Другими словами, зная результаты шага 1, как мы можем предсказать результаты шага 4? На высоком уровне эти предикторы, доступные после шага 1, включали: демографические данные, данные о погоде, данные опросов и результаты прошлых посещений.

В качестве первого шага мы изучили модели линейной и логистической регрессии, которые являются двумя из самых простых моделей прогнозирующего машинного обучения (например, по сравнению со случайными лесами или нейронными сетями). Относительно быстрая реализация и интуитивно понятные результаты моделей линейной и логистической регрессии означают, что они часто являются кратчайшим путем к полезной информации. Эти модели выявили, какие факторы обладают наибольшей предсказательной силой, а какие можно отбросить. В этом случае обученная модель смогла расставить приоритеты для сообществ таким образом, чтобы их можно было примерно разделить на хорошие для посещения и менее удобные для посещения. Эта первоначальная модель, хотя и не обязательно передовая с технической точки зрения, была достаточной, чтобы показать, как мы можем улучшить процесс сбора данных.

Например, модель выявила тот факт, что первоначальные данные были собраны только от заинтересованных фермеров после Шага 2. Однако данные были бы еще более полезными, если бы они были собраны от всех фермеров в сообществе во время Шага 1. Если бы мы сосредоточившись сначала на обучении сложной модели с более длительной реализацией или менее интуитивным выводом, мы могли упустить это несколько фундаментальное понимание процесса генерации данных в реальной жизни.

«Мы формируем наши здания, а затем они формируют нас».
— Уинстон Черчилль.

Вооружившись этими знаниями, следующий цикл посещений фермеров теперь будет генерировать более актуальные и своевременные данные. Симбиотические процессы генерации данных, построения гипотез, моделирования машинного обучения и извлечения знаний могут продолжать подпитывать друг друга в итерационных циклах для создания оптимальной системы и более сложных методов моделирования по мере необходимости.

Правильная основа для анализа данных

Важным выводом здесь является то, что создание моделей машинного обучения — это не только получение значка «высокотехнологичный» или «не отставание от Джонсов». Скорее, эти технологии являются средством для достижения большей цели, которая заключается в более эффективном и действенном достижении целей вашего бизнеса.

«Цель — превратить данные в информацию, а информацию — в идеи». — Карли Фиорина, бывший генеральный директор Hewlett-Packard Co.

Выбирая модели, которые соответствуют вашим данным, а не вашим личным ожиданиям, вы можете сосредоточиться на получении ценной информации о сборе, организации и оптимизации ваших данных. Только создав этот прочный фундамент, вы сможете обеспечить свой механизм анализа правильным топливом и ускориться в огромном мире мощных и сложных методов машинного обучения.

Первоначально опубликовано на letstalkpayments.com 1 августа 2017 года.

Catalyst Fund уже провел ценную проверку этой концепции готовности данных. Мы планируем изучить больше в наборе инструментов, который будет выпущен позже в этом году. Чтобы быть в курсе последних событий, подпишитесь на Catalyst Fund здесь, на Medium, или узнайте больше на http://catalyst-fund.org/