Введение

В первой части этой короткой серии статей о том, как применять машинное обучение в процессе проектирования услуг, я расскажу о неконтролируемом обучении. В следующей статье будет изложено интуитивное понимание этого класса алгоритмов машинного обучения, а также попытка объяснить, почему они могут быть полезны в контексте проектирования, и будет рассмотрен простой пример.

Неконтролируемое обучение — очень захватывающий класс алгоритмов, поскольку он представляет собой будущее искусственных и сверхинтеллектуальных вычислительных систем. В наших небольших примерах ниже мы, очевидно, только пересмотрим очень простую модель обучения без учителя, но потенциал их применения в нашей жизни огромен.

Что такое обучение без учителя?

Вкратце, алгоритмы машинного обучения можно разделить на три основных класса: контролируемое, неконтролируемое и обучение с подкреплением. Как отмечалось ранее, в этой статье мы сосредоточимся на моделях обучения без учителя, а точнее на кластеризации.

Задачи обучения без учителя, в отличие от задач обучения с учителем, работают с немаркированными данными, что означает, что у нас нет определенной целевой переменной y, которую мы хотим предсказать. Вместо этого мы используем обучающие данные для изучения шаблонов, которые помогают нам автоматически находить группы точек данных со схожими свойствами. Это называется неконтролируемым обучением, потому что мы не знаем заранее, что это за группы.

Одним из самых популярных методов обучения без учителя является кластеризация, в частности, в приведенном ниже примере мы будем работать с алгоритмом K-Means и анализом основных компонентов (PCA), который помогите нам визуализировать наши результаты. Не вдаваясь в сложную математику, лежащую в основе этих алгоритмов, K-Means работает путем случайного определения так называемых центроидов, которые определяют центр конкретной группы. Затем алгоритм итеративно пытается оптимизировать евклидово расстояние от каждой точки до соответствующего ближайшего центроида в наборе данных.

K-Means — это очень простой и надежный алгоритм для реализации, он существует уже много лет и доказал свою эффективность в смежных с сервисным дизайном отраслях, таких как маркетинг. Модель по большей части умеренно точна и может быть легко оценена людьми, не имеющими инженерного образования.

Пример успеха

Чтобы лучше понять, как именно неконтролируемое обучение можно сочетать с методологиями проектирования услуг, я проведу вас через простой пример из практики.

Представим себе ситуацию, когда нас попросили поработать над консалтинговым проектом для крупного ритейлера. Клиент хочет лучше понять, кто его клиенты и каково их покупательское поведение. Цель — улучшить товарооборот. Ключевой задачей консультанта в такой ситуации является начало работы по сегментации клиентов. Обычно сервис-дизайнер начинает проводить первичные исследования. Собирая информацию из первых рук с помощью полуструктурированных интервью, он может быстро выявлять тенденции и создавать образы/архетипы. Как показано на изображении (приложение 1.1), эти профили клиентов создают повествование о ситуации. Хотя я не умаляю важности персонажей, часто им не хватает строгости и они склонны чрезмерно обобщать. Вот где данные могут помочь.

Крупные компании постоянно совершенствуют свою инфраструктуру данных. Почти каждая крупная компания собирает детализированные данные в легкодоступных базах данных. Эта информация может информировать и подтверждать наши первичные исследования. В этом примере мы смоделируем очень простое упражнение по кластеризации с помощью популярного набора данных от Kaggle. Для простоты примера я выбрал набор данных только с пятью переменными (пример 1.2.1). Мы будем использовать кластеризацию K-Means для выявления различных групп клиентов с похожими свойствами из этого набора данных.

Реализация кластеризации K-Means довольно проста, и ее можно написать в пару строк с помощью scikit-learn — библиотеки машинного обучения с открытым исходным кодом. Выходные данные кода обеспечивают показатель точности, который можно сравнить с базовой линией или другими моделями. Кроме того, мы можем исследовать свойства и конкретные детали каждой группы клиентов.

После подгонки модели мы можем заметить, что, например, кластер 0 имеет средний возраст 33 года (рис. 1.3.1), второй по величине доход и показатель расходов 82. По сути, это совокупный балл, который оператор торгового центра присваивает каждому покупателю в зависимости от объема и частоты покупок. Эта группа клиентов, вероятно, будет самой ценной для рассматриваемой компании. Напротив, кластер 3 имеет самый низкий показатель расходов. Логично, что возникнут вопросы о причине отсутствия дохода от этого конкретного потребительского сегмента.

Анализируя таблицу кластеров, мы можем ясно увидеть потенциал собранной информации. Хотя набор данных включает только четыре переменные, мы обнаружили кластеры клиентов с разным поведением и демографическими данными. Мы также можем визуализировать группы, выполнив анализ основных компонентов и нанеся каждую точку на график рассеяния (пример 1.3.2). Оси x и y не являются непосредственно информативными, когда мы использовали PCA, мы в основном уменьшали гиперпространство до упрощенного двумерного графика, который легче визуализировать, но ось не представляет одну конкретную переменную; поэтому для анализа ими можно пренебречь. В итоге мы получаем график с 4 кластерами, которые четко пространственно отделены друг от друга.

Упражнение по кластеризации, описанное выше, представляет собой важную задачу, которая может очень быстро дать глубокое понимание. Тем не менее, как вы могли заметить, собранная информация просто обобщает схожие модели поведения потребителей, но не объясняет причину их поведения — почему люди в кластере 3 не тратят деньги? Данные не могут описать значение и контекст конкретной ситуации. Данные сами по себе практически бесполезны, без понимания контекста и мотивации потребителей, ведущих себя определенным образом, мы не можем реально помочь нашему клиенту улучшить его товарооборот. Вот где действительно могут проявить себя методологии проектирования услуг.

Структура

Если мы сравниваем качественные данные и количественный анализ данных, мы часто оказываемся в ситуации, когда мы рассматриваем либо одно, либо другое. В компании, ориентированной на данные, мы склонны отдавать приоритет выводам, основанным на данных, вместо этого, если компания ориентирована на дизайн, мы будем уделять больше внимания качественной части исследования. Но я утверждаю, что ни один из них сам по себе не является действительно полезным, и только вместе мы можем сделать вывод о выводах.

Если мы рассмотрим приведенный выше пример, мы можем признать, что персоны недостаточно точны и что анализ данных не объясняет причины и мотивы клиентов. Но в сочетании эти два анализа могут весьма аккуратно дополнять друг друга. На самом деле между дизайнерами и инженерами данных должна быть постоянная связь.

Как показано на диаграмме ниже, хороший способ сегментации поведения клиентов можно резюмировать следующим образом. Я предлагаю, чтобы в начале проекта дизайнеры и инженеры данных начали проводить соответствующий анализ отдельно. Дизайнеры займутся первичными исследованиями и проведут семинары, в то время как команда данных начнет кластерный анализ. В конце исследования обе команды могут поделиться своей работой друг с другом. Дизайнеры подготовят персонажей и архетипы, а группа данных обнаружит кластеры/группы клиентов с одинаковыми шаблонами данных. Суть в том, чтобы объединить две команды, сообщить друг другу о своих выводах и посмотреть, где качественные и количественные исследования имеют некоторые общие идеи/тенденции — где качественные и количественные данные пересекаются. Качественное исследование дает контекст, «очеловечивает» данные и создает повествование вокруг более строгих количественных результатов. Метафорически мы могли бы сказать, что персоны воплощают в себе данные и «придают лицо» в основном безличным статистическим результатам модели кластеризации. С другой стороны, анализ данных подкрепляет качественное исследование строгостью цифр и статистики — он также может помочь предотвратить предвзятость, поскольку алгоритмы могут анализировать более широкий круг клиентов.

В случае поведенческого анализа, используя комбинацию как количественных, так и качественных, мы можем получить результат, который является статистически значимым и в то же время не упускает из виду людей, которые на самом деле стоят за точками данных.

Заключение

Данные и машинное обучение из-за популярных документальных фильмов и книг в последнее время привлекают много негативного внимания. Принятие деструктивного и луддитского подхода к машинному обучению может быть не лучшим путем. Данные здесь, чтобы остаться, поэтому мы должны научиться использовать их во благо. Объединение человеческого понимания с машинным интеллектом может стать первым шагом к полезному симбиозу человека и машины. Важность этой идеи будет общей нитью на протяжении всех четырех статей. Тем не менее, применение моделей машинного обучения для сегментации поведения клиентов на данный момент кажется самой простой и простой задачей, которую можно применить к типичному процессу проектирования услуг. Из-за простоты реализации настоятельно рекомендуется начать применять эти инструменты и методы в будущих проектах по дизайну услуг.