9 фундаментальных концепций оптимизации вашего бизнеса с помощью науки о данных

Если вы достаточно долго посмотрите на набор данных своей компании / бизнеса, вы найдете что-то полезное, чтобы улучшить процесс принятия бизнес-решений. Чем дольше вы смотрите на это, тем больше полезных перспектив вы найдете.

Когда компания начинает интеллектуальный анализ данных и научные исследования для улучшения деловых и операционных решений, нередко можно услышать о приросте выручки в среднем на 50%. Практически каждый аспект бизнеса сейчас исследуется с помощью науки о данных, включая, помимо прочего: 1) поведение клиентов, 2) эффективность маркетинговой кампании, 3) операции, 4) производство, 5) управление цепочкой поставок и 6) процедуры рабочего процесса. Эти данные существуют повсюду - из любого уголка вашей фирмы, прежде чем вам понадобится внешний источник данных для дальнейшей оптимизации того, что вы можете получить от своего собственного.

Здесь я кратко изложил 9 фундаментальных концепций / методов того, как эти аналитические инструменты могут быть развернуты в общих бизнес-условиях:

  1. Классификация и оценка вероятности класса

Мы можем предсказать для каждого покупателя / клиента, к какому из набора классов принадлежит этот покупатель. Примером классификации вопроса может быть: «Среди клиентов Watson Store, которые, вероятно, ответят на данную акцию / предложение. В этом примере 2 класса будут «отвечать» и «не отвечать» для каждого клиента.

Тесно связанной задачей в рамках этой классификации тренировки является подсчет баллов или оценка вероятности класса. Если оценка / вероятность получена для каждого из 2 классов, вместо того, чтобы просто «отвечать» и «не отвечать», мы можем распределить наши ресурсы в соответствии с теми, которые с наибольшей вероятностью ответят, если мы ограничили и / или увеличенный персонализированный маркетинговый бюджет.

2. Сопоставление схожести

Мы также можем попытаться идентифицировать похожих клиентов на основе известных о них данных. Сопоставление схожести можно использовать напрямую для поиска похожих объектов. Это основа для одного из самых популярных методов составления рекомендаций по продуктам (поиск людей, похожих на вас с точки зрения продуктов или процедур, которые вам нравятся или которые вы приобрели). Лучшими примерами являются продукты Amazon и системы рекомендаций по музыке Spotify.

3. Регрессия / оценка ценности

Регрессия - это традиционный, но популярный подход, который пытается оценить или спрогнозировать для каждого покупателя численное значение некоторых переменных для этого покупателя. Примером вопроса может быть: «Сколько клиент будет пользоваться услугой?» Это очень похоже на упомянутую выше классификацию. Разница предсказывается для классов, например. бинарные / категориальные результаты и один прогноз для числовых значений, например. продолжительность лечения / обслуживания, общее затраченное время и общие затраченные деньги.

4. Кластеризация

Этот метод пытается сгруппировать людей / клиентов в группу на основе их сходства, но без какой-либо предварительной информации или указаний. При предварительном исследовании предметной области часто бывает полезно увидеть, какие естественные группы существуют, что впоследствии позволяет сравнивать сгруппированные сформированные группы, что приводит к другим задачам и подходам к интеллектуальному анализу данных. Примером кластеризации может быть вопрос: Формируют ли наши клиенты естественные группы или сегменты?. Обнаружив естественные группы / сегменты у этих клиентов, мы можем спросить: Какие продукты мы должны предлагать или развивать? Как следует структурировать наши группы обслуживания клиентов (или группы продаж)? . Популярными методами кластеризации являются Анализ главных компонентов (PCA) и t-распределенное стохастическое вложение соседей (tSNE).

5. Группирование по совпадению (также известное как частый анализ наборов товаров, обнаружение ассоциативных правил и анализ рыночной корзины)

Сочетание группировки находит связь между сущностями на основе событий, в которых они участвуют. Примером совпадения может быть вопрос: «Какие товары обычно покупаются вместе? В то время как кластеризация группирует объекты на основе сходства атрибутов объектов, совпадение группирует объекты исключительно на основе их появления в одной транзакции / квитанции. Это описание элементов, которые встречаются вместе. Некоторые рекомендательные системы, такие как Amazon, включают эту информацию для каждого продукта - «люди, купившие W, также купили X, Y и / или Z».

6. Профилирование (также известное как описание поведения)

Профилирование пытается охарактеризовать типичное поведение человека, группы или населения. Такое поведение можно описать в целом для всего населения, вплоть до уровня небольших групп или даже отдельных лиц. Он часто используется для установления поведенческих норм для приложений обнаружения аномалий, таких как обнаружение мошенничества и мониторинг вторжений в компьютерные системы.

Например, если мы знаем, какие покупки человек обычно совершает по своей кредитной карте, мы можем определить, соответствует ли новый платеж по карте этому профилю. Мы можем использовать степень несоответствия в качестве порога оценки подозрительности и выдавать сигнал тревоги, если она превышает пороговое значение.

7. Причинно-следственное моделирование

причинное моделирование помогает нам понять, какие события или действия на самом деле влияют на других. Например, учитывая, что мы запустили персонализированную рекламу для целевых клиентов, заметили ли мы, что действительно целевые клиенты покупали по более высокой цене по сравнению с этими нецелевыми клиентами? Было ли это только из-за влияния персонализированной рекламы или есть другой скрытый фактор? Методы причинно-следственного моделирования могут применяться к тем, кто проводит рандомизированный контролируемый эксперимент (так называемые A / B-тесты), где определение лечения, средства контроля и выборка субъектов играют важную роль в успехе этого. моделирование.

8. Прогнозирование ссылки

Прогнозирование связи пытается спрогнозировать связи между элементами данных, обычно предполагая, что ссылка должна существовать, и, возможно, также оценивая ее надежность. Подсказка по ссылкам - обычное дело в социальных сетях: «Поскольку у вас с Сарой десять друзей, возможно, вы захотите подружиться с Сарой». Например, рекомендуя фильмы клиентам, можно представить себе график между клиентами и фильмами, которые они смотрели или оценивали. На графике мы ищем ссылки, которые не существуют между покупателями и фильмами, но предполагаем, что они должны существовать и быть надежными. Эти ссылки служат основой для рекомендаций.

9. Данные / уменьшение размеров

Это наименее распространенный метод среди большинства настроек бизнес-данных. Он пытается взять набор данных с большим количеством переменных (не объемом данных) и уменьшить его до меньшего набора переменных (часто называемых скрытыми функциями). Сжатые характеристики могут лучше раскрыть полезную высокоуровневую информацию из большого количества переменных (часто недостаточно интерпретируемых самой одной переменной). Например, массивные наборы данных о предпочтениях пользователя при просмотре фильмов могут быть сокращены до гораздо меньших сжатых функций, раскрывая вкусовые предпочтения потребителя, которые представлены как одна скрытая функция / фактор в целом (например, предпочтение жанра зрителя фильма) . Иногда это называют факторным анализом. Обычно используется метод Анализ главных компонентов (PCA), который также обычно используется для задач кластеризации, упомянутых выше.

Если вам нравится рассказ выше, подпишитесь и / или аплодируйте. ;) Если вам нужны пояснения, напишите мне в комментариях ниже.

Ссылка: Фостер Провост и Том Фосетт. Наука о данных для бизнеса: что нужно знать о интеллектуальном анализе данных и аналитическом мышлении. O’Reilly Media, Inc., 2013 г. ISBN: 9781449374273