В бизнесе аналитика и наука о данных часто используются для лучшего понимания клиента, а результаты часто выражаются в терминах среднего клиента: средний доход, средняя доходность, среднее количество просмотров страниц….

Подобные средние значения легко вычислить и легко понять, что делает их отличной отправной точкой для большинства анализов и эффективным инструментом для передачи информации. Например, эта статья содержит в среднем 21,3 слова в предложении, что дает представление о тоне и сложности ее содержания.

Но простое среднее также может быть весьма обманчивым, отчасти потому, что мы хорошо с ним знакомы. Среднее - или среднее - часто является первой статистикой, которую узнают многие из нас, и той, которую мы чаще всего используем в нашей повседневной жизни.

Опасность заключается в несоответствии математической точности средних значений и их частой интерпретации.

Люди обычно предполагают, что «средний» означает «типичный», поэтому мы склонны определять показатели производительности в терминах среднего, полагая, что они представляют типичного клиента или типичное клиентское впечатление. Но средние значения могут на самом деле сделать более трудным отслеживать, как обстоят дела в бизнесе, потенциально скрывая серьезные проблемы или отправляя людей в погоню за проблемами, которых не существует.

Что на самом деле означает "средний"

Среднее значение является основой выводимой статистики, которая в основном занимается рассуждениями о неизвестном. Поэтому, хотя я охарактеризовал средний доход на одного клиента как потенциально опасный показатель, при правильном использовании он может помочь нам смоделировать совокупный доход компании и оценить, что произойдет, если мы удвоим клиентскую базу. В других отраслях средние значения и построенные на них статистические модели помогают оценивать финансовые риски, прогнозировать эффективность лекарств, использовать искусственный интеллект и многое другое.

Чтобы понять роль, которую среднее играет во всем этом, мы можем взглянуть на одну из простейших параметрических моделей, которая позволяет нам описывать целые наборы данных всего двумя параметрами: среднее (μ ) и стандартное отклонение (σ).

Для любого набора данных, который имеет нормальное распределение (т. Е. Выглядит как колоколообразная кривая), среднее значение говорит нам, где находится центр кривой:

А стандартное отклонение говорит нам, насколько широк колокол:

Условно мы можем написать N (μ, σ ²), который описывает нормальное распределение с указанным средним значением и дисперсией (т. Е. Квадрат среднеквадратичное отклонение).

Чтобы проиллюстрировать это, я буду использовать данные полумарафона до COVID, Половина дня труда за 2019 год. После гонки результаты были опубликованы на веб-сайте мероприятия, предоставив данные примерно для 800 участников. Условно говоря, 800 записей - это небольшой набор данных, но он слишком велик, чтобы его можно было просмотреть. Я не мог просто отсканировать такую ​​большую таблицу, чтобы получить общее представление о времени финиша бегунов, и не мог включить таблицу с 800 строками в такую ​​статью.

Как это часто бывает, нам нужен более эффективный способ описания этих данных и обмена идеями.

Сами по себе только μ и σ говорят нам о многом, но они могут рассказать нам гораздо больше, когда их используют в качестве параметров для моделирования генеральной совокупности.

Ниже гистограмма показывает относительное количество людей, пробежавших каждый темп, взятую непосредственно из набора из примерно 800 записей. Синяя кривая представляет собой нормальное распределение - а именно, N (10.1, 7.7) - с μ и σ, рассчитанными по приведенным выше уравнениям. Ось x - это темп бега, а ось y - плотность, относительная вероятность того, что участники пробежат этот темп.

Кривая неплохо аппроксимирует общее распределение времени темпа бегунов, но с двумя параметрами вместо 800 записей.

Однако вы заметите, что левая часть гистограммы резко усечена (потому что никто не бежал быстрее 5-минутного темпа), в то время как кривая нормального распределения плавная вплоть до 0:00 (потому что она не может охватить реальные ограничения бегунов).

Кривая также показывает роль, которую среднее (μ) играет в нашей модели. Пик говорит нам о том, что темп, в котором бежало большинство людей, находился в пределах 10-минутного диапазона.

Стандартное отклонение (σ) увидеть труднее. Мы знаем, что это как-то связано с шириной нашей колоколообразной кривой, но большинству людей будет сложно оценить σ, просто взглянув на диаграмму. Конечно, они вряд ли будут делать математические вычисления в уме: это потребует суммирования квадратов разностей от среднего, извлечения квадратного корня и - в случае выборочных данных - применения поправки Бесселя.

Это одна из причин, по которой люди уделяют больше внимания среднему значению: концепция одновременно проста и информативна, и ее намного легче понять, чем стандартное отклонение.

Однако, опять же, комфорт, который мы воспринимаем в среднем, является одной из причин, по которой оно может вводить в заблуждение.

Нормальность - это миф

Присмотревшись к нашей модели полумарафона, вы заметите, что кривая подошла бы лучше, если бы она была немного смещена влево. Основные причины: 1) меньше людей бежало со скоростью ниже 5 минут, чем ожидалось в нашей модели, и 2) больше людей бежало с темпом от 15 до 20 минут, чем ожидалось.

Ранее я указывал, что наша параметрическая модель предполагает, что наши данные «нормально распределены». Это предостережение важно, иначе центр и ширина нашей колоколообразной кривой не будут соответствовать распределению данных.

К сожалению, данные редко бывают нормальными. Рой Гири предложил, чтобы все учебники начинались с предупреждения о том, что «нормальность - это миф; нормального распределения никогда не было и не будет »(Biometrika, v 36, p 241).

Почему мы (все еще) заботимся о дистрибутивах

В конце концов, мы не можем описать распределение, чем оно не. Я не могу использовать статистические свойства распределения, особенно его вероятности, если не могу определить, что это есть. Это все равно, что пытаться использовать подбрасывание монеты для предсказания броска игральных костей.

Опять же, наши данные о гонках помогают проиллюстрировать эти концепции.

Мы уже знаем, что распределение времени темпа не совсем нормальное, но нам нужно снова спросить «почему»: если в процессе сбора данных были какие-то ошибки, нам, возможно, придется очистить данные. Но если эти данные чистые, нам нужно по-другому моделировать результаты.

Полезны некоторые знания предметной области. Во-первых, мировой рекорд полумарафона в настоящее время составляет 58:01, поэтому самый быстрый темп, который когда-либо пробегал кто-либо, когда-либо составляет около 4,4-минутного темпа. Наш местный победитель финишировал за 65:25, что составляет 5,0 минут. (Как оказалось, он спортсмен мирового класса.) С другой стороны, наш полумарафон был объявлен «бегом / ходьбой» с отсечкой в ​​четыре часа, так что это был самый медленный из возможных вариантов. темп был примерно 18,3-минутным. Ясно, что некоторые люди шли.

Такое сочетание бегунов и ходоков объясняет, почему наши данные не являются нормальными, но также усложняет наш анализ, потому что наше среднее значение не совсем «среднее».

Бегуны и ходунки

Если я организатор гонок, то знание того, что у меня есть как бегуны, так и ходунки, помогает мне планировать их отдельные потребности. В бизнесе у меня не будет бегунов и пешеходов, но у меня может быть две группы клиентов: одни тратят 50 долларов в месяц, а другие тратят 5000 долларов в месяц. Однако я снова хочу понять состав моей клиентской базы, различия, которые характеризуют каждую когорту, и то, что мне нужно сделать, чтобы наилучшим образом удовлетворить их потребности.

Вместо того, чтобы угадывать размер и форму моих когорт - или искусственно навязывать их - я хочу, чтобы данные указывали мне, где они находятся. В данном случае я хочу, чтобы данные отражали средние темпы бегунов и ходоков.

Чтобы лучше понять, как это сделать, давайте посмотрим на результаты гонки на 5 км. Гораздо чаще люди проходят 5 км, поэтому влияние ходьбы на общие результаты будет легче увидеть. Мы будем использовать данные из Microsoft Virtual 5k, размещенного в 2020 году.

Если мы моделируем результаты 5k так же, как и раньше, вычисляя μ и σ, а затем генерируя нормальное распределение, результирующая колоколообразная кривая будет - как и ожидалось - гораздо менее репрезентативной для фактические данные. Опять же, гистограмма представляет собой распределение шагов участников на 5 км, а синяя кривая - наше нормальное распределение, N (12,0, 15,9).

Просто посмотрев на распределение шагов на 5 км, мы увидим, что это определенно ненормально. Но если бы у нас не было диаграммы, мы могли бы полагаться на практическое правило простого сравнения медианы со средним. Для данных, которые действительно нормально распределены, среднее значение будет равно медиане (и режиму):

В наших результатах 5k среднее значение = 12,0, медиана = 10,9 и мода = 9,4.

Наложение среднего значения, медианы и режима на диаграмму позволяет легче увидеть, насколько различаются эти статистические данные. Что еще более важно (для целей этой статьи), очевидно, что среднее не представляет собой типичный темп бегуна. Этот режим на самом деле гораздо более типичный.

Модели смесей

Фактически, поскольку наш 5k был смесью бегунов и пешеходов, у нас есть два режима: по одному для каждой группы. Так как бегунов было больше, их режим - больший из двух пиков на нашей гистограмме (и такой же, как режим для всей популяции), приходящийся на 9,4 минуты. Режим для пешеходов - меньший пик, ближе 18 или 19 минут.

Эти два режима говорят нам, что результаты для бегунов и пешеходов достаточно разные, чтобы мы могли моделировать их как отдельные популяции. Фактически, раса представляла собой смесь двух субпопуляций, каждая из которых характеризовалась своим собственным нормальным распределением. Чтобы изолировать их, мы можем использовать метод, известный как максимизация ожидания (EM), который использует оценки вероятности для итеративного сужения определяющих характеристик наших подгрупп населения.

Ниже красная кривая аппроксимирует бегунов как N (9.9, 3.8), а синяя кривая аппроксимирует бегунов как N (17.6, 5.0). Это соответствует нашим данным намного лучше, чем простое нормальное распределение: пики обеих кривых более точно совпадают с пиками гистограммы.

Кроме того, вы заметите, что в промежутке между нашими кривыми (примерно на 14-минутной отметке, ± 1 минута) столбцы гистограммы поднимаются выше, чем любая из отдельных кривых. Это потому, что две кривые аддитивны: гистограмма представляет собой сумму красной и синей кривых.

Когда мы рассматривали всех участников как одну популяцию, сводная статистика не соответствовала нашему простому практическому правилу для нормального распределения: среднее значение, медиана и мода были разными.

После разделения бегунов и ходоков сводные статистические данные для обеих подгрупп стали намного ближе друг к другу.

Если бы мы серьезно относились к оценке соответствия наших моделей, мы могли бы использовать тест согласия, такой как Андерсон-Дарлинг, чтобы определить, являются ли наши подгруппы достаточно нормальными для дальнейшего анализа, но это выходит за рамки данной статьи. Суть в том, что наши результаты 5k соответствуют бимодальному распределению, и мы определили эффективный метод выделения субпопуляций.

Более того, средний темп мероприятия ни для кого не «типичен». Нам нужно было разделить бегунов и пешеходов, чтобы найти средние значения, которые являются репрезентативными для этих подгрупп.

Пример из реального мира

Эффект более выражен, когда у нас есть экстремальные выбросы.

Рассмотрим пример из реального бизнеса. Одна из служб поддержки Microsoft хотела убедиться, что они отвечают на запросы клиентов своевременно и эффективно. Чтобы отслеживать производительность, они решили измерить свое среднее время до разрешения и поставили себе цель уменьшать это среднее значение на периодической основе.

Однако они быстро поняли, что один или два обращения в службу поддержки - если на их рассмотрение уходит необычно много времени (например, дни или недели вместо минут или часов) - могут значительно увеличить их средний показатель. Это были сложные дела, поэтому имело смысл, что на их разрешение уходит больше времени. Но период за периодом команда неизменно сталкивалась с несколькими из этих сложных случаев, и их среднее время до разрешения резко возрастало. В результате они редко достигали своей цели, и люди начали терять веру - и интерес - к КПЭ.

Было бы несправедливо наказывать всю команду за одно или два сложных случая, но они также не могли исключать сложные случаи из своих результатов: никому не нужен был KPI, который можно было бы улучшить.

Решение было простым, но требовало пересмотра ключевых показателей эффективности. Б. Нельсон, один из специалистов по анализу данных в моей команде, помогла им распознать влияние средних значений на их KPI, и она предложила пересмотреть его в терминах, более приближенных к их цели: разрешать дела в сроки мирового уровня. Вместо измерения среднего времени до разрешения новый KPI измеряет процент обращений, которые были разрешены в установленные сроки. Таким образом, они могли включать сложные случаи в свои KPI, но аномалии больше не оказывали чрезмерного влияния на их общие результаты.

Каждый клиент уникален

По замыслу, среднее значение сокращает большие - иногда чрезвычайно большие - объемы данных до одного числа. Но «средний» не обязательно означает «типичный», как его часто интерпретируют. Как специалисты по обработке данных, мы должны внимательно относиться к тому, как мы вычисляем средние значения и как мы используем их в бизнес-показателях, чтобы быть уверенным, что мы делились ясной информацией с нашими заинтересованными сторонами.

Даже в этом случае нам следует избегать любой конструкции, которая побуждает нас думать о клиентах с точки зрения среднего или типичного: нам гораздо лучше помнить, что каждый клиент уникален.