Битва между машинным обучением и статистикой…

… и как это влияет на статистику потребителей

Поскольку потребители предоставляют так много точек данных с помощью любого количества методов сбора информации, крайне важно, чтобы компании использовали стратегический подход к анализу, особенно когда демографические данные перестают быть достаточными. Кроме того, эффективное исследование потребителей должно выяснить, «почему» их поведение и предпочтения, чтобы выжить в конкурентной среде и обеспечить будущее.

Все это вызывает вопрос, а как? Исследователи часто обсуждают эффективность двух методов: машинного обучения и классической статистики. Отношения между ними не обошлись без трудностей, и каждый из них утверждает, что это правильная стратегия для максимизации рентабельности инвестиций на основе данных, полученных от потребителей.

С помощью серии сообщений в блогах мы поможем развеять некоторые мифы о множестве модных словечек в этой области. Первая тема, которой мы занимаемся, - "Машинное обучение против статистики". Что такое машинное обучение? Что такое классическая статистика? Они разные? Если да, то как? Когда я их использую? И какой из них более эффективен, чтобы помочь мне понять моих потребителей?

Перво-наперво, давайте рассмотрим некоторые рабочие определения для обоих. Машинное обучение и статистика - это области, в которых используются различные методы анализа для понимания данных. Машинное обучение - это тип искусственного интеллекта (ИИ), который позволяет программным приложениям изучать и прогнозировать результаты без явного программирования. В основном вы будете использовать машинное обучение для прогнозирования всей вашей клиентской базы на основе существующих наборов данных.

С другой стороны, статистика определяется как раздел математики, занимающийся сбором, классификацией, анализом и интерпретацией данных. Это мощный инструмент, позволяющий делать выводы о ваших клиентах на основе более широкой выборки. В то время как машинное обучение занимается выявлением закономерностей на основе существующих наборов данных, основная цель классической статистики состоит в том, чтобы сосредоточиться как на описании данных путем сокращения их до наиболее значимого уровня, так и на выводе о большей совокупности только из части ваших клиентов.

По этим причинам они, как правило, сосредотачиваются на решении немного разных бизнес-задач. Правила машинного обучения, когда есть необходимость в индивидуальном прогнозе определенного поведения или тенденции потребителей. Статистика выигрывает в тот день, когда возникает необходимость понять большой стратегический вопрос, такой как «почему», «как» и «кто». Например, машинное обучение применяется, когда вы хотите составить список рекомендуемых товаров для потребителей на основе прошлого поведения. Статистика оптимальна, когда вы хотите проверить гипотезу о том, почему потребители покупают определенные продукты или почему их поведение имеет определенную тенденцию.

Что делает один метод более эффективным, чем другой? Ответ в том, что это зависит от того, чего вы надеетесь достичь. Хотя глубокий академический анализ выходит за рамки этого блога, вот три ключевых отличия.

Предположения, предположения, предположения

Колоколообразная кривая. Все мы видели это к третьему дню занятий по статистике 101. Это заставляет многих вернуться к тому неприятному моменту вашего вводного курса по статистике, когда лектор говорил о вещах, которые мы так же быстро забыли. Вы помните, что такое t-критерий и значение p-значения или что такое значимое тестирование? В основе всего этого лежит способность делать выводы о населении только на основе выборки. Поэтому мы делаем предположения о таких вещах, как независимость наблюдений и распределение населения.

Например, в нашем случае это может относиться к группе клиентов, которые ответили на опрос удовлетворенности в прошлом месяце, или на трекер здоровья бренда за последний квартал. Обоснованность этих предположений и представление этой выборки, относящейся к более широкой совокупности, в значительной степени повлияют на степень, в которой ваши модели прогнозов относительно большей потребительской базы действительно точны.

С другой стороны, когда вы применяете машинное обучение к своему анализу, оно свободно от каких-либо из этих предположений. Основное внимание уделяется существующему набору данных, например недавнему покупательскому поведению или восприятию бренда, а также шаблонам, которые он может выявить. Никаких предположений не делается, потому что пользователи машинного обучения не заинтересованы в том, чтобы делать какие-либо выводы о совокупности из выборки. Представляющая интерес совокупность фактически является выборкой. Идея в том, что чем больше у вас данных, тем больше закономерностей будет выявлено. Со временем, чем больше данных, тем лучше прогнозные модели.

Количество и качество данных

Вторым важным отличием машинного обучения от статистики является важность методов выборки. Статистика связана с тем, чтобы сделать какие-то выводы обо всех ваших клиентах на основе данных опроса только выборки из всей клиентской базы. Вот почему вы можете услышать, как статистики обсуждают, насколько важна правильная выборка для окончательного результата (например, смотрите буквально все, что угодно о политических опросах).

Машинное обучение предполагает, что выборки независимы и одинаково распределены из совокупности, и что они уже являются репрезентативными для всей этой совокупности. В результате методы машинного обучения становятся более прагматичными и более дешевыми в масштабировании.

Однако имейте в виду, что то, что вы получите от масштабируемости, вы можете потерять в точности. Классическим примером является грандиозная неспособность Google предсказать количество случаев заболевания гриппом на основе поисковых запросов Google в 2013 году. Хотя лежащие в основе алгоритмы машинного обучения были относительно надежными, игнорирование таких переменных, как неопределенности и методы выборки, с течением времени приводят к совершенно неточным оценкам.

Исследование и подтверждение: разные способы обучения

Методы анализа данных подразделяются на исследовательские и подтверждающие. Как следует из этикеток, исследовательский анализ направлен на выявление интересных или полезных закономерностей, тогда как подтверждающий анализ проверяет конкретные гипотезы в наборе данных, которые могут быть подтверждены или опровергнуты.

Вы либо ищите новые тенденции в данных о потребителях, о которых вы не знаете, либо проверяете, взаимодействуют ли клиенты с вашими продуктами так, как вы планировали.

Алгоритмы машинного обучения в основном исследовательские и пытаются обобщить процесс принятия решений. Опять же, из-за того, что люди, занимающиеся машинным обучением, меньше озабочены проверкой гипотез.

Статистики сосредотачиваются в первую очередь на проверке гипотез. Задавая вопросы, например, женщины чаще покупают органические продукты, чем мужчины? Являются ли миллениалы более сознательными в отношении экологически чистых продуктов, чем представители других поколений?

Оба имеют свое место в решении бизнес-задач, в зависимости от контекста. Компании должны сделать шаг назад, чтобы оценить, какой метод лучше всего подходит для конкретной проблемы, прежде чем увлекаться модными словечками. Или просто свяжитесь с нами!

И что?

Что следует использовать при выборе между машинным обучением и классической статистикой? Конечно, ответ зависит от обстоятельств. Становится ясно, что обе области могут извлекать выгоду друг из друга, и обе области могут помочь лучше понять потребителей.

Команда Frontier7 имеет обширный опыт в области анализа данных и помогает компаниям любого размера принимать решения, основанные на данных и ориентированные на потребителя. Мы воодушевлены потенциалом большого, значимого влияния, которое мы можем оказать на мир исследований потребителей.

Мы признаем, что «машинное обучение» имеет привлекательный оттенок, но модные модные словечки не являются разумным бизнес-решением. Слепое следование тенденциям никому не принесет пользы. Большие данные не означают умные данные. Мы хотим предоставить интеллектуальные инструменты для исследования потребителей, чтобы освободить время для размышлений внутри компаний.

Битва между машинным обучением и статистикой…

Предположения, предположения, предположения

Количество и качество данных

Исследование и подтверждение: разные способы обучения

И что?

Вопросы по теме