Использование науки о данных для поиска лучших горных велосипедов

Ценообразование на горные велосипеды часто можно считать в лучшем случае расплывчатым, особенно при сравнении велосипедов по сходным ценам в предложениях нескольких брендов. Одной из самых больших проблем при выборе нового велосипеда является попытка понять основные факторы затрат на сборку велосипеда, то есть почему цены на горные велосипеды так сильно различаются даже в пределах одной линейки. Попытка понять, почему линейка велосипедов имеет ценовой диапазон от 2500 до 10 000 долларов, но производится одной и той же компанией и носит одно и то же имя, может оказаться непростой задачей, особенно для новичков в этом виде спорта.

Чтобы помочь смягчить некоторую неопределенность, связанную с их ценами, почти каждая компания, производящая горные велосипеды, предоставляет подробный список спецификаций всех компонентов, которые поставляются с каждым велосипедом в их линейке. Поскольку подавляющее большинство этих компонентов поступает от сторонних поставщиков, информация о ценах на каждый из этих компонентов довольно прозрачна. Это дает уникальную возможность использовать некоторые принципы науки о данных и машинного обучения, чтобы обеспечить количественное сравнение предложений основных брендов велосипедов, с которыми вы могли бы столкнуться, если бы вы были на рынке для нового горного велосипеда.

Прежде чем я перейду к анализу, я хочу дать некоторый контекст относительно того, почему важно смотреть на стоимость велосипеда с точки зрения его компонентов. В индустрии горных велосипедов не секрет, что деньги, которые вы тратите выше определенного порога, имеют убывающую отдачу в стоимостном выражении. То есть после определенного ценового уровня увеличение стоимости компонентов, которые вы получаете, тратя больше, уменьшается. Скачок производительности от полноподвесного велосипеда начального уровня за 1000 долларов до велосипеда за 3000 долларов намного больше, чем скачок с велосипедов за 4000 до 6000 долларов.

В рамках этой статьи я хочу рассмотреть предложения горных велосипедов крупных и бутиковых брендов в трех разных ценовых диапазонах: 1700–2300 долларов, 2301–2900 долларов и, наконец, 2901–3500 долларов. Я выбрал эти ценовые диапазоны, так как считаю, что это диапазоны, по которым подавляющее большинство людей будут сегментировать свой поиск велосипедов.

Мой подход к количественной оценке стоимости горного велосипеда начался со сбора данных о широком спектре горных велосипедов, а затем сегментации каждого велосипеда по их соответствующему месту в ценовых диапазонах выше. К сожалению, нет доступных электронных таблиц для каждого горного велосипеда с разбивкой по компонентам и ценам, по крайней мере, насколько мне известно. Сбор данных для этого проекта потребовал ручного ввода спецификаций компонентов и цен для широкого спектра горных велосипедов в электронную таблицу, чтобы можно было создать файл CSV для последующего анализа с использованием Python. В общей сложности я собрал информацию о более чем 300 горных велосипедах, представленных в настоящее время на рынке, включая горные велосипеды для кросс-кантри, трейла и эндуро.

После сбора и очистки всех необходимых данных (что было, безусловно, самой трудоемкой и утомительной частью проекта, общей темой для всех проектов по науке о данных) я использовал Python вместе с отличными библиотеками машинного обучения, предлагаемыми scikit-learn для обучения. простой регрессионный алгоритм машинного обучения для прогнозирования цены горного велосипеда с учетом характеристик его компонентов и материала рамы. Входные функции состояли из шести (6) спецификаций компонентов:

Материал рамы (например, карбон или алюминий)
Характеристики передней подвески (вилки) и цены
Задняя подвеска (амортизатор) характеристики и цены
Характеристики трансмиссии и цены
Спецификация тормозов и цены
Спецификация и стоимость шин
Спецификация комплекта колес и цена

Есть гораздо больше вспомогательных компонентов, которые также должны быть определены при создании горного велосипеда, но перечисленные выше функции являются основными факторами затрат и были выбраны для обучения алгоритма регрессии как такового.

Перед обучением любому алгоритму машинного обучения всегда рекомендуется выполнить некоторый исследовательский анализ данных или EDA. Сначала я строю гистограммы каждой из входных функций, чтобы исследовать их распределения и искать какие-либо экстремальные выбросы в данных.

Из этих графиков и соответствующих статистических данных из базового набора данных мы можем получить много информации о предложениях индустрии коллективных велосипедов для горных велосипедов. Например, из всех велосипедов, предлагаемых крупными брендами, только 39% используют более экономичную, но тяжелую алюминиевую раму, а 61% используют более дорогую, но более легкую и жесткую раму из углеродного волокна. Следует отметить важное распределение, как мы увидим в следующем разделе, материал рамы очень сильно влияет на общую цену велосипеда. Поскольку распределение смещено в сторону велосипедов с рамой из углеродного волокна, важно понимать, как это повлияет на последующие процессы и модели прогнозирования.

Также важно отметить диапазон между минимальным и максимальным значениями для каждой из входных функций. Например, между минимальной и максимальной ценой вилки существует диапазон в 1525 долларов. Учитывая, что среднее значение составляет примерно 774 доллара США, максимальная цена форка в размере 1625 долларов США потенциально может быть выбросом, который не указывает на набор данных и увеличивает среднее значение выше, чем оно было бы в противном случае. Этот выброс мог быть ошибкой в сообщении данных, однако при дальнейшем изучении отчет данных был правильным, и эта конкретная вилка, версия предложения Fox 34 Factory с рабочим клапаном, на сегодняшний день является самой дорогой вилкой, предлагаемой на любом велосипеде. набор данных. Если будет определено, что эта точка данных является выбросом, который будет иметь нежелательные последствия для последующих прогностических моделей, ее можно было бы исключить из набора данных.

Одним из наиболее полезных инструментов в наборе инструментов EDA (исследовательский анализ данных) является изучение корреляций между входными функциями и целевой переменной. Ниже приведен график корреляций между всеми функциями в наборе данных. Числа, представленные в каждой ячейке, представляют собой коэффициенты корреляции, представляющие линейную зависимость между двумя переменными. Эти коэффициенты находятся в диапазоне от -1 до 1. Чем ближе к -1 коэффициенты, тем более обратная связь между двумя признаками, то есть, когда один признак увеличивается, другой уменьшается. И наоборот, когда коэффициент ближе к 1, при увеличении одного признака увеличивается и другой. Давайте изучим приведенную ниже диаграмму и посмотрим, какие первоначальные идеи мы можем найти.

Первое, что мы должны сразу заметить, это то, что все коэффициенты корреляции положительны. Это должно иметь смысл, поскольку интуиция подсказывает нам, что, когда цена компонента, такого как вилка или трансмиссия, увеличивается, общая цена велосипеда также должна увеличиваться. Глядя конкретно на корреляции между ценой велосипеда и входными характеристиками, мы видим, что трансмиссия имеет самый высокий коэффициент корреляции, то есть увеличение цены велосипеда больше всего зависит от увеличения спецификации и цены трансмиссии. Это может показаться не совсем интуитивным, ведь характеристики подвески обычно указываются первыми компонентами, перечисляемыми в спецификации. Поначалу это может показаться неочевидным, но после тщательного изучения модельных рядов велосипедов основных брендов стало очевидно, что велосипеды в линейке позиционируются в первую очередь по характеристикам их трансмиссии. Хотя есть исключения из этого утверждения, эти мотоциклы были именно таковыми, исключениями из нормы. Следующей по величине корреляцией с ценой велосипеда является цена вилки. Хотя вилка была самым дорогим компонентом большинства перечисленных велосипедов, интересно отметить, что она занимала второе место после трансмиссии по влиянию на цену велосипеда.

Еще одним интересным выводом из этой матрицы являются корреляции между входными характеристиками, самая высокая из которых приходится на форк-цены и шок-цены на уровне 0,727. Опять же, это должно быть интуитивно понятно, поскольку увеличение характеристик вилки для велосипеда чаще всего сопровождается увеличением характеристик амортизаторов. При изучении прогностического моделирования часто рекомендуется комбинировать два или более высококоррелированных входных объекта. Одним из таких методов было бы просто взять среднее значение между ними. С точки зрения науки о данных это то, что известно как проектирование признаков. Разработка функций — это мощный инструмент для создания более описательных входных функций, однако в нашем случае знание предметной области об этих двух функциях говорит нам о том, что мы ограничили бы наше понимание конечного прогноза, если бы мы объединили два, поскольку мы хотим найти наиболее ценный. горный велосипед на основе спецификации отдельных компонентов.

После того, как мы тщательно изучили наш набор данных и получили информацию из его различных статистических данных, следующим шагом в нашем процессе прогнозного моделирования будет очистка и подготовка данных. Первый шаг — очистить набор данных, особенно в нашем случае, чтобы распознать и обработать любые пропущенные значения. На этапе сбора данных стало очевидно, что некоторые компоненты были разработаны и изготовлены собственными силами. Эти компоненты поставлялись в виде колесных пар собственного производства, которые не имели рыночной стоимости для продажи отдельно.

Следующая наиболее распространенная причина отсутствия значений в наборе данных связана со спецификациями сторонних компонентов, которые продаются только производителям велосипедов, а не на открытом рынке. Например, линейка амортизационных вилок Fox Rhythm доступна только для полной сборки велосипеда, а не для покупки на вторичном рынке. Хотя мне удалось найти достаточно дополнительных цен, чтобы точно оценить вилки Fox Rhythm, самостоятельно разработанные наборы колес было почти невозможно оценить (если вы не являетесь экспертом в разработке комплектов колес и не выходите на рыночные цены). Один очень распространенный метод, используемый в науке о данных для заполнения этих пропущенных значений, — это использование вменения. В нашем случае я вменил отсутствующие значения, просто взяв медианное значение этого конкретного входного признака и введя его в отсутствующие ячейки.

Следующим шагом подготовки данных была обработка категориального ввода материала кадра. Алгоритмы машинного обучения, за исключением алгоритмов на основе дерева, не обрабатывают категориальные входные данные. Чтобы сделать материал кадра полезным для алгоритма, нам нужно его закодировать. По сути, мы конвертируем каждую категорию в 1 или 0. В нашем случае будет ввод 1 для карбоновых рам и ввод 0 для алюминиевых рам. По завершении кодирования часто очень полезно, если не обязательно, масштабировать набор данных до общего масштаба (обычно между 0 и 1). Это позволяет алгоритму обучаться быстрее и эффективнее.

Теперь, когда все данные собраны, проверены, очищены и подготовлены, наконец пришло время применить прогнозное моделирование для определения ценности каждой записи велосипеда. При выборе модели, которую вы хотите использовать для своих прогнозов, важно понимать, какую информацию вы хотите получить от модели, и как эта информация может быть использована в дальнейшем.

Это может показаться излишним, но общеизвестно, что ни одна модель не создается только для того, чтобы создать модель. В нашем случае мы хотим понять ценность каждого велосипеда по сравнению со всеми его конкурентами, и для этого нам нужно иметь возможность количественно оценить эту ценность.

Наша целевая переменная, цена велосипеда, также является числовой, поэтому классификации велосипеда как хорошего или плохого будет недостаточно. Скорее, целью нашей модели должно быть предсказание цены велосипеда и определение его стоимости на основе несоответствия между прогнозируемой ценой и фактической ценой. Для этого нам нужно будет использовать регрессионную модель, которая создаст плоскость наилучшего соответствия между всеми входными функциями и нашей целевой переменной — ценой велосипеда.

В нашем распоряжении есть множество различных алгоритмов машинного обучения и глубокого обучения, которые могут выполнить эту задачу регрессии. Правильный выбор не всегда очевиден. Часто, если у вас есть вычислительные ресурсы, лучше всего обучить несколько типов моделей и выбрать лучшую из них. К счастью, в нашем случае выбор модели немного проще.

Учитывая описательный характер компонентов, составляющих входные данные для общей цены горного велосипеда, для прогнозирования цены каждого отдельного горного велосипеда был выбран простой алгоритм регрессии L2. В этом случае одно из самых больших преимуществ регрессии L2 заключается в том, что она позволяет нам создать модель с относительно небольшим количеством входных примеров. Хотя эта модель проще, чем большинство других алгоритмов машинного обучения, внутренняя работа модели выходит за рамки этой статьи, и я оставлю читателю возможность дальнейшего изучения ее основ. Кроме того, за рамками этой статьи находятся методы настройки гиперпараметров и перекрестной проверки, которые использовались для создания наиболее эффективной модели.

Теперь, когда прогностическая модель завершена и обучена, мы можем делать прогнозы о том, сколько должны стоить велосипеды, исходя из характеристик их компонентов. Прежде чем мы углубимся в прогнозы, рекомендуется исследовать наиболее заметные или важные особенности модели. Ниже приведен график, отображающий наиболее важные функции, влияющие на прогноз:

При рассмотрении коэффициентов регрессии становится очевидным, что они в значительной степени соответствуют коэффициентам корреляции, представленным ранее. Материал рамы является наиболее важной характеристикой при определении общей цены велосипеда. Обе эти идеи должны быть достаточно интуитивными, особенно при изучении данных. Велосипеды с карбоновыми рамами всегда будут дороже, чем их алюминиевые аналоги при прочих равных условиях. Одним из наиболее интересных выводов из этого графика является важность шоковых цен по сравнению с его положением относительно цен на колесные пары. На графике коэффициента корреляции шоковые цены были выше, чем цены на колесные пары. Однако, как мы видим здесь, шоковые цены имеют меньшее значение, чем цены на колесные пары.

Теперь, когда мы рассмотрели некоторые выводы из обучения модели, пришло время взглянуть на фактические прогнозы, сделанные моделью. Ниже я собираюсь выделить три самых дорогих велосипеда из категорий трейл, кросс-кантри (XC) и эндуро в следующих ценовых диапазонах:

$1700– $2300
$2301- $2900
$2901- $3500

Ниже показаны три самых дорогих трейловых велосипеда: 1700-2300 долларов.

Далее тройка самых дорогих кросс-трейлов: 2301-2900 долларов.

Далее тройка самых дорогих трейловых велосипедов: 2901-3500 долларов.

Ниже показаны три самых дорогих велосипеда для беговых лыж: 2301–2900 долларов.

Примечание. Ни один велосипед XC не стоил дешевле 2300 долларов.

Далее тройка самых дорогих велосипедов для беговых лыж: 2901–3500 долларов.

Ниже показаны три самых дорогих эндуро-байка: от 1700 до 3500 долларов.

Примечание. Только один велосипед стоил менее 3000 долларов США и будет сгруппирован со всеми велосипедами стоимостью менее 3500 долларов США.

В последующих статьях я углублюсь в анализ, предоставленный модельными прогнозами, включая лучшие и худшие велосипеды в более высоких ценовых диапазонах. Я также напишу статью, в которой будет представлена разбивка каждой марки горных велосипедов на основе совокупной стоимости их линеек.

Я надеюсь, что эта статья была полезна всем, кто интересуется катанием на горных велосипедах, наукой о данных или тем и другим одновременно.

Использование науки о данных для поиска лучших горных велосипедов

Вопросы по теме