Это пост о моем втором проекте для 12-недельного учебного лагеря Metis Data Science Bootcamp. Предпосылкой проекта, который на буткемпе назывался «Проект Лютер», было использование линейной регрессии на наборе данных, который был взят из Интернета. В своем проекте я попытался спрогнозировать стоимость билетов на подъемники, используя данные 220 горнолыжных курортов Северной Америки.

Сбор данных

Основным источником данных, который я использовал для этого анализа, был веб-сайт агрегации рейтингов горнолыжных курортов под названием ZRankings. Используя модули Python BeautifulSoup и Selenium, я собрал данные для всех 220 горнолыжных курортов Северной Америки, перечисленных в ZRankings. Собрав такие характеристики, как количество спусков, вертикальная вершина, вместимость подъемника и т. д., я собрал цены на билеты на подъемник с другого популярного лыжного сайта На снегу. Собрав все эти данные, я перешел к следующему и столь же сложному шагу; очистка данных! После того, как сбор данных был завершен, я был готов приступить к анализу.

Функции

Изучив все функции, доступные на ZRankings, я начал анализ линейной регрессии. Используя модуль StatsModels в python, я смог сузить количество функций в моем анализе до пяти, перечисленных ниже, на основе p-значений t-теста, отображаемых в сводной статистике регрессии.

  • Ежегодный снегопад (футы)
  • Количество запусков
  • Вертикальное падение (футы)
  • Пропускная способность в гору (чел/час)
  • Количество террейн-парков

Анализ

После доработки функций модели следующим шагом стал запуск линейного регрессионного анализа. Проанализировав все взаимодействия объектов с помощью диаграмм рассеяния Seaborn, я смог определить объекты, которые необходимо преобразовать, чтобы оптимально подогнать к нормальному распределению (участки, вертикаль, пропускная способность холмов и годовой снегопад). После завершения преобразований ниже была моя основная сводная статистика

Основываясь на RMSE, мои прогнозы моделей были примерно на 22,59 доллара меньше, а значение R2 равно 0,48. Учитывая разброс цен на билеты на подъемники, это неприемлемый результат для точного прогнозирования цен на билеты на подъемники.

Следующие шаги

Региональные различия

Проанализировав цены на подъемники по стране, я понял (при быстром визуальном осмотре), что билеты на подъемники довольно сильно различаются в зависимости от региона. Похоже, что в регионах с высокой стоимостью жизни цены на билеты на подъемник выше, и мне было бы очень интересно проанализировать эту взаимосвязь.

Международное сравнение

Помимо регионов в Соединенных Штатах, основываясь на моем исследовании, я узнал, что в Соединенных Штатах самые дорогие билеты на подъемники в мире. Мне было бы очень интересно посмотреть, как соотношение между ценами на горнолыжные курорты и билеты на подъемники варьируется от страны к стране, особенно по сравнению с Соединенными Штатами.

Больше данных в целом

Хотя я нашел данные, обнаруженные в этом проекте, захватывающими, если бы у меня было время продолжить этот проект, я был бы рад получить данные для большего количества горнолыжных курортов в целом, а также обнаружить любые другие важные особенности, которые я, возможно, упустил из виду.

Вывод

Хотя я надеялся на более сильные результаты, проект «Лютер» в целом стал для меня отличным опытом. Изучение общих концепций машинного обучения, а также начало понимания того, как ученый данных применяет алгоритмы к проекту, было действительно захватывающим. Говорят, что пребывание в буткемпе должно постоянно вызывать у вас чувство, что вода находится «по шею», где вы не совсем тонете, но и не совсем комфортно. Проект Лютер определенно заставил меня почувствовать это. Хотя это было напряженно и сложно, мне нравилась каждая секунда, и я не могу дождаться, чтобы увидеть, куда приведет меня мое путешествие в науку о данных.