«Вино делает каждый прием пищи особенным, каждый стол более элегантным, каждый день более цивилизованным». — Андре Симон

Эта работа под названием Мой проект Vivino представляет собой исследование глубин науки о данных применительно к миру вина. Когда мы начнем этот путь, наши цели будут выходить за рамки базового анализа; мы хотим понять сложности прогнозирования качества вина, анализа настроений пользователей, индивидуальных рекомендаций по винам и класса марочных вин. Мы надеемся пролить свет на сложную связь между данными и системой рейтингов вин с помощью этих точек зрения, продемонстрировав потенциал для улучшения потребительского опыта и стратегии компании.

Значение хорошей рейтинговой системы:

Рейтинговая система действует как карта в мире вина, направляя как покупателей, так и энтузиастов по огромному ландшафту. Он объединяет множество характеристик вина в единую оценку, предлагая быструю оценку его качества. Точно так же, как рейтинги фильмов помогают нам выбирать выдающиеся фильмы, рейтинги вин помогают нам выбирать выдающиеся вина. Хороший рейтинг может повысить репутацию вина, а низкий рейтинг требует осторожности. Эти оценки влияют на важные решения для виноделов и маркетологов, начиная от тактики ценообразования и заканчивая уровнем производства. Мы надеемся, что наше исследование раскроет историю этих рейтингов и тем самым раскроет суть, которая отличает исключительные вина.

Значение хорошей системы качества:

Система качества вина действует как декодер вкуса. Он распределяет многогранные ароматы по понятным категориям, классифицируя вина по определенным уровням качества. Подобно тому, как быстрый взгляд на карту дает представление о местоположении, эти категории дают представление о идентичности вина. Эта простота — подарок как новичкам, так и экспертам, помогающий принимать решения и повышающий удовольствие от вина. В ходе наших исследований, включая концепцию оценки качества вина, мы раскроем характеристики, которые объясняют эти различия в качестве.

Область анализа:

В ходе этого исследования мы рассмотрим многие аспекты проекта My Vivino, каждый из которых раскрывает новый уровень понимания индустрии напитков:

Анализ рейтинговой системы. Мы углубимся в сложности системы рейтингов вин, проанализировав распределение рейтингов как среди красных, так и среди белых вин. Мы хотим получить представление об аспектах, которые влияют на восприятие качества вина, изучая закономерности и тенденции в рейтингах.

Предложения и классификация:

Мы продемонстрируем возможность предложения вин на основе данных как намек на будущее персонализации напитков. Мы построим модель, которая сможет прогнозировать рейтинг вина и систему качества. Мы также рассмотрим детальную схему категоризации, которая делит вина на группы в соответствии с определенными чертами и особенностями.

Анализ рынка и влияние на бизнес:

Наше путешествие не было бы полным без более широкого взгляда на сам рынок напитков, согласно анализу рынка и влиянию на бизнес. Мы рассчитаем размер рынка и определим любые тенденции, которые могут повлиять на коммерческий выбор. Мы также подчеркнем потенциальные коммерческие преимущества точного прогнозирования качества вина, индивидуальных рекомендаций и передовых методов категоризации.

Введение:

Это путешествие начинается с предположений и загрузки этих наборов данных, которые служат порталом в мир вин Винью Верде. Мы предоставляем инструменты для изучения, отображения и моделирования этих данных, используя возможности таких пакетов, как Pandas, Matplotlib, Seaborn и Scikit-Learn. Мы хотим получить информацию, выходящую за рамки статистики, путем объединения манипуляций с данными, визуализации и прогнозного анализа.

По ходу путешествия мы будем разбираться со сложностями прогнозирования качества вина, индивидуальными рекомендациями и категоризацией. Это расследование — больше, чем просто статистическое исследование; это исследование винного мира.

Предположения:

В целях понимания и прогнозирования качества вина этот проект сосредоточен на двух наборах данных, которые относятся к образцам красного и белого вина Винью-Верде, происходящим из северного региона Португалии. Основная цель состоит в том, чтобы построить прогностические модели качества вина на основе набора физико-химических атрибутов, как показано в работе [Cortez et al., 2009] (http://www3.dsi.uminho.pt/pcortez/wine /).

Сводка данных:

Наборы данных, лежащие в основе «Проекта My Vivino», были взяты из самого сердца португальских вин vinho verde и охватывают как красные, так и белые варианты. Эти наборы данных включают в себя богатую структуру из 13 колонок, каждая из которых основана на физико-химических тестах. Эта коллекция данных, насчитывающая в общей сложности 4897 случаев, обещает раскрыть тонкости прогнозирования качества вина и связанного с ним анализа.

визуальное представление ниже:

Тип и экземпляры атрибута:

Атрибуты в наборах данных имеют реальный числовой тип и отражают физико-химические атрибуты.

Дополнительная информация:

Наборы данных относятся к красным и белым вариантам португальского вина «Виньо Верде», являющегося уникальным культурным наследием.

Из соображений конфиденциальности и логистики доступные данные ограничены физико-химическими атрибутами и сенсорными выходными переменными.

Примечательно отсутствие таких деталей, как сорта винограда, марки вина и отпускные цены, которые могли бы добавить дополнительные аспекты к анализу.

Задачи классификации и регрессии:

Наборы данных подходят как для задач классификации, так и для задач регрессии, целью которых является классификация или прогнозирование качества вина на основе доступных атрибутов.

Важно отметить, что классы не только упорядочены, но и несбалансированы, с большим количеством нормальных вин по сравнению с отличными или плохими.

Проект также признает возможность использования алгоритмов обнаружения выбросов для выявления редких экземпляров отличных или плохих вин.

Учитывая сложность доступных входных переменных, изучение методов выбора признаков становится интересным способом обеспечения релевантности и эффективности модели.

В процессе анализа важно помнить об этих предположениях. Наборы данных открывают ценное окно в мир прогнозирования качества вина, но также создают проблемы из-за своих уникальных характеристик и ограничений. Благодаря тщательным исследованиям, экспериментам и использованию методов анализа данных мы стремимся извлечь значимую информацию, выходящую за рамки цифр и физико-химических характеристик, раскрывая суть качества вина.

Загрузка наборов данных:

Важным начальным шагом на нашем пути является загрузка наборов данных в нашу среду анализа. Используя возможности библиотек манипулирования данными, мы легко загрузим наборы данных о красном и белом вине. Это действие создает основу для исследования, позволяя нам углубиться в атрибуты, изучить закономерности и выявить взаимосвязи, которые лежат в основе качества вина.

Пожалуйста, обратитесь к изображению, представленному ниже, для визуального представления.

Использование основных библиотек:

Мы будем использовать возможности многочисленных пакетов Python для навигации по сложному ландшафту анализа данных. Pandas, основа обработки данных, поможет с загрузкой набора данных и их первоначальной проверкой. Мы будем использовать Matplotlib и Seaborn для создания визуализаций, которые оживляют данные, выявляя закономерности, распределения и потенциальные выбросы. Scikit-Learn будет нашим верным другом, когда мы углубимся в прогнозное моделирование, предоставляя различные алгоритмы для задач классификации и регрессии.

NumPy, пакет, необходимый для численных вычислений, поможет повысить эффективность нашего исследования.

Эти библиотеки служат основой для нашего исследования, основанного на данных, позволяя нам ориентироваться, визуализировать и получать представление о сложном мире вин Винью Верде.

Функция сопоставления качества вина:

Предоставленный фрагмент кода переводит рейтинги вин в категории качества, что соответствует фокусу нашего проекта на категоризации качества вина.

def quality(x):
if int(x) < 6:
        return "Poor"
    else:
        return "Good"

Исследование данных

Объединение наборов данных о красных и белых винах: формирование комплексной основной базы данных для тщательного анализа качества вина

Мы делаем решающий шаг в нашем стремлении понять основы качества вина, балансируя отличительные качества как красных, так и белых вин Винью Верде. Благодаря этому сочетанию мы можем получить доступ ко всей гамме вкусов и особенностей этих вин. Для этого мы интегрируем отдельные наборы данных по красному и белому вину в единый полный фрейм данных, который станет центром нашего исследования.

Слияние предполагает нечто большее, чем просто манипулирование данными; это также показывает мастерство виноделия. Подобно тому, как различные компоненты объединяются, чтобы создать вино, которое представляет собой нечто большее, чем просто сумма его частей, наш единый фрейм данных обладает всеми качествами, которые делают мир таким, какой он есть.

#Load Red wine Dataset
df1 = pd.read_csv("winequality-red.csv", delimiter=";")

#Add Wine type column to dataset with 0 for red wine 
df1["wine_type"] = [int(x) for x in np.zeros(len(df1)).tolist()]

df1.head()
#Load white wine Dataset
df2 = pd.read_csv("winequality-white.csv", delimiter=";")

#Add Wine type column to dataset with 1 for white wine 
df2["wine_type"] = [int(x) for x in np.ones(len(df2)).tolist()]

df2.head()

Информация о распределении качества вина с помощью анализа гистограмм

Гистограмма, важнейший инструмент визуализации в нашем аналитическом путешествии, дает наглядное представление о распределении качества вина по нашему большому набору данных. Многочисленные категории качества показаны на оси X, а частота экземпляров в каждой категории количественно выражена на оси Y. Это графическое представление дает мгновенный обзор преобладания столбцов данных в наборах данных и служит первой ссылкой на состав и равновесие набора данных.

В качестве визуального якоря гистограмма выявляет закономерности, которые создают основу для дальнейших исследований. Это базовое исследование закладывает основу для развития идей и направления нашего аналитического пути к обнаружению сложных характеристик, которые отличают различные качества вина.

См. визуальное представление ниже:

Описание данных и корреляция: ключевые выводы

Описание данных:

В ходе нашего анализа мы провели всеобъемлющую сводку набора данных, выявив важную статистику о его атрибутах. В сводке представлен снимок основных тенденций, изменчивости и распределения набора данных:

Количество: 6497 экземпляров для каждого атрибута.

Среднее: отражает среднее значение каждого атрибута.

Стандартное отклонение (Std): указывает степень отклонения от среднего значения.

Минимум (Мин): наименьшее значение, зарегистрированное для каждого атрибута.

25-й процентиль (25%):Значение, ниже которого находится 25% данных.

Медиана (50%): представляет среднее значение набора данных.

75-й процентиль (75%): значение, ниже которого находится 75% данных.

Максимум (Макс):наивысшее значение, зарегистрированное для каждого атрибута.

Мы также рассмотрели матрицу корреляции, чтобы лучше понять связи между переменными. Значения корреляции варьируются от -1 до 1, что указывает на отрицательную или положительную корреляцию. Вот несколько важных моментов, которые следует запомнить:

Фиксированная кислотность благоприятно коррелирует с плотностью, что позволяет предположить, что более плотные вина имеют более фиксированную кислотность.

Летучая кислотность обратно пропорциональна pH, а это означает, что вина с большей летучестью имеют более низкий pH.

Хлориды имеют существенную положительную связь с плотностью, что предполагает возможную связь между повышенной концентрацией хлоридов и плотностью.

Алкоголь и качество имеют положительную связь, а это означает, что вина с более высокой концентрацией алкоголя могут быть оценены как имеющие более высокое качество.

Тип вина (красное или белое) имеет существенную отрицательную связь со многими качествами, демонстрируя, что эти два сорта имеют принципиальные различия.

Эти наблюдения задали тон для более глубокого анализа.

Углубление анализа; корреляционный анализ и выбор функций

Расширенный подход

По мере того, как мы ориентируемся в сложной паутине корреляции данных, тщательное изучение каждой функции в отдельных группах открывает важные выводы. Эти группы тщательно исследуются для выявления признаков, имеющих значительную корреляцию с выходной переменной.

Группа 1:

Тип вина: 0,12
Летучая кислотность: 0,27
Общий диоксид серы: 0,04

Группа 2:

Спирт: 0,44
Плотность: 0,31

Группа 3:

Общий диоксид серы: 0,04
Свободный диоксид серы: 0,06

На основе этого корреляционного анализа вырисовывается разумная стратегия отбора. Для каждой группы сильно коррелированных признаков выбирается только тот, который демонстрирует наиболее сильную корреляцию с выходной переменной.

Следующие функции будут удалены:

  • Тип вина
  • общий диоксид серы
  • Плотность

В каждой группе высококоррелированных признаков выбирается только признак с наибольшей корреляцией с выходными данными.

Этот метод выбора объектов помогает удалить сильно коррелированные объекты из нашего набора данных.

Визуализация данных:

Распределение качества вина: данные гистограмм и коробчатых диаграмм

Приступая к исследованию качества вина, мы обращаемся к визуальному повествованию, нарисованному в виде гистограмм и коробчатых диаграмм. Эти графические изображения дают представление о распределении качества вина, демонстрируя его закономерности, вариации и исключительные случаи.

Гистограммы:

Гистограммы дают четкое и краткое представление о том, как качество вина распределяется по различным категориям. Каждая полоса соответствует определенной категории качества, а ее высота отражает количество экземпляров, попадающих в эту категорию. Это визуальное изображение быстро передает преобладание вин «плохого» и «хорошего» качества, давая первоначальное представление о том, как формируется спектр качества нашего набора данных.

Ящики:

Ящичные диаграммы добавляют глубины нашему пониманию качества вина. Эти визуальные эффекты демонстрируют распределение показателей качества, выделяя важные статистические данные, такие как медиана, квартили и потенциальные выбросы. Показывая распределение вин «плохого» и «хорошего» качества, эти графики раскрывают разнообразие их характеристик. Это исследование открывает дверь к пониманию диапазона и закономерностей качества вина в нашем наборе данных.

В совокупности эти наглядные пособия служат нашим компасом, ведущим нас через сложную картину дистрибуции качественного вина. Они приглашают нас исследовать как знакомое, так и уникальное в нашем наборе данных, устраняя разрыв между необработанными данными и значимой интерпретацией.

Раскрытие возможностей прогнозирования с помощью машинного обучения

Изучив данные, мы создали прочную основу и теперь переходим к увлекательной сфере. Наша дорога ведет нас в центр качества вина, где нас ждут тонкие сложности. Наше путешествие направлено на то, чтобы раскрыть тонкую картину, характеризующую сущность вин, руководствуясь множеством алгоритмов, инструментов и моделей.

Рассмотрим машинное обучение, которое воплощает в жизнь навыки прогнозирования и знания, основанные на данных. Машинное обучение позволяет нам обнаруживать скрытые корреляции, прогнозировать события и понимать сложное взаимодействие различных атрибутов. На этом этапе наше внимание переключается на тщательный выбор, обучение и оценку моделей, соответствующих целям нашего проекта. Этот раздел нашего путешествия посвящен пониманию основных механизмов, определяющих вино.

Имея в своем распоряжении мощь науки о данных и машинного обучения, мы можем раскрыть идеи, выходящие за рамки необработанных данных, открывая путь для принятия обоснованных решений, индивидуальных рекомендаций и лучшего понимания мира вина. Этот этап представляет собой путешествие в мир алгоритмов, где каждая созданная, отточенная и оцененная модель служит ступенькой к лучшему пониманию качества вина и его обширного разнообразия.

По мере того, как мы углубляемся в наш анализ, появляется решающий шаг: сегментация, нормализация и разделение нашего набора данных на компоненты, которые будут способствовать нашему исследованию.

Сегментация:

Наш набор данных умело разделен на два основных компонента: матрицу признаков (X) и целевой вектор (Y). Матрица признаков включает атрибуты, влияющие на качество вина, а целевой вектор содержит рейтинги качества. Эта сегментация является краеугольным камнем нашего анализа, поскольку она позволяет нам проанализировать и понять взаимодействие между характеристиками и качеством.

y = df [quality"]
X = df.drop(columns=["quality", "total sulfur dioxide",
                     "wine_type", "density"
                    ])

Нормализация:

Прежде чем двигаться дальше, мы займемся нормализацией — процессом, который обеспечивает приведение атрибутов к единому масштабу. Этот шаг способствует справедливости анализа, не позволяя атрибутам с более широкими диапазонами затмевать атрибуты с меньшими масштабами. Выравнивая атрибуты на равных условиях, мы повышаем эффективность нашего анализа.

X_norm = X/X.max()

Разделение поезд-тест:

Чтобы оценить эффективность наших моделей, мы выполняем разделение на обучение и тестирование, разделяя наш набор данных на два подмножества: одно для обучения и одно для тестирования. Подмножество обучения предоставляет модели данные для обучения, а подмножество тестирования предлагает беспристрастную арену для оценки ее производительности. Это стратегическое разделение позволяет нам оценивать точность модели и принимать обоснованные решения.

Тщательно пройдя этот подготовительный этап, мы создаем основу для тщательного анализа и глубокого изучения факторов, влияющих на качество вина.

X_train, X_val, y_train, y_val = train_test_split(X_norm, y)

Выбор лучшей модели: обнаружение наиболее эффективного подхода к машинному обучению

Мы проанализировали множество моделей машинного обучения в поисках точности прогнозов, методично сосредоточив внимание на той, которая достигла вершины производительности. После тщательного обучения, проверки и тестирования мы выбрали модель, которая идеально соответствует нашей цели по прогнозированию качества вина.

Create a list of models and their descriptions.
models_list = [LinearRegression, SVR, KNeighborsRegressor,
              DecisionTreeRegressor, RandomForestRegressor,
              MLPRegressor]
desc = 0: , 1: Support Vectordesc = 0: "Linear Regression," 1: "Support Vector," 2: "KNN,"",
       3:"Decision Tree", 4:"Random Forest", 5:"Multilayer Perceptron"}

#Iterate through each model in the list
#Create a predictive model and evaluate them
for each in range(len(models_list)):
    print(f"Model: {desc[each]}")
    model = models_list[each]()
    model.fit(X_train, y_train)
    y_train_pred = model.predict(X_train)
    y_val_pred = model.predict(X_val)
    print("Training Results\n")
    print(f"MAE: {mean_absolute_error(y_train, y_train_pred)}")
    print(f"MSE: {mean_squared_error(y_train, y_train_pred)}")
    print(f"RMSE: {np.sqrt(mean_squared_error(y_train, y_train_pred))}\n")
    print("Testing Results\n")
    print(f"MAE: {mean_absolute_error(y_val, y_val_pred)}")
    print(f"MSE: {mean_squared_error(y_val, y_val_pred)}")
    print(f"RMSE: {np.sqrt(mean_squared_error(y_val, y_val_pred))n")

Результаты различных использованных моделей:

Выделение важных факторов

Понимание влияния различных качеств на прогноз качества вина является важным аспектом нашего исследования. Мы получаем представление о том, какие качества важны для выставления итоговой оценки, измеряя значимость признаков. Это исследование проливает свет на движущие силы, лежащие в основе качества вина, позволяя лучше понять характеристики, которые отличают «плохие» и «хорошие вина».

Эти этапы оценки и анализа значимости характеристик отражают поворотный момент в нашем путешествии, когда понимание, основанное на данных, сочетается с возможностями машинного обучения, что в конечном итоге расширяет наше понимание сложной связи между качествами и качеством вина.

По результатам проверки прогнозирования качества вина с использованием алгоритма Random Forest, Random Forest превзошел другие подходы, показав лучшие общие рейтинговые результаты.

На основании отчета о категоризации мы можем сделать следующие выводы, используя модель случайного леса:

Точность и полнота: модель получила высокую точность (1,00), но несколько низкую полноту (0,61) для категории качества «Хорошо», что указывает на то, что она надежно распознает вина класса «Хорошо», но может не улавливать все их проявления. Точность (0,59) ниже для вин «плохого» качества, но полнота (1,00) выше, что свидетельствует об эффективной идентификации вин «плохого» качества.

Показатель F1, который учитывает как точность, так и полноту, примерно сбалансирован как для категорий качества «Хорошо» (0,76), так и «Плохо» (0,75). Это показывает, что признание обоих уровней качества является разумным компромиссом.

Точность. Общая точность модели составляет 0,75. Это означает, что она правильно определяет около 75 % случаев.

Макросредний балл F1 (0,75) и средневзвешенный балл F1 (0,75) демонстрируют схожие показатели по двум областям качества.

Model: Random Forest
Training Results

MAE: 0.16692528735632178
MSE: 0.05487643678160919
RMSE: 0.23425720219794563

Testing Results

MAE: 0.42599384615384617
MSE: 0.34431655384615384
RMSE: 0.5867849298049106

Был выбран случайный лес, поскольку он дал лучшие результаты в общем рейтинге.

В предоставленном фрагменте кода оценивается качество вин. Список main_qual_all содержит рейтинги качества всех вин в наборе данных. Список y_qual_val_pred содержит прогнозируемые рейтинги качества для набора проверки, созданные с использованием обученной модели. Список y_qual_val содержит фактические оценки качества из набора проверки.

Отчет о классификации распечатывается для оценки производительности модели. В этом отчете представлены различные показатели, такие как точность, отзыв и показатель F1 для каждого класса качества (хорошего и плохого).

Анализ рынка и влияние модели случайного леса на бизнес

В свете более широкой ситуации на рынке напитков наше путешествие включает в себя важные выводы анализа рынка. Прогнозирование качества вина приносит существенные финансовые выгоды благодаря точности модели Random Forest.
Точность модели позволяет активно управлять качеством, защищая репутацию бренда и лояльность. Компании могут получить конкурентное преимущество, выявляя новые тенденции и быстро адаптируясь.
Кроме того, индивидуальные рекомендации модели повышают вовлеченность клиентов, поддерживая долгосрочные отношения и рост доходов.
Помимо прогнозирования, мы адаптируемся к динамике рынка, чтобы стимулировать эффективные суждения, оперативность и коммерческий успех.

ЗАКЛЮЧЕНИЕ

Наше путешествие выявило множество идей, точности и рыночного резонанса в области, где данные пересекаются с миром изысканных напитков. Каждый этап, от тщательного исследования свойств вина до реализации предсказательного мастерства Random Forest, приближал нас к пониманию не только деликатной сути качества вина, но и его значительных последствий для нестабильного рынка.

Исследования рынка были сосредоточены на взаимодействии между умением работать с данными и деловой хваткой. Речь идет уже не только об алгоритмах; речь идет об использовании этих цифровых каналов для формирования будущего многовековой торговли. Союз данных и вкуса вышел за рамки прогнозирования, расширив свое влияние на рыночные тенденции и предпочтения клиентов, обеспечивая беспрецедентный творческий подход и качество.

Наша хорошо обученная модель не только хороша для прогнозирования качества вина; это также хорошо для прогнозирования успеха. Речь идет о сохранении репутации, поощрении лояльности и реагировании в режиме реального времени на приливы и отливы предпочтений клиентов.

Среди сложностей наборов данных и алгоритмов возникает одна основная реальность: каждая строка кода и точка данных содержат стремление к совершенству. Наш путь стал свидетельством точности, качества и мастерства выбора, основанного на знаниях, от винограда до стекла. Душа этого исследования заключается не только в цифрах и выводах, но и в симфонии возможностей, которые оно создает для отрасли, которая одновременно вневременна и постоянно меняется.

Это путешествие должно вызвать у читателей большее уважение к симбиотической связи между анализом на основе данных и искусством виноделия. В этом отчете подчеркивается, что точность выходит за рамки прогнозов и касается реальных эффектов, стратегического выбора и улучшения качества обслуживания клиентов. Это приглашение охватить пересечение истории и технологий, где анализ данных обеспечивает мост к инновациям, улучшениям и будущему, где каждый выбор будет усовершенствован.