Этот проект направлен на изучение особенностей белых вин, которые проливают свет на их качества. Он основан на наборе данных UCI, который можно найти по ссылке ниже.

Набор данных содержит 13 переменных, не считая индекса. Нас интересуют две переменные: «хорошо_или_не» и «качество». Он классифицирует вино с качеством ≥ 6 как хорошее по шкале от 1 до 10, в противном случае - нет.

На первом этапе мы построили простой график корреляции, чтобы показать характеристики вина, имеющие значительную корреляцию с качеством. Здесь стоит отметить, что алкоголь и качество имеют сравнительно сильную положительную корреляцию 0,42, а плотность и качество -0,3.

Плотность имеет сильную отрицательную корреляцию -0,78 с алкоголем и относительно сильную положительную корреляцию 0,52 с диоксидом серы. Они дополнительно проверяются двумя соответствующими диаграммами рассеяния.

Затем мы провели анализ основных компонентов, чтобы обнаружить скрытые функции. Мы обнаружили, что белые вина с низкой плотностью, сахаром и диоксидом серы, но с высоким содержанием алкоголя могут иметь более высокое качество, чем другие. Этот вывод подтверждается важностью переменной из модели случайного леса.

Похоже, что алкоголь и плотность действительно сильно влияют на качество белого вина. В ходе дальнейших исследований мы узнали, что плотность относится к удельному весу сусла. Когда дрожжи потребляют сахар в вине и превращают его в спирт, они также снижают плотность сусла. Следовательно, более низкая плотность означает, что дрожжи в достаточной степени преобразовали сахар в спирт.

В нашем анализе выше мы также обнаружили, что более высокая плотность коррелирует с более высоким содержанием диоксида серы. Диоксид серы используется в качестве консерванта для предотвращения окисления и микробной порчи в виноделии.

Следовательно, мы можем заключить, что более низкая плотность белого вина может означать, что взаимодействие между дрожжами и суслом было достаточным и превратило сахар в спирт. Эти вина часто требуют больше времени для изготовления (выдержки), что приводит к более высокому качеству. Однако вина с низкой плотностью также означают меньше консервантов. Белое вино лучше правильно хранить и пить сразу после открытия бутылки.

Набор данных:https://archive.ics.uci.edu/ml/datasets/wine+quality

Коды: https://github.com/HillmanHan/WineQuality

Дополнительная литература: