Понимание отношений

С помощью hooman вы исправили свой набор данных, и вы оба планируете приступить к реальным действиям. Вы смотрите на данные и обнаруживаете, что в них много строк и столбцов. Как вы собираетесь найти значение этих чисел? Hooman понимает, что вы запутались, и начинает показывать вам, что делать.

Хуман говорит, что хочет выяснить, есть ли какая-либо связь между различными типами информации. Отношение? Среди информации? Как? Хуман приводит пример: когда он пытается работать на своем ноутбуке, вы, как правило, сидите на его клавиатуре. Вы не делаете этого в другое время. Или вы мяукаете, когда голодны. Здесь попытка человека работать на ноутбуке побуждает вас сесть на клавиатуру. Ваш повышенный голод заставляет вас мяукать. Таким образом, любая взаимная связь между двумя событиями имеет значение, и человек называет это КОРРЕЛЯЦИЕЙ. Эти примеры называются положительными корреляциями, потому что в обоих случаях ваша попытка сесть за ноутбук или ваше мяуканье увеличиваются с увеличением попытки человека работать или вашего голода. Хуман говорит, что корреляция может быть и отрицательной, например, когда вы менее голодны, вы больше играете. В этом случае одно увеличивается, а другое уменьшается.

Теперь вы понимаете, что вам нужно найти какую-то подсказку о том, что заставляет людей покупать картофельные чипсы. При этом хуман показывает вам пример. Он случайным образом выбирает некоторые атрибуты о разных марках чипсов и о том, насколько они понравились людям. Эти атрибуты в основном представляют собой несколько столбцов из файла, состоящего из характеристик чипов разных марок. Они выглядят так:

Вы хотели бы знать, почему конкретная марка чипсов любима людьми. Как видите, здесь бренд № 0 понравился 90% людей, а № 4 — 55% людей. Должна быть причина.

Hooman выбирает некоторые значения из столбцов, чтобы показать вам, что он имеет в виду. Он преобразует их в фрейм данных, используя библиотеку pandas для Python, и вызывает встроенную функцию dataframe.corr(), чтобы выяснить корреляции:

import pandas as pd 
data = {'potato content': [45,37,42,35,39], 
        'packaging quality': [38,31,26,28,33], 
        'owner can say potato in how many languages': [1,3,7,1,7],    
        'spiciness': [44,44,43,43,44], 
        'liked by %': [90,56,88,73,55], } 
df = pd.DataFrame(data,columns=['potato content',
                                'packaging quality',          
                                'owner can say potato in how many      
                                    languages',
                                'spiciness',
                                'liked by %']) pd.set_option("display.max_rows", None, "display.max_columns", None) pd.set_option('expand_frame_repr', False) 
corrMatrix = df.corr() 
print (corrMatrix)

Затем он показывает вам вывод:

Ура, больше цифр! Что они вообще означают? Ты мяукаешь на хумана, и он начинает объяснять. Он называет результат МАТРИЦЕЙ КОРРЕЛЯЦИИ. Так что же представляет собой эта корреляционная матрица? Вы можете видеть, что это таблица с некоторыми цифрами. Каждое из чисел показывает, насколько сильно один столбец из вашего набора данных связан с другим столбцом. Эти числа называются КОЭФФИЦИЕНТОМ КОРРЕЛЯЦИИ. Этот коэффициент находится в пределах от 0 до 1. Конечно, за этим расчетом стоят математические уравнения. Вы можете поискать и посмотреть на них в Интернете. Как они работают? В первой строке первое число представляет соотношение между «содержанием картофеля» и «содержанием картофеля». Соотношение чего-либо с самим собой всегда 1. Как подчеркивал человек, зная причину симпатии людей к бренду, теперь он объясняет вам последнюю цифру в первом ряду. Он представляет собой отношение между содержанием картофеля в чипсах марки и количеством людей, которым они нравятся. Чем выше число, тем сильнее их отношения. Здесь 0,685493 довольно много. Точно так же последнее число во втором ряду содержит отношение между качеством упаковки и тем, что людям нравятся чипсы. Последние числа других строк также представляют аналогичные отношения. Как видите, некоторые из них являются отрицательными числами. Это означает, что отношения между этими атрибутами и людьми, которым нравится бренд картофельных чипсов, противоположны, то есть уменьшение этих атрибутов вызывает увеличение симпатии к этому бренду. Хуман говорит, что они «отрицательно коррелированы».

Теперь вы понимаете, что более высокое содержание картофеля в марке чипсов заставляет людей больше любить этот бренд, а более низкое количество остроты заставляет людей любить чипсы… но подождите, «владелец может сказать картофель на скольких языках»?? Как это может заставить людей любить или ненавидеть марку чипсов? Ты указываешь лапой на это число.

Хуман знает, что вы снова запутались. Теперь он спрашивает вас, когда вы чаще всего едите чипсы. Вы думаете и отвечаете, что больше всего их едите, когда смотрите футбол по телевизору. Чем еще вы занимаетесь во время просмотра матчей? Ты носишь майку своей любимой команды и много мяукаешь. Вы вдруг понимаете, что кажется, будто вы едите больше картофельных чипсов, когда носите майку, но на самом деле ношение майки является «причиной» того, что вы едите больше чипсов? Нет, ваше потребление фишек не увеличивается при ношении майки, настоящая причина потребления фишек — просмотр игры. Хуман называет эту «настоящую причину» ПРИЧИНОЙ.

Таким образом, корреляция не всегда подразумевает причинно-следственную связь.

Теперь это проблема. Как определить, какая из них является истинной причиной? Ну, нет прямого способа найти это, по крайней мере, прямо сейчас. Ты еще молодой кот. Вам нужно стать больше, чтобы изучать более сложные вещи. Так что ты собираешься делать? На данный момент вы можете с уверенностью предположить, что связь с большей вероятностью будет причинно-следственной, если коэффициент корреляции велик. Вы можете установить пороговое значение для коэффициента корреляции и пока игнорировать меньшие значения. Например, 0,027518 и -0,214263 малы, если вы предполагаете, что возьмете значения выше 0,4. Таким образом, вы можете смело принимать во внимание количество «содержания картофеля» и «острости», думая о том, почему кому-то понравилась или не понравилась конкретная марка картофельных чипсов. Здесь мы обнаружили, что людям больше нравятся картофельные чипсы, если содержание картофеля в чипсах выше, или, можно сказать, если между ними существует положительная корреляция. Если острота высокая, людям, как правило, не нравятся эти чипсы, другими словами, они имеют отрицательную корреляцию. Вам понадобятся эти предположения о взаимосвязях для всех типов задач, классификации, регрессии или анализа временных рядов, чтобы узнать и предсказать что-то о данных.

Предыдущая часть: https://orthymarjan.medium.com/data-science-for-cats-part-2-6867fc5d9768

Следующая часть: https://orthymarjan.medium.com/data-science-for-cats-part-4-839183e24643

Первоначально опубликовано на https://dev.to 30 октября 2020 г.