Я работаю над проектом по интеллектуальному анализу данных. Я изучаю отчет с финансовыми данными, который правительство публикует еженедельно. У меня есть исторические версии этого отчета, датированные более десяти лет. В отчете исследуются 65 различных взаимосвязанных переменных, и, по-видимому, если бы кто-то понял связи между этими переменными, отчет имел бы невероятную прогностическую силу.

65! это очень большое число. Чтобы быть точным, существует 82,476 5059920,824706667,2317247067,854962,621867,855113,454 374,929,2213,454374929,2212231,343,889 5577749 760 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 человек Я могу легко найти закономерности и отношения между 65 переменными благодаря моему удобному другу: простой линейной регрессии. Я хотел бы рассказать вам о том, почему этот инструмент такой замечательный, поэтому давайте упростим и представим, что я работаю только с пятью переменными: Цена яблок, Цена бананов, Цена кукурузы, Бананы, проданные на прошлой неделе, и Кукуруза, проданная последней. Неделю.

Простая линейная регрессия говорит нам, насколько сильно коррелированы две переменные, и они могут быть коррелированы двумя способами:

Предположим, что цены на яблоки и цены на бананы имеют положительную корреляцию, а цены на яблоки и цены на кукурузу — отрицательную. Это означало бы, что когда цена на яблоки растет, растет и цена на бананы. И что в то время как цена на яблоки растет, цена на кукурузу, скорее всего, падает. Это также означало бы, что когда цена на кукурузу растет, цена на бананы, вероятно, падает.

Кроме того, предположим, что продажи кукурузы положительно коррелируют с ценой на кукурузу, тогда как продажи бананов не имеют корреляции ни с одной из других переменных. Прелесть этого в том, что хотя существует 120 различных комбинаций того, как могут взаимодействовать 5 переменных, поскольку 4 из них коррелированы, если вы знаете цену 1 из них (цену яблок), вы можете разумно предсказать направление трех переменных. из четырех других. Продажи кукурузы, не имеющие корреляции с другими переменными, по существу становятся бесполезными в качестве предиктора и могут быть исключены из анализа.

Отношения между переменными уменьшают количество вероятных прогнозируемых исходов со 120 до 4:

1. Яблоки и бананы растут, кукуруза и кукуруза падают, бананы растут.

2. Яблоки и бананы падают, кукуруза и кукуруза растут, бананы растут.

3. Яблоки и бананы растут, кукуруза и кукуруза падают, бананы падают.

4. Яблоки и бананы падают, кукуруза и кукуруза растут, бананы падают.

И если мы исключим из анализа продажи бананов, наш диапазон вероятных результатов уменьшится до 2. Определив отношения между переменными, мы обнаружили порядок в сложном мире и создали простоту из хаоса.

Возвращаясь к моей электронной таблице с 65 переменными, я уже обнаружил, что первая переменная имеет положительную корреляцию с 17 другими и отрицательную корреляцию с двумя. Я с нетерпением жду, какая картина получится, когда все линии будут проведены.