«Данные — это всего лишь исходный материал для знаний». Статистика — это самый мощный инструмент, который у нас есть для использования информации в значимых целях.

Примеры использования статистики:

🔸 Как мы можем выявить школы, списывающие стандартные тесты?

🔸 Как Netflix узнает, какие фильмы вам нравятся?

🔸 Как мы можем узнать, какие вещества или действия вызывают рак, не проводя вызывающие рак эксперименты на людях?

🔸 Есть ли экономическая выгода от выдающегося высшего образования?

🔸 Статистика помогает нам найти ответы на эти вопросы. Мир производит все больше и больше данных со все возрастающей скоростью.

Зачем мы изучаем статистику?

🔸 Обобщать огромные объемы данных.

🔸 Чтобы принимать лучшие решения.

🔸 Находить решения важных социальных проблем.

🔸 Чтобы ловить мошенников и преследовать преступников.

Вывод

Сколько бездомных живет на улицах Стамбула? Как часто ссорятся женатые люди? Эти вопросы могут показаться совершенно разными; на самом деле на оба ответа можно ответить, используя базовые статистические инструменты, хотя и не идеальные. Мы используем статистику, чтобы делать прогнозы относительно более крупных проблем, о которых мы не имеем полного представления. Короче говоря, мы можем использовать данные из «известного мира», чтобы делать обоснованные выводы о «неизвестном мире».

Например, это вариант выборки в политическом опросе. Исследовательская организация пытается создать выборку домохозяйств, представляющих большой сегмент населения, и выяснить их мнение о политической точке зрения или кандидате. Это, конечно, гораздо дешевле и быстрее, чем связываться со всеми избирателями в городе или стране. Четко определенный методологический опрос 1000 человек даст тот же результат, что и оценка каждого домохозяйства в Турции.

Что такое корреляция и для чего она нужна?

Как Netflix узнает, какие фильмы мне нравятся?

Как Netflix узнает, какие фильмы мне понравятся, а какие нет? В штаб-квартире компании есть армия стажеров, которые гуглят мою семью и друзей, чтобы решить, нравится ли мне фильм «Властелин колец»? Конечно, нет. Просто Netflix освоил довольно сложную статистику. Нетфликс меня не узнает. Однако он знает фильмы, которые я смотрел и любил раньше. Netflix добавляет к этим данным рейтинги и отзывы других клиентов и обрабатывает их на мощных компьютерах, чтобы делать поразительно точные прогнозы о моих вкусах.

Корреляция измеряет степень, в которой два явления связаны друг с другом. Например, существует зависимость между летней температурой воздуха и продажами мороженого. Когда поднимается один, поднимается и другой. Если увеличение значения одной переменной влияет на другую в том же направлении, то корреляция между этими двумя переменными положительная. Высокие люди (в среднем) тяжелее, а низкие – легче. Если положительное изменение одной переменной связано с отрицательным изменением другой, существует отрицательная корреляция,например, между занятиями спортом и весом.

Сила корреляции как статистического инструмента заключается в том, что она может объединять две переменные в одну описательную статистику: коэффициент корреляции.

Коэффициент корреляции обладает двумя потрясающими свойствами. Во-первых; Это одно число в диапазоне от -1 до 1. Если существует идеальная корреляция (коэффициент = 1), каждое изменение значения одной переменной вызывает эквивалентное изменение значения другой переменной в том же направлении.

Полная отрицательная корреляция (коэффициент = -1) означает, что каждое изменение одной переменной соответствует противоположному, но эквивалентному изменению другой переменной.
Чем ближе значение корреляции к 1 или -1, тем сильнее связь. Корреляция 0 или близкая к 0 означает, что переменные не имеют значимой связи друг с другом; точно так же, как связь между размером обуви и результатом экзамена SAT.

Второй привлекательной особенностью корреляции является то, что к ней не привязаны никакие единицы. Хотя рост измеряется в сантиметрах, а вес в килограммах, мы можем вычислить соотношение между ростом и весом. Мы можем рассчитать корреляцию между количеством телевизоров в домах студентов университетов и баллами, которые они получают за SAT. Коэффициент корреляции творит чудеса: он превращает множество данных, измеренных в разных единицах, в одну элегантную описательную статистику.

Когда расстояние до среднего для одной переменной в целом согласуется с расстоянием до среднего для другой переменной, мы можем ожидать сильной корреляции.



🟠 Стать писателем