Изучение статистики для науки о данных

Ранее я писал об изучении математики для науки о данных и машинного обучения (см. статью), где я рассмотрел список необходимых математических тем, предоставил некоторые ресурсы для изучения математики и некоторые идеи, которые я приобрел в этом стремлении.

Помимо линейной алгебры, многомерного исчисления и теории вероятностей, статистика является одним из важнейших математических требований для специалистов по данным, даже основным. На самом деле наука о данных как область находится на пересечении статистики и информатики, а также большинства программ бакалавриата и магистратуры в области науки о данных, таким образом, предоставляемых либо отделами статистики, либо факультетами информатики. В сети даже ведутся давние дебаты и популярные мемы (см. ниже) о том, является ли наука о данных просто прославленной статистикой. Однако, не вдаваясь в подробности, очевидно одно: знание статистики является обязательным для специалистов по данным.

Согласно Википедии, статистика — это дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных. Поэтому, в основном, он охватывает все аспекты данных от их сбора до конечного результата, т.е. представления результатов. В широком смысле используются два основных статистических метода: описательная статистика и статистика вывода. Описательная статистика предназначена для суммирования данных путем вычисления либо основных параметров тенденции (среднее значение, медиана, мода), либо параметров дисперсии (дисперсия, стандартное отклонение), тогда как статистика логического вывода помогает сделать вывод о параметрах совокупности на основе выборочных данных.

Основными темами логической статистики являются оценка параметров с соответствующими доверительными интервалами и проверка гипотез с соответствующими p-значениями и понятием статистической значимости. Чтобы дать вам общее представление об оценке параметров и проверке гипотез, давайте рассмотрим следующую задачу:

Предположим, мы хотим ответить на следующие два вопроса: 1) Каков средний рост граждан какой-либо страны? 2) Является ли средний рост граждан какой-либо страны выше, скажем, 1,65 метра. Первый вопрос направлен на нахождение среднего роста граждан, поэтому это задача оценки параметров. В этом случае интересующим параметром является среднее значение генеральной совокупности. Во втором вопросе у нас есть несколько гипотез для оценки. Конкретно нас интересует, превышает ли средний рост горожан 1,65 метра. Таким образом, этот вопрос является проблемой проверки гипотез.

В идеале, чтобы ответить на эти два вопроса, мы хотели бы измерить рост всех горожан, усреднить их и, таким образом, найти среднее значение и сравнить его с 1,65 метра. В этом сценарии, однако, нет необходимости в выводных статистических знаниях вообще. Однако в реальном мире из-за ряда ограничений (большие выборки могут быть слишком дорогими/невозможными) мы обычно берем некоторую выборку из совокупности, то есть некоторую ее часть (например, мы измеряем высоту 100 000 человек). человек в стране с населением 10 000 000) и придумать приблизительную меру интересующего параметра, в нашем случае, среднее значение. Именно в таких ситуациях в игру вступает логическая статистика. Поскольку мы отобрали только некоторую часть населения и измерили интересующий параметр, в оценке этого параметра присутствует некоторая неопределенность. Логическая статистика помогает количественно определить эту неопределенность, предоставляя доверительный интервал (например, диапазон от 1,60 до 1,70 м для средней высоты) вокруг измеренного параметра. Рассчитав этот интервал, мы можем затем использовать его для проверки гипотез и посмотреть, есть ли статистически значимые доказательства того, что измеренная высота отличается от 1,65 метра. Мы делаем это, проверяя, включает ли наш вычисленный доверительный интервал 1,65 метра (наше гипотетическое значение).

Это был очень краткий и неформальный пример, чтобы дать вам представление о типах проблем, решаемых с помощью логической статистики. Надеюсь, это пробудило у вас аппетит и желание узнать больше о статистике логического вывода.

Итак, получив некоторое представление о выводной статистике, я захотел углубиться в нее и тут наткнулся на курс Fundamentals of Statistics, предлагаемый MIT на edx (подробности курса см. на edx). Этот курс является частью программы MicroMasters по статистике и науке о данных из 5 курсов.

Курс очень дорогой для верифицированных слушателей (300$), однако вы можете получить скидку 90%, обратившись в финансовую помощь. Важно помнить, что это сложный курс, требующий некоторых предварительных знаний (линейная алгебра, многомерное исчисление и теория вероятностей) и больших затрат времени (15–20 часов в неделю) в течение 16 недель. Ниже представлена ​​программа курса:

* Блок 0: Линейная алгебра и обзор вероятностей

* Блок 1: Введение в статистику и вероятность

* Модуль 2: Основы умозаключений

* Блок 3: Методы оценки

* Модуль 4: Проверка гипотез

* Блок 5: Байесовская статистика

* Модуль 6: Линейная регрессия

* Модуль 7: Обобщенные линейные модели

* Модуль 8: Анализ основных компонентов

Как видно из программы, курс очень амбициозен и пытается охватить многие темы статистики за короткий промежуток времени. Конкретно, после рассмотрения некоторой линейной алгебры и вероятности, необходимых для курса, курс погружается в логическую статистику в модулях с 1 по 4. Следующие 4 модуля мало связаны друг с другом, однако все они являются фундаментальными и довольно регулярно используются в данных. Методология науки. Модуль 5 посвящен байесовской статистике, которая представляет собой совершенно другой подход к статистике, где вероятности выражают не ожидаемую частоту событий, а скорее степень доверия к событию. Модуль 6 посвящен одному из самых фундаментальных и широко используемых алгоритмов — линейной регрессии. Вместо того, чтобы просто знакомить с основными понятиями линейной регрессии, курс погружается в более теоретические аспекты, такие как предоставление теоретических, эмпирических решений и проверка гипотез для линейной регрессии. Раздел 7 посвящен обобщенным линейным моделям. Изучив эту тему, понимаешь, что обычная линейная регрессия — это всего лишь частный случай обобщенных линейных моделей, где распределение ошибок нормальное. Модуль 8 посвящен анализу главных компонентов, который является одним из наиболее широко используемых алгоритмов уменьшения размерности. Здесь снова, рассмотрев мотивацию темы, мы углубимся в математические детали алгоритма.

Стоит отметить, что курс содержит множество упражнений, встроенных в еженедельный материал, чтобы помочь закрепить концепции. Кроме того, есть два промежуточных экзамена и итоговый экзамен для оценки ваших знаний. В целом, я думаю, что определенно рекомендую этот курс, если вы хотите глубже погрузиться в статистику и математические детали алгоритмов и хотите попрактиковаться в своих знаниях по теории вероятностей и линейной алгебре.

Удачного обучения!

Первоначально опубликовано на https://www.linkedin.com.