Поиск правильных книг по определенной теме занимает много времени и вызывает много боли. Очевидно, это личный вопрос: то, что работает для одного человека, может не подходить другому. Этот короткий список ниже я написал в качестве дополнения к моим ученикам, которые изучали L24 Math 1011: Введение в статистику, которую я преподавал в летней школе University College at WashU.

Это вводный курс. Несмотря на то, что в названии есть просто «Статистика», в конце концов, основная идея заключалась в том, чтобы приучить моих студентов познакомиться с различными перспективами анализа данных в более широком смысле. Следовательно, лучшим названием для него было бы «Введение в анализ данных». Средний уровень математических навыков студентов был очень высоким (для вводного курса). Поэтому я пытался кое-где учить их маленьким кусочкам «реальных вещей» вместо того, чтобы предлагать им очень адаптированную версию, которая в дальнейшем будет бесполезна (большинство из них были будущими специалистами по экономике, математике и информатике). Даже для людей, которые, возможно, не слишком склонны углубляться в тяжелую математику, важно иметь некоторые инструменты для проверки фактических исследований по их дисциплинам. Поэтому им нелегко «купить» какой-либо исследовательский дизайн и всегда сначала думают критически ... что важно, не боясь формул и обычного статистического жаргона.

Короче говоря, курс начинается со статистики и вероятности, затем переходит к экспериментальному дизайну / причинному выводу и завершается некоторым машинным обучением.

Приведенный ниже список является очень личным для меня в том смысле, что я пришел к нему путем «массового» процесса проб и ошибок. Я искал что-то, что можно было бы использовать в качестве учебника для изучения, а затем иметь возможность вернуться за справками и советами. Эти книги «работали» на меня. Надеюсь, они сработают и для кого-то еще. Наслаждаться!

  1. Статистика / вероятность / эконометрика


В этом томе дается очень четкий и краткий обзор всей эконометрики для выпускников базового уровня (лучшее, что я смог найти) вместе с необходимой подготовкой (проверка гипотез, вероятность, линейная алгебра). Мне нравится порядок материала, особенно в 4-м издании, поэтому рекомендую. Это требует знания линейной алгебры и может быть относительно продвинутым по частям. Однако основной «поток» книги достаточно логичен и доступен.

2. Экспериментальный план / причинный вывод

Теоретическое изучение причинного вывода не для всех. Между тем эксперименты и наблюдения - это то, что вы встретите практически в любой дисциплине. Вот почему наличие некоторой базовой грамотности в отношении основных понятий, таких как разница между экспериментальными и наблюдательными исследованиями, что такое внешняя и внутренняя валидность, каковы возможные основные угрозы валидности, может быть полезным… почти независимо от главного.



Шадиш и др. (2012) - это прекрасное интеллектуальное путешествие во все возможные концепции дизайна исследования, охватывающие как экспериментальные, так и квазиэкспериментальные перспективы. Не последний, но все же самый фундаментальный и всеобъемлющий, на мой взгляд, это было огромным открытием для меня шесть лет назад, когда я учился в магистратуре PolSci в Центральноевропейском университете в Будапеште. Это очень вдохновило и повлияло на мою магистерскую диссертацию о подводных камнях естественных экспериментов, краткая версия которой была резюмирована в этой статье.



… Между тем, Gerber & Green (2014) - это то, что вы ищете, если вас интересует самый последний учебник по теме экспериментального дизайна, или, если быть точнее, экспериментального дизайна. Более сфокусированный и «математический», чем Shadish et al. (2012), в нем рассматриваются основные проблемы проведения экспериментов в `` реальных условиях ''. Еще один положительный момент в этой книге состоит в том, что в ней используется эта почти каноническая (хотя и немного измененная) обозначение причинной модели Неймана – Рубина. Следовательно, требуется короткое время, чтобы изучить его и начать формулировать свои потенциальные проблемы дизайна ясным и точным «языком».

3. Машинное обучение

примечание: Эта часть была обновлена ​​03.07.2019.

Несколько студентов из моего класса с нетерпением ждали именно этой части курса, Машинное обучение. Это понятно, потому что сейчас эта сфера процветает и сексуальна, а рабочих мест по-прежнему больше, чем людей, которые могут это сделать.

Это важный вопрос, нужно ли вам разбираться в механизмах, стоящих за применяемыми вами алгоритмами (тизер: да, вам следует) ... Самое забавное в машинном обучении то, что теперь запись затраты очень низкие: вы легко можете запустить простой скрипт и что-то спрогнозировать. И вот проблема: интерпретация ваших результатов. Если вы делаете это не из простого любопытства, вы скоро поймете, что для интерпретации того, что вы получаете, вам нужно понимать математику, лежащую в основе… По крайней мере, до некоторой степени. В самом деле, даже если вы знаете математику, результаты нелегко интерпретировать по существу. Без сомнения, интерпретация результатов - это ст. Однако, чтобы заниматься искусством, вам нужно знать `` шестеренки ''.



Мерфи (2012) - книга, цель которой - охватить все, что связано с машинным обучением. Мне нравится это в этом томе, и я думаю, что как справочник и даже как учебник (для подготовленного читателя) автор отлично справляется со своей работой. Наверное, это не лучший выбор, если цель - сесть и изучить машинное обучение с нуля. В некоторых местах автор действительно двигается слишком быстро. Однако, если у вас есть предварительная подготовка (например, этот курс), эта книга станет отличным выбором в качестве основного справочного тома. Он описывает математику и основную интуицию основных моделей. К сожалению, он уже немного постарел и не охватывает некоторые новые изобретения, такие как Джунгли решений, но в целом описывает почти все.



Мне нравится этот небольшой учебник от Абу-Мостафа и др. (2012) по совершенно противоположным причинам, чем я люблю Мерфи (2012). Последний огромен во всех смыслах. Он охватывает все вкратце, создавая впечатление, что иногда это слишком коротко. Между тем, первый представляет собой небольшой и прекрасно подробный учебник. Он не охватывает много тем, но хорошо их освещает. Будь осторожен; в нем много математики, но в нем есть милые примеры и интуиция, которые помогают справиться со страшной математикой. Эту книгу можно предложить как стартовое пособие для математически подготовленного школьника. Все начинается просто: с описания перцептрона. Однако вскоре вы увидите, что даже это не так очевидно, если подумать, как бы вы это кодировали.

UPD: На данный момент у меня появился новый фаворит по ML:



Это книга, которая проведет вас через всю историю статистического вывода. Это может дать совершенно другой взгляд на многие, казалось бы, отдельные темы, которые вы изучали ... И последней остановкой будет так называемое машинное обучение. Этот том требует некоторого базового обучения в области (математики) статистики и эконометрики. Обычно я бы не рекомендовал его людям, просто знакомым с самой последней частью истории - машинным обучением. Однако для тех, кто достаточно смел (даже не имея большого опыта в области статистики), это может стать началом более всестороннего понимания современных методов вывода, поскольку оно представляет их как часть длинной истории.

Я был очень вдохновлен этой книгой, когда готовил свой краткий курс по (расширенному) машинному обучению как часть Цюрихского сайта Летнего института вычислительных социальных наук. Один из моих следующих постов в блоге также будет посвящен этой теме. Быть в курсе :-).

И последнее, но не менее важное: небольшая книга об интерпретируемости ML.



Проблема, с которой сталкивается большинство людей, занимающихся машинным обучением, заключается в отсутствии интерпретируемости результатов, которые вы получаете от передовых подходов, таких как мощное глубокое обучение. Они слишком похожи на «черный ящик», и если вы хотите выйти за рамки задачи прогнозирования, вы можете почувствовать себя застрявшим. К счастью, некоторые люди уже начали думать об этом, но есть еще много возможностей для улучшения. Эта книга будет особенно интересна людям, работающим на пересечении машинного обучения и причинного вывода.