Существует так много отличных ресурсов для бесплатного изучения науки о данных и анализа. За последний год я прочитал довольно много книг по науке о данных и хотел бы поделиться некоторыми из лучших. Если вы изучаете или занимаетесь наукой о данных и не читали эти книги, я действительно думаю, что их стоит добавить в свой список для чтения на 2019 год. Ниже приводится список из 10 лучших, которые я нашел для себя наиболее полезными за последние несколько лет, которые в настоящее время доступны в Интернете.

Автоматизируйте скучные вещи

Мне очень нравится эта книга, это простое введение в начало работы с python с практической точки зрения. Несмотря на то, что она не является специальной книгой, связанной с наукой о данных, она включает в себя большинство основных концепций использования Python для науки о данных. Включая управление потоком, функции, парсинг веб-страниц, работу с файлами csv и json и запуск программ. Она очень нацелена на абсолютных новичков, так что это отличная книга для начала работы с python. Помимо пошаговых инструкций по каждой технике, в конце каждой главы также есть практические вопросы и задачи.

Наука о данных в командной строке

Я начал использовать python для анализа данных исключительно в Jupyter Notebooks. Однако со временем я обнаружил, что использование командной строки позволяет мне работать более эффективно. Например, я могу очень быстро получать данные, запускать программы и искать файлы, набирая команды и нажимая Enter в окне терминала. Эта книга представляет собой очень доступное и исчерпывающее руководство по науке о данных из командной строки. В каждой главе, наряду с рабочими примерами, описывается, как получать, очищать, исследовать, моделировать и интерпретировать данные с помощью командной строки.

Подумайте о статистике



Это действительно практический обзор статистики для науки о данных. Книга использует набор данных из Национального института здоровья для объяснения основных концепций вероятности и статистики, необходимых для науки о данных и анализа. Это еще одна очень практичная книга, которая включает в себя множество примеров кода на Python и простых программ для объяснения концепций. Это намного легче, чем многие другие теоретические учебники по этому предмету, которые вы можете найти, и я обнаружил, что это действительно соответствует моему стилю обучения.

Справочник по науке о данных Python

Это действительно исчерпывающее руководство по Python для науки о данных. Это строит от новичка до продвинутых концепций. Есть глава о iPython, которая действительно сильно повлияла на мою эффективность как практикующего специалиста по науке о данных. В этой книге также рассматриваются Numpy, обработка данных с помощью Pandas, методы визуализации и машинное обучение. В частности, глава "Машинное обучение" действительно хороша и охватывает как практическую реализацию различных библиотек, так и основные принципы их работы.

R для науки о данных



В основном я работаю на python, но все же считаю, что действительно полезно иметь хотя бы рабочие знания R. Я часто обнаруживал, что если хорошая библиотека для определенного метода недоступна в python, R обычно имеет ее. Эта книга представляет собой действительно исчерпывающее руководство по науке о данных с помощью R и охватывает все, от визуализации и преобразования данных до рабочего процесса R и моделирования данных.

Вероятностное программирование и байесовские методы для хакеров



CamDavidsonPilon / Вероятностное программирование и байесовские методы для хакеров
aka« Байесовские методы для хакеров
: введение в байесовские методы + вероятностное программирование с… github.com »



По словам авторов, эта книга - попытка преодолеть разрыв между байесовской математикой и вероятностным программированием, и я считаю, что это очень хорошо получается. Как и в случае с Think Stats, он отходит от строго теоретических учебников и предлагает практические примеры использования байесовского вывода, при этом подход заключается в первую очередь в вычислительном понимании, а во-вторых, в математическом понимании. Это еще одна книга на основе Python с множеством практических примеров, в которой используются преимущественно библиотеки PyMC.

Стремление к машинному обучению



Черновик этой книги Эндрю Нг выпустил в этом году. Он предназначен для того, чтобы научить специалистов по данным, как структурировать проекты машинного обучения, и задать направление работе группы специалистов по анализу данных. Это хороший обзор того, когда и как использовать машинное обучение и как справиться со сложностями, связанными с внедрением ИИ в реальном мире.

Этика и наука о данных



В этом году в новостях много говорилось о предвзятости в приложениях машинного обучения, а также о защите данных и конфиденциальности. Я прочитал эту книгу, так как хотел убедиться, что у меня есть необходимые знания для практики хорошей науки о данных. В этой книге рассказывается, как внедрить этические принципы в проекты по науке о данных. Он включает в себя действительно хороший контрольный список, который нужно пройти при разработке проекта, а также множество предложений по включению этических норм в общую культуру данных. Еще один ресурс, выпущенный в этом году в очень похожей форме, - это инструмент командной строки deon от drivendata.org. Этот инструмент позволяет встроить контрольный список этических норм в проекты по науке о данных. Это определенно то, что я обязательно включу в свою работу в новом году.

Глубокое обучение

Это отличная книга теперь доступна для бесплатного чтения в Интернете. Он охватывает прикладную математику для машинного обучения и, в частности, уделяет большое внимание глубокому обучению. Он охватывает математику, лежащую в основе ключевых понятий глубокого обучения, таких как сверточные сети, регуляризация, а также рекуррентные и рекурсивные сети. Это во многом теоретическая книга, но она дает глубокое понимание предмета. Он также включает главы о практическом применении этих методов.

Правила машинного обучения

Это действительно электронная книга / бумага, и ее объем всего около 24 страниц. Тем не менее, я должен включить его сюда, так как это такой замечательный ресурс, и я случайно нашел его в твиттере в этом году. Здесь рассматриваются некоторые передовые практики Google по реализации проекта машинного обучения. Он подчеркивает важность инженерии данных для создания отличных функций и надежного конвейера данных по сравнению с опытом машинного обучения.

Эти книги были для меня действительно полезными за последние пару лет, я всегда удивлялся количеству и качеству бесплатных ресурсов, доступных в Интернете. Я уверен, что буду продолжать возвращаться к ним в 2019 году и в последующий период и, надеюсь, найду еще несколько замечательных ресурсов, которыми можно поделиться. С Новым Годом!