Руководство по проникновению в науку о данных

Что такое наука о данных, почему она важна и как ей научиться —

Цель этой статьи: кратко объяснить, что такое наука о данных, чем она полезна, и порекомендовать одни из лучших ресурсов для изучения дисциплины.

Наука о данных – это количественная наука об обработке больших объемов неструктурированных данных для получения более четкой информации и систематизированной информации.

Данные могут считаться «маленькими», как можно понять из типичной электронной таблицы или компьютерного файла, ИЛИ «большими», превышающими возможности обработки одного компьютера (например, терабайты данных).

Цель состоит в том, чтобы собрать воедино весь этот шум, чтобы сформировать идеи, понятные людям. Примеры задач в науке о данных включают исследовательский анализ данных, прогнозное моделирование, визуализацию, статистическое моделирование и многое другое.

См. ниже более подробную информацию об общих важных приложениях науки о данных с помощью машинного обучения и других подходов.

Наиболее популярными языками программирования для науки о данных являются Python и R. Многие библиотеки с открытым исходным кодом были разработаны, чтобы упростить выполнение общих задач с помощью доступных функций для управления данными.

Общие библиотеки обработки данных включают Numpy, Pandas, Matplotlib и несколько библиотек машинного обучения, таких как Scikit-learn, Tensorflow, PyTorch, Keras и другие.

Модели машинного обучения можно сгруппировать в основные категории в зависимости от их предполагаемых функций.

Это часть более крупной серии, известной как Autodidact Project. Подробнее об этом путешествии и о том, как присоединиться — см. в этой статье:

Рождение проекта Autodidact
Создание сложной учебной программы для самостоятельного обучения. Как это повлияло на жизнь и работу. Рождение интернет-сообщества.medium.com

Общие случаи машинного обучения Realword:

Вот некоторые примеры использования машинного обучения и моделей глубокого обучения:

Алгоритмы машинного обучения:

Прогнозирование будущих цен на акции на основе прошлых торговых данных (пример задачи регрессии — получение количественного результата [т.е. 723,11 доллара США])
Прогнозирование того, не выполнит ли кто-то дефолт по банковскому кредиту или нет (пример задачи классификации - создание двоичного вывода [т.е. Да или Нет])
Кластеризация данных в связанные группы. Какие записи данных обладают сходными качествами и что у них общего?
Сведение размерности мультиомных медицинских данных к ее важнейшим характеристикам (PCA, анализ главных координат)
Определить, является ли событие необычным или нет (обнаружение аномалий)

Алгоритмы глубокого обучения:

Понимание человеческого почерка (распознавание изображений)
Преобразование текста в речь (аудиораспознавание)
Обучение компьютера тому, как играть и побеждать в видеоигре (обучение с подкреплением)

Алгоритмы принятия решений:

Рекомендации по поиску на YouTube, Netflix, Amazon на основе ваших просмотров видео или истории покупок. Что пользователь, скорее всего, захочет посмотреть или купить, основываясь на своей прошлой истории просмотров или корзине покупок?
Создание дерева решений. Построение визуальной и понятной для человека серии утверждений «если-то».

Обработка естественного языка (NLP):

Разговорный агент (т. е. личный помощник Siri на iPhone может понимать некоторые из наших запросов с помощью нашего голоса)
Перевод между языками (например, Google Translate)
Анализ настроений (например, это счастливый или расстроенный отзыв Yelp?)
Создание чат-бота (компьютер слушает и отвечает «на лету» заранее запрограммированными ответами)

Типичные этапы проекта машинного обучения:

Проекты машинного обучения, как правило, следуют аналогичной последовательности шагов. Понимание этой высокоуровневой модели облегчит процесс обучения. Обычные этапы проекта по машинному обучению или науке о данных следующие:

Получите набор данных. Общие подходы включают в себя: выборку из базы данных с помощью SQL-запроса, импорт компьютерного файла или загрузку данных из Интернета.
Очистите данные. Удалите все пропущенные значения, переформатируйте столбцы, исключите ненужную информацию.
Исследовательский анализ данных. Изучите данные, создайте сводную статистику и предварительные графики, чтобы можно было генерировать идеи.
Решите, какой дизайн модели является лучшим на основе ваших данных.
Создайте версию модели, используя алгоритм из импортированной библиотеки. Например: построение линейной модели или классификатора.
Обучите прогностическую модель на основе ваших данных (обучающий набор).
Проверьте, насколько хорошо он работает на новых данных, которых он никогда не видел (набор тестов).
Настройте гиперпараметры, чтобы повысить производительность модели.
Выполнение сторителлинга данных. Создавайте графики и делитесь результатами своей окончательной модели.

Обзор поля:

Рассмотрите эти очень полезные статьи и видеоролики на YouTube, чтобы глубже погрузиться в профессию специалиста по данным и интересные проекты машинного обучения.

Я рекомендую прочитать эти статьи и посмотреть эти видео, прежде чем начинать свой собственный план обучения (также известный как проект «Автодидакт»).

Наглядное введение в машинное обучение
Давайте вернемся к предложенной ранее границе 73-метровой высоты, чтобы увидеть, как мы можем улучшить нашу интуицию. Понятно…www.r2d3.us

Ученый по данным: самая привлекательная профессия 21 века
Когда Джонатан Голдман пришел в июне 2006 года на работу в LinkedIn, сайт бизнес-сетей, это место все еще казалось…hbr.org

Инженер данных и специалист по данным: в чем разница?
Проще говоря: «Инженеры данных — это сантехники, строящие конвейер данных, а специалисты по данным — художники… блог.panoply.io

Прочее / бонусная подготовка:

Используйте эти дополнительные учебные ресурсы для дальнейшего обучения и карьерного роста.

Проектирование баз данных и хранилищ данных

Изучите, как данные организованы и хранятся.

Kaggle.com — коллекция конкурсов по науке о данных

Как найти интересные практические задачи?

Знаменитый курс Эндрю Нг по машинному обучению — Coursera

Вероятно, самый известный в мире курс по машинному обучению.

Книга по обработке естественного языка (NLP)

Как обрабатывать текстовые данные?

Deeplearning.ai

Используйте это для большей практики и обучения. Здесь много полезных ресурсов.

Fast.ai

Используйте это для большей практики и обучения. Здесь много полезных ресурсов.

Желаем удачи в этом путешествии! Надеюсь, вам понравится, и вы создадите интересные и значимые для вас проекты.

Не стесняйтесь комментировать ниже свои мысли и пишите мне в Твиттере на @sivx76 или @autodidactproj, так как мы каждую неделю публикуем новый учебный ресурс, рецензию на книгу, учебное пособие и многое другое.