Наука о данных - это такая обширная область, которая включает в себя несколько подразделов, таких как подготовка и исследование данных; представление и преобразование данных; визуализация и представление данных; предиктивная аналитика; машинное обучение и т. д. Для новичков вполне естественно задать следующий вопрос: Какие навыки мне нужны, чтобы стать специалистом по данным?

В этой статье мы обсудим 10 основных навыков, которые необходимы практикующим специалистам по данным. Эти навыки можно сгруппировать в 2 категории, а именно: технологические навыки (математика и статистика, навыки программирования, навыки обработки и предварительной обработки данных, навыки визуализации данных, навыки машинного обучения и навыки работы с проектами в реальном мире) и мягкие навыки (навыки общения, навыки непрерывного обучения, навыки командного игрока и этические навыки).

Наука о данных - это область, которая постоянно развивается, однако освоение основ науки о данных предоставит вам необходимый фон, который вам понадобится для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д. В этой статье будут обсуждаться 10 основных навыков для практикующие специалисты по данным.

10 основных навыков, которые нужно знать, чтобы начать заниматься наукой о данных

1. Навыки математики и статистики

(I) Статистика и вероятность

Статистика и вероятность используются для визуализации функций, предварительной обработки данных, преобразования функций, вменения данных, уменьшения размерности, разработки функций, оценки модели и т. Д. Вот темы, с которыми вам необходимо ознакомиться:

а) Среднее

б) Медиана

в) Режим

г) Стандартное отклонение / дисперсия

д) Коэффициент корреляции и ковариационная матрица

е) Распределения вероятностей (биномиальное, пуассоновское, нормальное)

г) p-значение

з) MSE (среднеквадратичная ошибка)

i) Оценка R2

j) Теорема Байе (точность, отзыв, положительное прогнозное значение, отрицательное прогнозируемое значение, матрица неточности, кривая ROC)

л) A / B-тестирование

l) Моделирование Монте-Карло

(II) многомерное исчисление

Большинство моделей машинного обучения построены с использованием набора данных, имеющего несколько функций или предикторов. Следовательно, знакомство с многомерным исчислением чрезвычайно важно для построения модели машинного обучения. Вот темы, с которыми вам необходимо ознакомиться:

а) Функции нескольких переменных

б) Производные и градиенты

c) Шаговая функция, сигмовидная функция, логит-функция, функция ReLU (выпрямленная линейная единица).

г) Функция затрат

д) Построение функций

е) Минимальное и максимальное значения функции

(III) Линейная алгебра

Линейная алгебра - самый важный математический навык в машинном обучении. Набор данных представлен в виде матрицы. Линейная алгебра используется при предварительной обработке данных, преобразовании данных и оценке модели. Вот темы, с которыми вам необходимо ознакомиться:

а) Векторы

б) Матрицы

в) транспонировать матрицу

г) Обратная матрица

д) Определитель матрицы

е) Точечный продукт

ж) Собственные значения

з) Собственные векторы

(IV) Методы оптимизации

Большинство алгоритмов машинного обучения выполняют прогнозное моделирование, минимизируя целевую функцию, тем самым изучая веса, которые должны применяться к данным тестирования, чтобы получить предсказанные метки. Вот темы, с которыми вам необходимо ознакомиться:

а) Функция затрат / целевая функция

б) Функция правдоподобия

в) Функция ошибки

г) Алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска)

Узнайте больше об алгоритме градиентного спуска здесь: Машинное обучение: как работает алгоритм градиентного спуска.

2. Основные навыки программирования

Навыки программирования необходимы в науке о данных. Поскольку Python и R считаются двумя самыми популярными языками программирования в науке о данных, важные знания обоих языков имеют решающее значение. Некоторым организациям могут потребоваться навыки только в R или Python, но не в обоих одновременно.

(I) Навыки в Python

Ознакомьтесь с базовыми навыками программирования на Python. Вот наиболее важные пакеты, которые вы должны освоить, как использовать:

а) Нумпи

б) Панды

в) Матплотлиб

г) Сиборн

д) Scikit-learn

е) PyTorch

(ii) Навыки в R

а) Тидиверс

б) Dplyr

в) Ggplot2

г) Каретка

д) Stringr

(iii) Навыки на других языках программирования

Некоторым организациям или отраслям могут потребоваться навыки владения следующими языками программирования:

а) Excel

б) Табло

в) Hadoop

г) SQL

д) Искра

3. Навыки обработки и предварительной обработки данных

Данные являются ключом к любому анализу в науке о данных, будь то анализ выводов, прогнозный анализ или предписывающий анализ. Прогностическая сила модели зависит от качества данных, которые использовались при построении модели. Данные поступают в различных формах, таких как текст, таблица, изображение, голос или видео. Чаще всего данные, которые используются для анализа, необходимо добывать, обрабатывать и преобразовывать, чтобы привести их в форму, подходящую для дальнейшего анализа.

i) Обработка данных. Процесс обработки данных - важный шаг для любого специалиста по данным. Очень редко данные в проектах по науке о данных легко доступны для анализа. Скорее всего, данные находятся в файле, базе данных или извлечены из таких документов, как веб-страницы, твиты или PDF-файлы. Знание того, как обрабатывать и очищать данные, позволит вам извлекать из ваших данных важную информацию, которая в противном случае была бы скрыта.

ii) Предварительная обработка данных. Знания о предварительной обработке данных очень важны и включают такие темы, как:

а) Работа с недостающими данными

б) вменение данных

в) Обработка категориальных данных

г) Кодирование меток классов для задач классификации

e) Методы преобразования признаков и уменьшения размерности, такие как анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA).

4. Навыки визуализации данных

Разберитесь в основных компонентах хорошей визуализации данных.

а) Компонент данных. Важным первым шагом в принятии решения о том, как визуализировать данные, является определение типа данных, например категориальные данные, дискретные данные, непрерывные данные, данные временных рядов и т. д.

б) Геометрический компонент: здесь вы решаете, какой вид визуализации подходит для ваших данных, например точечная диаграмма, линейные графики, гистограммы, гистограммы, qq-графики, гладкие плотности, прямоугольные диаграммы, парные диаграммы, тепловые карты и т. д.

c) Компонент сопоставления: здесь вам нужно решить, какую переменную использовать в качестве переменной x, а что использовать в качестве переменной y. Это важно, особенно когда ваш набор данных многомерный с несколькими функциями.

г) Компонент шкалы. Здесь вы решаете, какие шкалы использовать, например линейная шкала, логарифм и т. д.

д) Компонент меток. Сюда входят такие вещи, как метки осей, заголовки, легенды, размер шрифта и т. д.

е) Этический компонент: здесь вы хотите убедиться, что ваша визуализация рассказывает правду. Вы должны осознавать свои действия при очистке, суммировании, манипулировании и создании визуализации данных и убедиться, что вы не используете визуализацию для введения в заблуждение или манипулирования аудиторией.

5. Базовые навыки машинного обучения

Машинное обучение - очень важная отрасль науки о данных. Важно понимать структуру машинного обучения: Постановка задачи; Анализ данных; Построение модели, тестирование и применение модели. Узнайте больше о платформе машинного обучения здесь: Процесс машинного обучения.

Ниже приведены важные алгоритмы машинного обучения, с которыми необходимо ознакомиться.

i) Обучение с учителем (непрерывное прогнозирование переменных)

а) Базовая регрессия

б) Мультирегрессионный анализ

в) Регуляризованная регрессия

ii) Обучение с учителем (прогнозирование дискретных переменных)

а) Классификатор логистической регрессии

б) Машинный классификатор опорных векторов

в) Классификатор K-ближайшего соседа (KNN)

г) Классификатор дерева решений

д) Классификатор случайных лесов

iii) Обучение без учителя

а) Алгоритм кластеризации Kmeans

6. Навыки из реальных проектов в области науки о данных

Навыки, приобретенные только в ходе курсовой работы, не сделают вас специалистом по данным. Квалифицированный специалист по данным должен быть в состоянии продемонстрировать доказательства успешного завершения реального проекта в области науки о данных, который включает в себя все этапы процесса обработки и машинного обучения, такие как построение проблемы, сбор и анализ данных, построение модели, тестирование модели, оценка модели и т. Д. и развертывание модели. Реальные проекты в области науки о данных можно найти в следующих источниках:

а) Проекты Kaggle

б) Стажировки

в) Из интервью

7. Коммуникационные навыки

Специалисты по обработке данных должны иметь возможность передавать свои идеи другим членам команды или бизнес-администраторам в своих организациях. Хорошие коммуникативные навыки сыграли бы здесь ключевую роль, чтобы иметь возможность передавать и представлять техническую информацию людям, мало или совсем не понимающим технических концепций в науке о данных. Хорошие коммуникативные навыки помогут создать атмосферу единства и сплоченности с другими членами команды, такими как аналитики данных, инженеры данных, полевые инженеры и т. Д.

8. Учись на протяжении всей жизни.

Наука о данных - это область, которая постоянно развивается, поэтому будьте готовы осваивать и изучать новые технологии. Один из способов оставаться в курсе событий в этой области - пообщаться с другими специалистами по данным. Некоторые платформы, которые способствуют развитию сетей, - это LinkedIn, github и medium (публикации На пути к науке о данных и На пути к AI). Платформы очень полезны для получения актуальной информации о последних разработках в этой области.

9. Навыки командного игрока

Как специалист по данным, вы будете работать в команде аналитиков данных, инженеров, администраторов, поэтому вам потребуются хорошие коммуникативные навыки. Вы также должны быть хорошим слушателем, особенно на ранних этапах разработки проекта, когда вам нужно полагаться на инженеров или другой персонал, чтобы иметь возможность спроектировать и сформулировать хороший проект в области науки о данных. Мир хороших командных игроков поможет вам преуспеть в деловой среде и поддерживать хорошие отношения с другими членами вашей команды, а также с администраторами или директорами вашей организации.

10. Этические навыки в науке о данных

Поймите значение вашего проекта. Будьте честны с собой. Избегайте манипулирования данными или использования методов, которые намеренно приводят к искажению результатов. Будьте этичны на всех этапах: от сбора данных до анализа, построения модели, анализа, тестирования и применения. Избегайте фальсификации результатов с целью ввести в заблуждение или манипулировать вашей аудиторией. Будьте этичны в интерпретации результатов своего проекта в области науки о данных.

Таким образом, мы обсудили 10 основных навыков, необходимых практикующим специалистам по данным. Наука о данных - это область, которая постоянно развивается, однако освоение основ науки о данных предоставит вам необходимый фон, необходимый для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д.