Наука о данных

Эти навыки науки о данных станут вашей суперсилой

Жесткие и мягкие навыки, которые сделают ваше обучение науке о данных полноценным

Введение

Большинство программ академической подготовки в области науки о данных ориентированы в основном на обучение жестким навыкам. Снова и снова отраслевые данные, рыночные тенденции и идеи ведущих бизнес-лидеров подчеркивают, что межличностные навыки являются ключевым компонентом успеха на рабочем месте. В этой статье будут обсуждаться основные твердые и мягкие навыки для успеха в практике науки о данных.

II. Хорошие навыки

1. Навыки математики и статистики

Математические навыки необходимы в науке о данных и машинном обучении. Дополнительные сведения об основных математических навыках, необходимых для науки о данных и машинного обучения, см. В этой статье: Сколько математики мне нужно в науке о данных?

2. Основные навыки программирования

Навыки программирования необходимы в науке о данных. Поскольку Python и R считаются двумя самыми популярными языками программирования в науке о данных, важные знания обоих языков имеют решающее значение. Для получения дополнительной информации об основных навыках программирования, необходимых для науки о данных, см. Эту статью: Сколько мне нужно программирования в науке о данных?

3. Навыки обработки и обработки данных

Данные являются ключом к любому анализу в науке о данных, будь то анализ выводов, прогнозный анализ или предписывающий анализ. Прогностическая сила модели зависит от качества данных, которые использовались при построении модели. Данные поступают в различных формах, таких как текст, таблица, изображение, голос или видео. Чаще всего данные, которые используются для анализа, необходимо добывать, обрабатывать и преобразовывать, чтобы привести их в форму, подходящую для дальнейшего анализа.

i) Обработка данных. Процесс обработки данных - важный шаг для любого специалиста по данным. Очень редко данные в проектах по науке о данных легко доступны для анализа. Скорее всего, данные находятся в файле, базе данных или извлечены из таких документов, как веб-страницы, твиты или PDF-файлы. Знание того, как обрабатывать и очищать данные, позволит вам извлекать из ваших данных важную информацию, которая в противном случае была бы скрыта.

ii) Предварительная обработка данных. Знания о предварительной обработке данных очень важны и включают такие темы, как:

а) Работа с недостающими данными

б) вменение данных

в) Обработка категориальных данных

г) Кодирование меток классов для задач классификации

д) Методы преобразования признаков и уменьшения размерности, такие как анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA).

4. Навыки визуализации данных

Разберитесь в основных компонентах хорошей визуализации данных (см. Рисунок ниже). Уметь использовать несколько пакетов визуализации данных, таких как matplotlib, seaborn и ggplot2.

5. Базовые навыки машинного обучения

Машинное обучение - очень важная отрасль науки о данных. Важно понимать структуру машинного обучения: Постановка задачи; Анализ данных; Построение модели, тестирование и оценка; и модельное приложение.

Узнайте больше о платформе машинного обучения здесь: Учебное пособие по процессу машинного обучения.

6. Навыки из реальных проектов в области науки о данных

Навыки, приобретенные только в ходе курсовой работы, не сделают вас специалистом по данным. Квалифицированный специалист по данным должен быть в состоянии продемонстрировать доказательства успешного завершения реального проекта в области науки о данных, который включает в себя все этапы процесса обработки и машинного обучения, такие как построение проблемы, сбор и анализ данных, построение модели, тестирование модели, оценка модели и т. Д. и развертывание модели. Реальные проекты в области науки о данных можно найти в следующих источниках:

а) Проекты Kaggle

б) Стажировки

в) Из интервью

III. Мягкие навыки

1. Коммуникационные навыки

Специалисты по обработке данных должны иметь возможность делиться своими идеями с другими членами команды или бизнес-администраторами в своих организациях. Хорошие коммуникативные навыки сыграли бы здесь ключевую роль, чтобы иметь возможность передавать и представлять техническую информацию людям, мало или совсем не понимающим технических концепций в науке о данных. Хорошие коммуникативные навыки помогут создать атмосферу единства и сплоченности с другими членами команды, такими как аналитики данных, инженеры данных, полевые инженеры и т. Д.

2. Будьте учеником на протяжении всей жизни

Наука о данных - это область, которая постоянно развивается, поэтому будьте готовы осваивать и изучать новые технологии. Один из способов оставаться в курсе событий в этой области - общаться с другими специалистами по данным. Некоторые платформы, которые способствуют созданию сетей, - это LinkedIn, github и medium (публикации На пути к науке о данных и На пути к AI). Эти платформы очень полезны для получения последней информации о последних разработках в этой области.

3. Навыки командного игрока

Как специалист по данным, вы будете работать в команде аналитиков данных, инженеров, администраторов, поэтому вам потребуются хорошие коммуникативные навыки. Вы также должны быть хорошим слушателем, особенно на ранних этапах разработки проекта, когда вам нужно полагаться на инженеров или другой персонал, чтобы иметь возможность спроектировать и сформулировать хороший проект по науке о данных. Мир хороших командных игроков поможет вам преуспеть в деловой среде и поддерживать хорошие отношения с другими членами вашей команды, а также с администраторами или директорами вашей организации.

4. Деловая хватка.

Очень важный набор навыков, необходимых для практического применения, - это деловая хватка. Деловая хватка - это способность делать значимые выводы из модели, которая может привести к принятию важных и экономичных решений на основе данных. Поэтому приобретение навыков деловой хватки необходимо для практических специалистов по анализу данных.

5. Этические навыки в науке о данных

Поймите значение вашего проекта. Будьте честны с собой. Избегайте манипулирования данными или использования методов, которые намеренно приводят к искажению результатов. Будьте этичны на всех этапах: от сбора данных до анализа, построения модели, анализа, тестирования и применения. Избегайте фальсификации результатов с целью ввести в заблуждение или манипулировать вашей аудиторией. Будьте этичны в интерпретации результатов своего проекта в области науки о данных.

IV. Резюме и заключение

Таким образом, мы обсудили несколько важных навыков, необходимых практикующим специалистам по обработке данных. Хотя академические учебные программы хорошо помогают в обучении жестким навыкам, межличностные навыки необходимы для успеха в реальном мире.

Дополнительные ресурсы по науке о данных / машинному обучению

Сколько математики мне нужно в науке о данных?

Учебная программа по науке о данных

5 лучших степеней для входа в науку о данных

Теоретические основы науки о данных - мне нужно заботиться или просто сосредоточиться на практических навыках?

Планирование проекта машинного обучения

Как организовать свой проект по науке о данных

Инструменты повышения производительности для крупномасштабных проектов в области науки о данных

Портфолио Data Science более ценно, чем резюме

С вопросами и запросами пишите мне: [email protected]