Редактор - Измаил Нджи

Наука о данных объединяет различные области работы в области статистики и вычислений, чтобы интерпретировать данные с целью принятия решений. [1]

Специалисты по работе с данными работают для того, чтобы разбираться в необработанных данных и стремиться сделать их более ценными для компании. Услуги Data Scientist являются ключевыми в секторе розничной торговли, так что предприятия могут лучше понимать свою аудиторию и способы таргетинга своих продуктов. Специалисты по обработке данных также играют ключевую роль в следующих отраслях: финансы, развлечения и здравоохранение.

Специалисты по обработке данных используют статистические методы для принятия обоснованных решений относительно имеющихся данных. Мы опубликовали статью Роль математики в науке о данных, в которой дается краткий обзор методов математики, применимых в области науки о данных.

Наняв специалиста по анализу данных, работодатель хочет понять следующее:

  • Как данные можно превратить в прибыль.
  • Можно ли повысить эффективность за счет анализа определенных наборов данных?
  • Как компания может использовать эти данные для роста?

Чтобы прийти к выводу, идентифицирующему все вышеперечисленное, специалисту по анализу данных необходимо учитывать следующее:

  1. Сбор данных
  2. Понимание и очистка данных
  3. Визуализация данных
  4. Моделирование данных
  5. Контекстный анализ данных

Сбор данных

Нам нужны данные откуда-то…

(Для тех, кто ищет набор данных для конкретных проектов, в KDnuggets есть отличная страница со списком множества репозиториев данных)

Специалист по данным, вероятно, найдет данные из внешних источников (возможно, из репозиториев выше) и / или внутренних источников, таких как базы данных. Общие форматы данных включают:

  • Файлы со значениями, разделенными запятыми (.csv). Файлы, разделенные разделителем (например, «,» или «-»). Каждая строка - это новая запись.
  • Нотация объектов JavaScript (.json), формат, который легко читать людям, который используется при передаче данных.

Инструменты:

Навыки управления базами данных: использование языка структурированных запросов (SQL), языка, предназначенного для управления и хранения данных в базах данных.

Фреймворки: Apache Hadoop, Apache Spark. В частности, основным элементом Hadoop является использование распределенной файловой системы, системы, в которой данные хранятся в компьютерных кластерах. С другой стороны, Spark использует мультимножества данных, которые распределяются по кластерам; известные как устойчивые распределенные наборы данных (RDD).

Анализ и очистка данных

Этот раздел, пожалуй, самый важный. Чтобы ограничить неточность возможных моделей и выводов, сделанных на основе данных, специалисты по обработке данных должны понимать данные, которые находятся перед ними, и по возможности стараться их очистить.

Что я имею в виду под чисткой?

По сути, специалист по данным будет искать ошибки, отсутствующие значения или неправильные записи в наборе данных. Пропускайте или исправляйте определенные записи, чтобы контекстный анализ данных в отношении проблемы был как можно более точным.

Инструменты:

В языках программирования, таких как Python и R. Python есть библиотека под названием Pandas, которая позволяет очищать данные и манипулировать данными в форме Dataframes. Пакеты dplyr и tidyr доступны в R для выполнения Data Wrangling (преобразования и отображения данных).

Визуализация данных

Здесь цель состоит в том, чтобы найти закономерности среди набора данных. После этого, не забывая о том, чтобы визуальные элементы были понятны зрителю, специалисты по обработке данных будут использовать статистику для определения функций набора данных, которые имеют важное значение. Другими словами, если p-значение переменной меньше 0,05, оно будет упомянуто!

Инструменты:

Понимание статистики здесь невероятно важно в процессе использования визуальных элементов для представления данных. Таблеу - это отличный инструмент для визуализации.

К полезным библиотекам в Python относятся: Numpy, Matplotlib, Pandas, Seaborn.

Полезные пакеты в R включают: ggplot2 и ggvis

Моделирование данных

Машинное обучение - мощный инструмент для любого бизнеса. После очистки данных можно использовать прогнозный анализ, чтобы помочь в принятии решений для решения проблем или расширения областей в компании. Упомянутый в нашем первом рассказе, регрессия - это инструмент, который можно использовать для предсказания будущих случаев. Компании могут использовать предиктивный анализ, чтобы спрогнозировать прибыль на следующий год; в результате бизнес может адаптировать свои решения на основе результатов прогнозной модели.

Инструменты:

Концепции машинного обучения, такие как регрессия посредством контролируемого обучения и / или кластеризация K-средних посредством неконтролируемого обучения.

Python имеет scikit-learn, библиотеку машинного обучения, которая включает алгоритмы регрессии и кластеризации. В R есть CARET, пакет обучения классификации и регрессии.

Контекстный анализ данных

Куда дальше пойдет компания?

Какие мы устанавливаем цены?

Что-то не так?

Это все вопросы, которые бизнес задаст специалисту по анализу данных; после вышеуказанных вычислений они дадут рекомендации. Им необходимо понимать суть проблемы, и специалисты по данным также должны убедиться, что визуальные эффекты просты, поскольку это важная часть общения с нетехнической аудиторией. Их цель - помочь им, а не сбить их с толку. Модель предоставит специалистам по анализу данных окончательные доказательства того, как должен развиваться бизнес.

Инструменты:

  • Знание компании
  • Общие бизнес-знания
  • Навыки коммуникации
  • Визуализация данных

Заключение

Понять поставленную проблему, получить данные, понять и очистить данные, чтобы предотвратить катастрофические результаты в анализе, представить данные с помощью визуальных элементов, которые сделаны простыми, но информативными для аудитории, смоделировать данные (при необходимости) для прогнозирования случаев, которые дадут результат компания представляет собой представление о том, чего следует ожидать, и, наконец, предлагает решение проблемы. Специалистам по обработке данных также необходимо по возможности обновлять модели. Со временем появятся новые переменные / функции, которые необходимо будет учитывать в прогнозном анализе. Предыдущая модель не очень хорошо отображает данные с учетом новых функций. Новые функции принесут новые решения, которые затем необходимо будет транслировать.

Помните: компании стремятся осмыслить данные, которые проходят через их компанию, чтобы принимать решения, которые решат существующие проблемы. Работа специалиста по данным состоит в том, чтобы проанализировать эти данные, представить эти данные и дать рекомендации компании, как решить такие проблемы.