Редактор - Измаил Нджи
Наука о данных объединяет различные области работы в области статистики и вычислений, чтобы интерпретировать данные с целью принятия решений. [1]
Специалисты по работе с данными работают для того, чтобы разбираться в необработанных данных и стремиться сделать их более ценными для компании. Услуги Data Scientist являются ключевыми в секторе розничной торговли, так что предприятия могут лучше понимать свою аудиторию и способы таргетинга своих продуктов. Специалисты по обработке данных также играют ключевую роль в следующих отраслях: финансы, развлечения и здравоохранение.
Специалисты по обработке данных используют статистические методы для принятия обоснованных решений относительно имеющихся данных. Мы опубликовали статью Роль математики в науке о данных, в которой дается краткий обзор методов математики, применимых в области науки о данных.
Наняв специалиста по анализу данных, работодатель хочет понять следующее:
- Как данные можно превратить в прибыль.
- Можно ли повысить эффективность за счет анализа определенных наборов данных?
- Как компания может использовать эти данные для роста?
Чтобы прийти к выводу, идентифицирующему все вышеперечисленное, специалисту по анализу данных необходимо учитывать следующее:
- Сбор данных
- Понимание и очистка данных
- Визуализация данных
- Моделирование данных
- Контекстный анализ данных
Сбор данных
Нам нужны данные откуда-то…
Специалист по данным, вероятно, найдет данные из внешних источников (возможно, из репозиториев выше) и / или внутренних источников, таких как базы данных. Общие форматы данных включают:
- Файлы со значениями, разделенными запятыми (.csv). Файлы, разделенные разделителем (например, «,» или «-»). Каждая строка - это новая запись.
- Нотация объектов JavaScript (.json), формат, который легко читать людям, который используется при передаче данных.
Инструменты:
Навыки управления базами данных: использование языка структурированных запросов (SQL), языка, предназначенного для управления и хранения данных в базах данных.
Фреймворки: Apache Hadoop, Apache Spark. В частности, основным элементом Hadoop является использование распределенной файловой системы, системы, в которой данные хранятся в компьютерных кластерах. С другой стороны, Spark использует мультимножества данных, которые распределяются по кластерам; известные как устойчивые распределенные наборы данных (RDD).
Анализ и очистка данных
Этот раздел, пожалуй, самый важный. Чтобы ограничить неточность возможных моделей и выводов, сделанных на основе данных, специалисты по обработке данных должны понимать данные, которые находятся перед ними, и по возможности стараться их очистить.
Что я имею в виду под чисткой?
По сути, специалист по данным будет искать ошибки, отсутствующие значения или неправильные записи в наборе данных. Пропускайте или исправляйте определенные записи, чтобы контекстный анализ данных в отношении проблемы был как можно более точным.
Инструменты:
В языках программирования, таких как Python и R. Python есть библиотека под названием Pandas, которая позволяет очищать данные и манипулировать данными в форме Dataframes. Пакеты dplyr и tidyr доступны в R для выполнения Data Wrangling (преобразования и отображения данных).
Визуализация данных
Здесь цель состоит в том, чтобы найти закономерности среди набора данных. После этого, не забывая о том, чтобы визуальные элементы были понятны зрителю, специалисты по обработке данных будут использовать статистику для определения функций набора данных, которые имеют важное значение. Другими словами, если p-значение переменной меньше 0,05, оно будет упомянуто!
Инструменты:
Понимание статистики здесь невероятно важно в процессе использования визуальных элементов для представления данных. Таблеу - это отличный инструмент для визуализации.
К полезным библиотекам в Python относятся: Numpy, Matplotlib, Pandas, Seaborn.
Полезные пакеты в R включают: ggplot2 и ggvis
Моделирование данных
Машинное обучение - мощный инструмент для любого бизнеса. После очистки данных можно использовать прогнозный анализ, чтобы помочь в принятии решений для решения проблем или расширения областей в компании. Упомянутый в нашем первом рассказе, регрессия - это инструмент, который можно использовать для предсказания будущих случаев. Компании могут использовать предиктивный анализ, чтобы спрогнозировать прибыль на следующий год; в результате бизнес может адаптировать свои решения на основе результатов прогнозной модели.
Инструменты:
Концепции машинного обучения, такие как регрессия посредством контролируемого обучения и / или кластеризация K-средних посредством неконтролируемого обучения.
Python имеет scikit-learn, библиотеку машинного обучения, которая включает алгоритмы регрессии и кластеризации. В R есть CARET, пакет обучения классификации и регрессии.
Контекстный анализ данных
Куда дальше пойдет компания?
Какие мы устанавливаем цены?
Что-то не так?
Это все вопросы, которые бизнес задаст специалисту по анализу данных; после вышеуказанных вычислений они дадут рекомендации. Им необходимо понимать суть проблемы, и специалисты по данным также должны убедиться, что визуальные эффекты просты, поскольку это важная часть общения с нетехнической аудиторией. Их цель - помочь им, а не сбить их с толку. Модель предоставит специалистам по анализу данных окончательные доказательства того, как должен развиваться бизнес.
Инструменты:
- Знание компании
- Общие бизнес-знания
- Навыки коммуникации
- Визуализация данных
Заключение
Понять поставленную проблему, получить данные, понять и очистить данные, чтобы предотвратить катастрофические результаты в анализе, представить данные с помощью визуальных элементов, которые сделаны простыми, но информативными для аудитории, смоделировать данные (при необходимости) для прогнозирования случаев, которые дадут результат компания представляет собой представление о том, чего следует ожидать, и, наконец, предлагает решение проблемы. Специалистам по обработке данных также необходимо по возможности обновлять модели. Со временем появятся новые переменные / функции, которые необходимо будет учитывать в прогнозном анализе. Предыдущая модель не очень хорошо отображает данные с учетом новых функций. Новые функции принесут новые решения, которые затем необходимо будет транслировать.
Помните: компании стремятся осмыслить данные, которые проходят через их компанию, чтобы принимать решения, которые решат существующие проблемы. Работа специалиста по данным состоит в том, чтобы проанализировать эти данные, представить эти данные и дать рекомендации компании, как решить такие проблемы.