Наука о данных — ничто без основного ингредиента: «Данные». Так что же такое данные?

«Ффакты и статистические данные, собранные вместе для справки или анализа»

Джон Тьюки в своей статье 1962 года под названием «Будущее анализа данных» предложил новую научную дисциплину под названием «Анализ данных», это была одна из важных работ в основе науки о данных. Позже книга «Исследовательский анализ данных» в 1977 году сделала эту область более заметной.

Реальные данные и данные специалистов по обработке и анализу данных

Реальные данные:изображения, видео, текст (блоги, новости, опросы), потоки кликов (взаимодействие пользователя с приложением), журналы (системные журналы), метрики и цифры (% ЦП, % памяти, финансовые показатели). , численность персонала), базы данных, измерения датчиков и т. д.

Большинство данных, с которыми мы взаимодействуем, имеют неструктурированный формат и их сложно анализировать. Для надлежащего анализа предпринимаются попытки преобразовать данные в структурированный формат (наиболее распространенной формой является табличныйформат). Однако не все данные могут быть представлены в этом формате (например, графические данные, пространственные данные).

Существует разбиение данных реального мира на данные, понятные машине. Пример:

  • Изображение рассматривается как набор значений пикселей.
  • Блог можно рассматривать как набор индексов из словаря и т. д.

С точки зрения Data Science данные реального мира приводятся к таким терминам, как: Категорический, Числовой, Номинальный, Порядковый. strong>, Двоичный, Интервал, Отношение, Дискретный, Непрерывный, >Счетчик, Время

Для каждого типа данных определены разные методы исследования и обработки, поэтому лучше понимать тонкие различия.

Числовые: данные, представленные в виде чисел, а не текста, и, следовательно, поддающиеся измерению.

Непрерывный: данные, которые могут принимать бесконечное количество значений. Пример: вес, рост, количество, прибыль, как показано ниже.

Дискретные: данные, которые могут принимать только различные значения. Пример: количество ИТ-билетов, количество учащихся в классе, количество дней в месяце. Также называется данными Count.

Интервал: данные измеряются по шкале, в которой все точки расположены на одинаковом расстоянии друг от друга. Интервальные данные можно складывать или вычитать, но нельзя делить или умножать. Абсолютного нуля не существует. Примеры: шкала pH, температура в градусах Цельсия и т. д.

Коэффициент: почти такой же, как интервальная шкала, однако существует абсолютный нуль, который можно делить и умножать. Данные соотношения не имеют отрицательного числового значения. Пример: рост, вес, объем и т. д.

Категория: любые данные, не являющиеся числами, которые могут означать текст, дату и т. д. Могут быть случаи обработки числовых данных, таких как 1 – "Успешно" и 0 – "Неудачно", но они не имеют числовых значений. значение. Другие примеры, такие как имена, класс, страна, семейное положение и т. д.

Номинальные: дискретные значения без числового значения, примеры типов инцидентов, типов компаний, названий языков и т. д. Между различными категориями нет числовой связи.

Двоичный: особый случай категориальных данных только с двумя категориями. (Верно/Неверно, 0/1, Пройдено/Не пройдено и т. д.)

Порядковые: дискретные упорядоченные значения. Порядок здесь имеет значение, и в этом основное различие между номинальным и порядковым номером. Пример: класс студента, приоритет проблемы/ошибки, иерархия компании.

Время. Теоретически это не отдельный тип данных, и в зависимости от контекста и использования могут обрабатываться по-разному. Поскольку данные временных рядов сегодня важны во многих решениях для машинного обучения (прогнозирование), и даже панды предоставляют простые в использовании функции, связанные со временем, поэтому заслуживают отдельного упоминания.

Еще раз подчеркнуть:

Типы данных важны, поскольку для разных типов данных подходят разные статистические методы. Поэтому знание типов данных позволяет выбрать правильный метод анализа. И это один из первых шагов к правильному исследовательскому анализу.

Примечание. Статистический и связанный с ним исследовательский анализ может не применяться к данным аудио/видео/изображений, которые становятся все более распространенными в сфере глубокого обучения и будут рассмотрены в следующем посте.