Говорят, что специалист по данным — это «самая сексуальная должность в 21 веке». Почему это такая востребованная должность в наши дни?

Короткий ответ заключается в том, что за последнее десятилетие произошел массовый взрыв данных, генерируемых и сохраняемых компаниями, а также вами и мной. Иногда мы называем это «большими данными», и нам хочется анализировать, извлекать закономерности, делать выводы, делать прогнозы с огромным количеством данных, лежащих вокруг.

Специалисты по данным — это люди, которые разбираются во всех этих данных и выясняют, что с ними можно сделать.

Что такое данные?

Словарное значение данных: «факты, такие как числа, слова, измерения, наблюдения и статистика, собранные вместе для справки или анализа».

Данные — Информация — Статистика

— Данные — это какие-то измерения, которые вы собираете. Это «сырая необработанная информация».

Обычно мы проводим некоторый статистический анализ этих данных и делаем из них значимые выводы.

Почему данные имеют значение?

  • Помогает лучше понять данные, определяя взаимосвязи.
  • Помогает предсказывать будущее или прогнозировать на основе предыдущей тенденции данных.
  • Помогает определить шаблоны, которые могут существовать между данными.
  • Помогает в обнаружении мошенничества, обнаруживая аномалии в данных.

В наши дни данные имеют большое значение, поскольку мы можем извлечь из них важную информацию.

В большинстве случаев ваши данные могут быть «структурированными» или «неструктурированными».

Структурированные (организованные) данные: данные, которые можно разбить на наблюдения и характеристики. Как правило, они организованы с использованием табличного метода (где строки — это наблюдения, а столбцы — характеристики).

  • Пример: Метеорологические данные, сообщаемые научными приборами в виде точных перемещений, будут считаться строго структурированными, поскольку они существуют в табличной структуре строк/столбцов.

Неструктурированные (неорганизованные) данные: данные, которые существуют как беспрепятственный поток и не соответствуют стандартной организационной иерархии, например табличности.

Имея дело со структурированными табличными данными (что мы обычно и делаем), первый вопрос, который мы обычно задаем себе, заключается в том, являются ли значения числовыми или категорическийхарактер.

Количественные данные — это информация о количествах; то есть информацию, которую можно измерить и записать с помощью числа.

Качественные данные — это информация о качествах; информацию, которую невозможно измерить. Некоторыми примерами качественных данных являются мягкость вашей кожи, цвет ваших глаз и т. д.

Визуализируйте типы данных

  • Категорические данные можно визуализировать с помощью частотного распределения, гистограммы, круговой диаграммы, диаграммы Парето.
  • Числовые данные можно визуализировать с помощью гистограммы, линейного графика, точечной диаграммы.

Надеюсь, вы уже хорошо разобрались в типах данных.

В следующем посте мы рассмотрим 4 уровня измерения данных.