Говорят, что специалист по данным — это «самая сексуальная должность в 21 веке». Почему это такая востребованная должность в наши дни?
Короткий ответ заключается в том, что за последнее десятилетие произошел массовый взрыв данных, генерируемых и сохраняемых компаниями, а также вами и мной. Иногда мы называем это «большими данными», и нам хочется анализировать, извлекать закономерности, делать выводы, делать прогнозы с огромным количеством данных, лежащих вокруг.
Специалисты по данным — это люди, которые разбираются во всех этих данных и выясняют, что с ними можно сделать.
Что такое данные?
Словарное значение данных: «факты, такие как числа, слова, измерения, наблюдения и статистика, собранные вместе для справки или анализа».
Данные — Информация — Статистика
— Данные — это какие-то измерения, которые вы собираете. Это «сырая необработанная информация».
Обычно мы проводим некоторый статистический анализ этих данных и делаем из них значимые выводы.
Почему данные имеют значение?
- Помогает лучше понять данные, определяя взаимосвязи.
- Помогает предсказывать будущее или прогнозировать на основе предыдущей тенденции данных.
- Помогает определить шаблоны, которые могут существовать между данными.
- Помогает в обнаружении мошенничества, обнаруживая аномалии в данных.
В наши дни данные имеют большое значение, поскольку мы можем извлечь из них важную информацию.
В большинстве случаев ваши данные могут быть «структурированными» или «неструктурированными».
Структурированные (организованные) данные: данные, которые можно разбить на наблюдения и характеристики. Как правило, они организованы с использованием табличного метода (где строки — это наблюдения, а столбцы — характеристики).
- Пример: Метеорологические данные, сообщаемые научными приборами в виде точных перемещений, будут считаться строго структурированными, поскольку они существуют в табличной структуре строк/столбцов.
Неструктурированные (неорганизованные) данные: данные, которые существуют как беспрепятственный поток и не соответствуют стандартной организационной иерархии, например табличности.
Имея дело со структурированными табличными данными (что мы обычно и делаем), первый вопрос, который мы обычно задаем себе, заключается в том, являются ли значения числовыми или категорическийхарактер.
Количественные данные — это информация о количествах; то есть информацию, которую можно измерить и записать с помощью числа.
Качественные данные — это информация о качествах; информацию, которую невозможно измерить. Некоторыми примерами качественных данных являются мягкость вашей кожи, цвет ваших глаз и т. д.
Визуализируйте типы данных
- Категорические данные можно визуализировать с помощью частотного распределения, гистограммы, круговой диаграммы, диаграммы Парето.
- Числовые данные можно визуализировать с помощью гистограммы, линейного графика, точечной диаграммы.
Надеюсь, вы уже хорошо разобрались в типах данных.
В следующем посте мы рассмотрим 4 уровня измерения данных.