Наука о данных

Интенсивные и обширные функции в науке о данных

Интенсивные переменные говорят нам о системе гораздо больше, чем подробные переменные.

Введение

В физике обширная переменная - это переменная, которая зависит от размера системы (например, массы или объема). С другой стороны, интенсивная переменная не зависит от размера системы (например, температуры, давления или плотности). Хотя это может быть не сразу очевидно, интенсивные переменные говорят нам гораздо больше о системе, чем обширные переменные.

Сравнение характеристик на основе расширенной шкалы называется абсолютным сравнением. Аналогичным образом, сравнение характеристик на основе интенсивной шкалы называется относительным сравнением.

Чтобы проиллюстрировать разницу между экстенсивными и интенсивными переменными, давайте рассмотрим двух гипотетических игроков лиги Национальной баскетбольной ассоциации (НБА). Мы будем называть этих игроков игроком A и игроком B. Таблица 1 ниже показывает статистику для игроков A и B на конец регулярного сезона.

Мы также предположим, что игроки A и B сыграли в общей сложности 75 и 60 игр за сезон соответственно. Игрок B сыграл на 15 игр меньше, чем игрок A из-за травм. Мы также предположим, что когда оба игрока здоровы, они играют в среднем одинаковое количество минут за игру.

Из Таблицы 1 мы видим, что, исходя из расширенной характеристики (общее количество очков), игрок A показал себя лучше, чем игрок B. Учитывая, что общее количество очков, набранных в течение сезона, пропорционально количеству сыгранных игр, это дает нет смысла сравнивать игроков A и B только по общему количеству очков. Более значимая функция - это интенсивная функция, называемая баллами за игру (PPG). Мы видим, что с точки зрения PPG игрок B лучше набирает очки с 23,3 очка за игру по сравнению с игроком A (в среднем 21,0 очка за игру).

II. Пример использования: набор данных о COVID-19

Чтобы проиллюстрировать важность обширных и интенсивных функций в науке о данных, мы проанализируем набор данных COVID-19, как показано в Таблице 2 ниже.

Набор данных был получен из следующих источников:

Чтобы лучше сравнить различия между расширенными и интенсивными функциями, мы создали гистограммы для расширенной переменной (общее количество наблюдений) и интенсивной переменной (случаев на 100000). Гистограммы показаны на рисунках 1 и 2 ниже.

Рисунок 1 показывает, что по общему количеству случаев Соединенные Штаты, Индия, Бразилия и Россия являются лидерами по количеству случаев, в каждом из которых зарегистрировано более миллиона случаев.

Рисунок 2 показывает, что, сравнивая количество случаев на основе переменной интенсивного, случаев на 100 000; Перу является лидером по количеству заболевших на 100 000 человек. Примечательно, что среди 15 стран / регионов с наибольшим количеством случаев у Индии наименьшее количество случаев на 100000, составляя всего 532 случая на 100000, по сравнению с США с 2347 случаями на 100000.

III. Резюме и заключение

Таким образом, мы обсудили важность обширных и интенсивных переменных в науке о данных и машинном обучении. Мы видели, что расширенные функции основаны на абсолютной шкале, в то время как интенсивные функции основаны на относительной шкале. Используя набор данных COVID-19 в качестве примера, мы показали, что интенсивные переменные говорят нам гораздо больше о любой системе, чем обширные переменные.

Дополнительные ресурсы по науке о данных / машинному обучению

Сколько математики мне нужно в науке о данных?

Учебная программа по науке о данных

5 лучших степеней для входа в науку о данных

Теоретические основы науки о данных - мне нужно заботиться или просто сосредоточиться на практических навыках?

Планирование проекта машинного обучения

Как организовать свой проект по науке о данных

Инструменты повышения производительности для крупномасштабных проектов в области науки о данных

Портфолио Data Science более ценно, чем резюме

С вопросами и запросами пишите мне: [email protected]