Процедуры SAS, используемые для описательного статистического анализа. Как получить описательную статистику в SAS? Как провести описательный анализ данных в SAS?
Описательная статистика – это раздел статистики, который занимается обобщением и описанием основных характеристик набора данных. Он включает использование различных мер, таких как центральная тенденция, изменчивость и форма, для описания распределения данных.
Описательную статистику можно использовать для предоставления быстрой сводки данных, выявления закономерностей или тенденций в данных, а также для обнаружения выбросов или необычных наблюдений. Некоторые из обычно используемых описательных статистик включают меры центральной тенденции (такие как среднее значение, медиана и мода), меры изменчивости (такие как диапазон, стандартное отклонение и дисперсия) и меры формы (такие как асимметрия и эксцесс).
Описательная статистика может быть полезна в самых разных областях, включая бизнес, социальные науки, инженерию и здравоохранение. Они часто используются для получения информации о характеристиках набора данных и информирования процессов принятия решений.
Набор данных
Набор данных, который мы собираемся использовать для примеров:
DATA MYDATA; INPUT GENDER $ AGE WEIGHT HEIGHT SALARY; DATALINES; F 22 120 63 50000 M 45 175 70 75000 F 30 135 67 60000 M 38 160 72 80000 F 27 115 60 45000 M 50 180 75 90000 F 40 150 65 70000 M 33 155 68 65000 ; RUN;
Процедуры SAS, используемые для описательной статистики
SAS предоставляет широкий спектр описательных статистических процедур для анализа данных. Некоторые из наиболее часто используемых процедур SAS для анализа описательной статистики:
PROC СРЕДСТВА
Процедура PROC MEANS вычисляет основные статистические данные, такие как среднее значение, стандартное отклонение и минимальные/максимальные значения для числовых переменных.
Пример использования PROC MEANS:
/* EXAMPLE USING PROC MEANS */ PROC MEANS DATA=MYDATA; VAR WEIGHT HEIGHT AGE; RUN;
ЧАСТОТА ПРОЦЕССА
Процедура PROC FREQ вычисляет частоту и проценты для категориальных переменных.
Пример использования PROC FREQ:
/* EXAMPLE USING PROC FREQ */ PROC FREQ DATA=MYDATA; TABLES GENDER; RUN;
ОБЗОР ПРОЦЕССА
Процедура PROC SUMMARY вычисляет сводную статистику, такую как среднее значение, медиана, стандартное отклонение и процентили для числовых переменных.
Пример использования PROC SUMMARY:
/* EXAMPLE USING PROC SUMMARY */ PROC SUMMARY DATA=MYDATA; VAR SALARY; OUTPUT OUT=SUMMARY_STATS MEAN=MEAN_SALARY MEDIAN=MEDIAN_SALARY STD=STD_SALARY P25=PERCENTILE25 P75=PERCENTILE75; RUN;
ОДНОВАРИАТНЫЙ ПРОЦЕСС
Процедура PROC UNIVARIATE вычисляет различные описательные статистические данные и создает графики, такие как гистограммы и диаграммы.
Пример использования PROC UNIVARIATE:
/* EXAMPLE USING PROC UNIVARIATE */ PROC UNIVARIATE DATA=MYDATA; VAR WEIGHT; HISTOGRAM / NORMAL; RUN;
КОРРЕКЦИЯ ПРОЦЕССА
Процедура PROC CORR вычисляет коэффициенты корреляции между парами числовых переменных.
Пример использования PROC CORR:
/* EXAMPLE USING CORR PROCEDURE */ PROC CORR DATA=MYDATA; VAR WEIGHT HEIGHT AGE SALARY; RUN;
PROC BOXPLOT
Процедура BOXPLOT создает диаграммы для числовых переменных.
ТАБЛИЦА ПРОЦЕССОВ
Процедура PROC TABULATE генерирует одномерные и двумерные таблицы частот и вычисляет сводную статистику для каждой ячейки таблицы.
Пример использования PROC TABULATE:
/* EXAMPLE USING PROC TABULATE */ PROC TABULATE DATA=MYDATA; CLASS GENDER; VAR WEIGHT HEIGHT SALARY; TABLE GENDER*(N WEIGHT*(MEAN STD) HEIGHT*(MEAN STD) SALARY*(MEAN STD)); RUN;
СТАНДАРТ PROC
Процедура STDRATE стандартизирует значения числовых переменных по заданному среднему значению и стандартному отклонению.
— — —
Почему процедура PROC FREQ отказалась взаимодействовать с процедурой PROC MEANS?
Потому что у них не было ничего общего — одна сводилась к подсчету, а другая — к средним значениям!
🙂🙂🙂