Процедуры SAS, используемые для описательного статистического анализа. Как получить описательную статистику в SAS? Как провести описательный анализ данных в SAS?

Описательная статистика – это раздел статистики, который занимается обобщением и описанием основных характеристик набора данных. Он включает использование различных мер, таких как центральная тенденция, изменчивость и форма, для описания распределения данных.

Описательную статистику можно использовать для предоставления быстрой сводки данных, выявления закономерностей или тенденций в данных, а также для обнаружения выбросов или необычных наблюдений. Некоторые из обычно используемых описательных статистик включают меры центральной тенденции (такие как среднее значение, медиана и мода), меры изменчивости (такие как диапазон, стандартное отклонение и дисперсия) и меры формы (такие как асимметрия и эксцесс).

Описательная статистика может быть полезна в самых разных областях, включая бизнес, социальные науки, инженерию и здравоохранение. Они часто используются для получения информации о характеристиках набора данных и информирования процессов принятия решений.

Набор данных

Набор данных, который мы собираемся использовать для примеров:

DATA MYDATA;
  INPUT GENDER $ AGE WEIGHT HEIGHT SALARY;
  DATALINES;
  F 22 120 63 50000
  M 45 175 70 75000
  F 30 135 67 60000
  M 38 160 72 80000
  F 27 115 60 45000
  M 50 180 75 90000
  F 40 150 65 70000
  M 33 155 68 65000
  ;
RUN;

Процедуры SAS, используемые для описательной статистики

SAS предоставляет широкий спектр описательных статистических процедур для анализа данных. Некоторые из наиболее часто используемых процедур SAS для анализа описательной статистики:

PROC СРЕДСТВА

Процедура PROC MEANS вычисляет основные статистические данные, такие как среднее значение, стандартное отклонение и минимальные/максимальные значения для числовых переменных.

Пример использования PROC MEANS:

/* EXAMPLE USING PROC MEANS */
PROC MEANS DATA=MYDATA;
  VAR WEIGHT HEIGHT AGE;
RUN;

ЧАСТОТА ПРОЦЕССА

Процедура PROC FREQ вычисляет частоту и проценты для категориальных переменных.

Пример использования PROC FREQ:

/* EXAMPLE USING PROC FREQ */
PROC FREQ DATA=MYDATA;
  TABLES GENDER;
RUN;

ОБЗОР ПРОЦЕССА

Процедура PROC SUMMARY вычисляет сводную статистику, такую ​​как среднее значение, медиана, стандартное отклонение и процентили для числовых переменных.

Пример использования PROC SUMMARY:

/* EXAMPLE USING PROC SUMMARY */
PROC SUMMARY DATA=MYDATA;
  VAR SALARY;
  OUTPUT OUT=SUMMARY_STATS MEAN=MEAN_SALARY MEDIAN=MEDIAN_SALARY STD=STD_SALARY P25=PERCENTILE25 P75=PERCENTILE75;
RUN;

ОДНОВАРИАТНЫЙ ПРОЦЕСС

Процедура PROC UNIVARIATE вычисляет различные описательные статистические данные и создает графики, такие как гистограммы и диаграммы.

Пример использования PROC UNIVARIATE:

/* EXAMPLE USING PROC UNIVARIATE */
PROC UNIVARIATE DATA=MYDATA;
  VAR WEIGHT;
  HISTOGRAM / NORMAL;
RUN;

КОРРЕКЦИЯ ПРОЦЕССА

Процедура PROC CORR вычисляет коэффициенты корреляции между парами числовых переменных.

Пример использования PROC CORR:

/* EXAMPLE USING CORR PROCEDURE */
PROC CORR DATA=MYDATA;
  VAR WEIGHT HEIGHT AGE SALARY;
RUN;

PROC BOXPLOT

Процедура BOXPLOT создает диаграммы для числовых переменных.

ТАБЛИЦА ПРОЦЕССОВ

Процедура PROC TABULATE генерирует одномерные и двумерные таблицы частот и вычисляет сводную статистику для каждой ячейки таблицы.

Пример использования PROC TABULATE:

/* EXAMPLE USING PROC TABULATE */
PROC TABULATE DATA=MYDATA;
  CLASS GENDER;
  VAR WEIGHT HEIGHT SALARY;
  TABLE GENDER*(N WEIGHT*(MEAN STD) HEIGHT*(MEAN STD) SALARY*(MEAN STD));
RUN;

СТАНДАРТ PROC

Процедура STDRATE стандартизирует значения числовых переменных по заданному среднему значению и стандартному отклонению.

— — —

Почему процедура PROC FREQ отказалась взаимодействовать с процедурой PROC MEANS?

Потому что у них не было ничего общего — одна сводилась к подсчету, а другая — к средним значениям!

🙂🙂🙂