Введение

На дискуссионных форумах SAS часто встречаются вопросы о том, как вычислить среднее геометрическое и связанные величины в SAS. К сожалению, ответы на эти вопросы иногда сбивают с толку или даже ошибочны. Кроме того, некоторые опубликованные статьи и веб-сайты, которые утверждают, что показывают, как вычислить среднее геометрическое в SAS, содержат неверную или вводящую в заблуждение информацию.

Эта статья призвана показать, как вычислить среднее геометрическое, геометрическое стандартное отклонение и геометрический коэффициент вариации в SAS. Сначала он демонстрирует, как использовать PROC TTEST для вычисления среднего геометрического и геометрического коэффициента вариации. Затем показано, как вычислить несколько геометрических статистических данных на языке SAS/IML. Наконец, прилагаемый файл SAS содержит функцию SAS/IML (geoStats), упрощающую вычисление статистики и ее доверительных интервалов.

Вычислить среднее геометрическое и геометрическое CV в SAS

Среднее геометрическое возникает естественным образом, когда умножаются положительные числа, и вы хотите найти средний множитель. Хотя среднее геометрическое можно использовать для оценки «центра» любого набора положительных чисел, его часто используют для оценки средних значений в наборе отношений или для вычисления средней скорости роста.

Процедура TTEST — это самый простой способ вычисления среднего геометрического (GM) и геометрического CV (GCV) положительных данных. Чтобы продемонстрировать это, следующий шаг ДАННЫЕ моделирует 100 случайных наблюдений из логарифмически нормального распределения.

%let N = 100;
data Have;
call streaminit(12345);
do i = 1 to &N;
   x = round( rand("LogNormal", 3, 0.8), 0.1);    /* generate positive values */
   output;
end;
run;
  

Где находится «центр» этих данных? Это зависит от вашего определения. Мода этого асимметричного распределения близка к x=15, но среднее арифметическое составляет около 26,4. Среднее тянет вверх длинный правый хвост. Это математический факт, что среднее геометрическое данных всегда меньше среднего арифметического. Для этих данных среднее геометрическое равно 20,2.

Чтобы вычислить среднее геометрическое и геометрическое CV, вы можете использовать параметр DIST=LOGNORMAL в операторе PROC TTEST следующим образом:

proc ttest data=Have dist=lognormal; 
   var x;
   ods select ConfLimits;
run;

Среднее геометрическое, равное 20,2 для этих данных, оценивает «центр» данных. Обратите внимание, что процедура не сообщает о геометрическом стандартном отклонении (или дисперсии), а вместо этого сообщает о геометрическом коэффициенте вариации (GCV), который в этом примере имеет значение 0,887. В документации по процедуре TTEST объясняется, почему GCV является лучшей мерой вариации: «Для логарифмически нормальных данных CV является естественной мерой изменчивости (а не стандартным отклонением), потому что CV инвариантен к умножению [данных] на константа».

Вы можете задаться вопросом, должны ли данные быть логнормально распределены, чтобы использовать эту таблицу. Ответ заключается в том, что данные не обязательно должны быть логнормально распределены, чтобы использовать среднее геометрическое и геометрическое CV. Однако 95% доверительные интервалы для этих величин предполагают логарифмическую нормальность.

Определения геометрической статистики

Как указывает Т. Кирквуд в письме в редакцию Biometric (Kirkwood, 1979), если данные распределены логнормально как LN(μ, σ), то:

  1. Величина GM = exp(µ) является средним геометрическим. Он оценивается по выборке величиной exp(m), где m — среднее арифметическое логарифмически преобразованных данных.
  2. Величина GSD = exp(σ) определяется как геометрическое стандартное отклонение. Оценка выборки — exp(s), где s — стандартное отклонение логарифмически преобразованных данных.
  3. Стандартная геометрическая ошибка (GSE) определяется путем возведения в степень стандартной ошибки среднего значения логарифмически преобразованных данных. Аналогично обрабатываются геометрические доверительные интервалы.
  4. Предложение Кирквуда для геометрического коэффициента вариации (GCV) обычно не используется. Вместо этого общепринятым определением GCV является GCV = sqrt(exp(σ²) — 1), которое используется в SAS. Оценка для GCV равна sqrt(exp(s²) — 1).

Вы можете использовать эти формулы для вычисления геометрической статистики для любых положительных данных. Однако только для логарифмически нормальных данных статистика имеет прочную теоретическую основу: преобразовать в нормальность, вычислить статистику, применить обратное преобразование.

Вычислить среднее геометрическое в SAS/IML

Вы можете использовать язык SAS/IML для вычисления среднего геометрического и других «геометрических статистических данных», таких как геометрическое стандартное отклонение и геометрическое CV. Функция GEOMEAN является встроенной функцией SAS/IML, но другие статистические данные реализуются путем явного вычисления статистики преобразованных в журнал данных, как описано в предыдущем разделе:

proc iml;
use Have; read all var "x"; close;  /* read in positive data */
GM = geomean(x);               /* built-in GEOMEAN function */
print GM;
 
/* To estimate the geometric mean and geometric StdDev, compute
   arithmetic estimates of log(X), then EXP transform the results. */
n = nrow(x);
z = log(x);                  /* log-transformed data */
m = mean(z);                 /* arithmetic mean of log(X) */
s = std(z);                  /* arithmetic std dev of log(X) */
GM2 = exp(m);                /* same answer as GEOMEAN function */
GSD = exp(s);                /* geometric std dev */
GCV = sqrt(exp(s**2) - 1);   /* geometric CV */
print GM2 GSD GCV;

Обратите внимание, что GM и GCV соответствуют выходным данным PROC TTEST.

Что означает геометрическое стандартное отклонение? Что касается среднего арифметического, вам нужно начать с размышлений о местоположении среднего геометрического (20.2). Если данные распределены нормально, то около 68% данных находятся в пределах одного стандартного отклонения от среднего значения, которое представляет собой интервал [мс, м+с]. Для логнормальных данных около 68% данных должны находиться в интервале [GM/GSD, GMGSD], и фактически 65 из 100 смоделированных наблюдений находятся в этом интервале. Точно так же около 95% логарифмически нормальных данных должны находиться в интервале [GM/GSD², GMGSD²]. Для смоделированных данных 94 из 100 наблюдений находятся в интервале, как показано ниже:

Мне не известна подобная интерпретация геометрического коэффициента вариации. GCV обычно используется для сравнения двух образцов. В отличие от доверительных интервалов в предыдущем абзаце, GCV не ссылается на среднее геометрическое данных.

Другие способы вычисления среднего геометрического

Методы, описанные в этой статье, — это самые простые способы вычисления среднего геометрического в SAS, но есть и другие способы.

  1. Вы можете использовать шаг DATA для преобразования данных в журнал, использовать PROC MEANS для вычисления описательной статистики преобразованных в журнал данных, а затем использовать шаг DATA для возведения результатов в степень.
  2. Вы можете использовать параметр OUTTABLE= в PROC UNIVARIATE, который создает набор данных SAS, содержащий множество одномерных статистических данных, включая среднее геометрическое.
  3. PROC SURVEYMEANS может вычислять среднее геометрическое (с доверительными интервалами) и стандартную ошибку среднего геометрического для ответов опроса. Однако дисперсия данных опроса отличается от дисперсии случайной выборки, поэтому вам не следует использовать статистику стандартной ошибки, если у вас нет данных опроса.

В заключение среднее геометрическое и связанная с ним статистика являются важными инструментами для анализа искаженных данных, особенно при работе с положительными данными, отношениями или темпами роста. В этой статье показано, как рассчитать среднее геометрическое, геометрическое стандартное отклонение и геометрический коэффициент вариации с помощью программного обеспечения SAS. Поняв правильные методы вычисления этой статистики, вы сможете избежать ошибок, связанных с неверной или вводящей в заблуждение информацией, обнаруженной в некоторых опубликованных статьях и на веб-сайтах. Не забывайте всегда использовать авторитетные источники информации и применять правильные формулы и методы в своих анализах.