Тест Колмогорова-Смирнова на нормальность в MATLAB - нормализация данных?

Я использую тест Колмогорова-Смирнова в MATLAB, чтобы определить нормальность каждого столбца матрицы данных перед выполнением обобщенной линейной регрессии. Пример вектора данных:

data = [8126,3163,9129,5399,8682,1126,1053,7805,2989,2758,3277,1152,6994,6833];

Тест запускается и дает мне результат. Однако, когда я строю эмпирическую кумулятивную функцию распределения (cdf) (синий) и стандартный нормальный cdf (красный) для визуального сравнения, масштаб такого вектора данных таков, что график бесполезен:

примерCDF

Код, используемый для построения этой фигуры:

[h,p,ksstat,cv] = kstest(data);
[f,x_values] = ecdf(data);
figure()
F = plot(x_values,f);
set(F,'LineWidth',2);
hold on
G = plot(x_values,normcdf(x_values,0,1),'r-');
set(G,'LineWidth',2);
legend([F G],...
    'Empirical CDF','Standard Normal CDF',...
    'Location','SE');

Означает ли это, что результат моего теста недействителен? Если да, могу ли я просто нормализовать данные, например.

dataN=(data-min(data))./(max(data)-min(data)); 

при сохранении валидности теста?

Спасибо за уделенное время,

Лаура


person Laura    schedule 06.06.2017    source источник
comment
Вы строите гауссовский CDF с нулевым средним значением и стандартным отклонением 1. Таким образом, для значений данных порядка тысяч CDF очень приблизительно равен 1. Вероятно, вам нужно использовать среднее значение и стандартное отклонение, оцененное на основе ваших данных; или нормализовать данные, а затем вы можете сохранить гауссовский CDF с нулевым средним и единичным стандартным отклонением   -  person Luis Mendo    schedule 06.06.2017
comment
Конечно! Спасибо за совет, Луис - изменение среднего значения и стандартного отклонения устранило проблему.   -  person Laura    schedule 06.06.2017
comment
В любой момент! Вы можете ответить себе (я не уверен, как именно вы применяете среднее значение и стандартное отклонение) и принять ответ, чтобы вопрос не отображался как оставшийся без ответа.   -  person Luis Mendo    schedule 06.06.2017


Ответы (1)


Благодаря Луису Мендо я решил эту проблему. normcdf требует в качестве входных данных среднее значение и стандартное отклонение вектора данных, которые я не изменил по сравнению с примером кода, с которым я работал. Отредактированный код:

[h,p,ksstat,cv] = kstest(data);
[f,x_values] = ecdf(data);
figure()
F = plot(x_values,f);
set(F,'LineWidth',2);
hold on
variableMean = mean(data);
variableSD = std(data);
G = plot(x_values,normcdf(x_values,variableMean,variableSD),'r-');
set(G,'LineWidth',2);
legend([F G],...
    'Empirical CDF','Standard Normal CDF',...
    'Location','SE');
person Laura    schedule 06.06.2017