Я использую Proc HPBIN для разделения своих данных на равные сегменты, т. е. каждый сегмент имеет равную долю общего диапазона переменной.
Моя проблема заключается в том, что у меня очень искаженные данные с большим диапазоном. Почти все мои данные лежат в одной корзине, в то время как есть пара наблюдений, разбросанных по крайним точкам.
Мне интересно, есть ли способ заставить PROC HPBIN учитывать пропорцию значений в каждом бункере и убедиться, что, по крайней мере, например. 5% наблюдений в бин и группировать остальные?
DATA var1;
DO VAR1 = 1 TO 100;
OUTPUT;
END;
DO VAR1 = 500 TO 505;
OUTPUT;
END;
DO VAR1 = 7000 TO 7015;
OUTPUT;
END;
DO VAR1 = 1000000 TO 1000010;
OUTPUT;
END;
RUN;
/*Use proc hpbin to generate bins of equal width*/
ODS EXCLUDE ALL;
ODS OUTPUT
Mapping = bin_width_results;
PROC HPBIN
DATA=var1
numbin = 15
bucket;
input VAR1 / numbin = 15;
RUN;
ODS EXCLUDE NONE;
Я хотел бы увидеть способ, которым proc hpbin или другой метод группирует пустые корзины и допускает не менее 5% пропорции на ведро. Тем не менее, я не собираюсь использовать процентили в этом случае (это еще один график в моем PDF-файле), потому что я хотел бы увидеть разброс.