Подгонка дискретного (отрицательного биномиального) распределения для ранних значений данных

У меня возникли некоторые трудности с подгонкой дискретной функции распределения (я специально использую отрицательное биномиальное распределение). Вот моя настройка: у меня есть источник входящих элементов, каждый с неизвестным временем жизни. Каждый день у некоторых истекает срок годности (большая порция в первый день, еще немного во второй день и т. д.). Для существующего источника входящих элементов (источник старше 180 дней) мне удалось смоделировать срок службы нового элемента с отрицательным биномиальным распределением до приемлемой ошибки (используя MLE — оценка максимального правдоподобия).

Моя проблема начинается с новых источников входящих элементов. Я хочу оценить распределение их предметов по времени жизни через короткое время (скажем, через 5-7 дней). Когда я пытаюсь применить MLE, я получаю значительно более низкие средние значения (т.е. 3 вместо 30). Я предполагаю, что это потому, что MLE не может понять, что масса последнего дня (7-го дня) на самом деле является 1-CDF (6) (кумулятивная функция распределения предыдущих 6 дней) и на самом деле также содержит живые объекты.

Есть ли хороший подход для подбора дискретного распределения только на основе ранних значений данных и суммы массы других значений? Я мог бы написать для него какую-нибудь функцию оптимизации и придать вес только 6 предыдущим дням, но я чувствую, что это даст мне неоптимальную производительность.

Я согласен с теорией, но если вы можете обратиться к конкретным функциям или библиотекам, я могу работать в Matlab, R, Python и C #.


person Kedem.Dor    schedule 05.01.2014    source источник


Ответы (1)


Проблема, с которой вы столкнулись, называется «цензурированные» данные. По сути, вы уверены только в том, что время жизни некоторых элементов больше (теперь минус время запуска). Ваше предположение о том, как исправить функцию правдоподобия, указывает в правильном направлении. Я думаю, в текстах об анализе выживания обычно рассматриваются цензурированные данные. В статье Википедии [1] есть несколько кратких замечаний о цензурированных данных, которые тоже могут помочь.

В R есть пакет для анализа выживаемости под названием Survival. Могут быть и другие пакеты R. Не знаю насчет пакетов для других систем.

[1] http://en.wikipedia.org/wiki/Survival_analysis

person Robert Dodier    schedule 06.01.2014
comment
Спасибо! Глядя на это. - person Kedem.Dor; 13.01.2014