Работа с обобщенными линейными моделями, часть 1 (машинное обучение)

Многомерные обобщенные линейные смешанные модели для данных подсчета(arXiv)

Автор:Гильерме П. Сильва, Энрике А. Лауреано, Рикардо Р. Петтерле, Пауло Х. Р. Джуниор, Вагнер Х. Бонат

Аннотация: модели одномерной регрессии имеют обширную литературу по подсчету данных. Однако это не относится к многомерным данным подсчета. Поэтому мы представляем структуру многомерных обобщенных линейных смешанных моделей, которая работает с многомерным набором ответов, измеряя корреляцию между ними через случайные эффекты, которые следуют многомерному нормальному распределению. Эта модель основана на GLMM со случайным пересечением, и процесс оценки остается таким же, как и в стандартной GLMM со случайными эффектами, интегрированными с помощью приближения Лапласа. Мы эффективно реализовали эту модель с помощью пакета TMB, доступного в R. Мы использовали распределения Пуассона, отрицательное биномиальное (NB) и COM-Пуассона. Чтобы оценить свойства оценщика, мы провели имитационное исследование с учетом четырех разных размеров выборки и трех разных значений корреляции для каждого распределения. Мы получили несмещенные и непротиворечивые оценки для распределений Пуассона и НБ; для оценок COM-Пуассона были согласованными, но смещенными, особенно для оценок параметров дисперсии, дисперсии и корреляции. Эти модели были применены к двум наборам данных. Первый касается выборки из 30 различных мест, собранных в Австралии, где было зарегистрировано количество раз каждого из 41 вида муравьев; что приводит к впечатляющим 820 параметрам дисперсии-ковариации и 41 параметру дисперсии, оцениваемым одновременно, не говоря уже о параметрах регрессии. Второй – из Обследования состояния здоровья Австралии с 5 переменными ответов и 5190 респондентами. Эти наборы данных можно считать сверхдисперсными по обобщенному показателю дисперсии. Модель СОМ-Пуассона превзошла двух других конкурентов по трем показателям согласия. Следовательно, предлагаемая модель способна работать с многомерными данными подсчета и измерять любую корреляцию между ними с учетом влияния ковариат. △

2.Надежный дизайн моделирования для обобщенных линейных моделей в условиях гетероскедастичности или корреляции(arXiv)

Автор: Эндрю Гилл, Дэвид Дж. Уорн, Энтони М. Оверстолл, Клэр МакГрори, Джеймс М. МакГри.

Аннотация:метамодель входных-выходных данных ресурсоемкого моделирования часто используется для целей прогнозирования, оптимизации или анализа чувствительности. Подгонка возможна благодаря запланированному эксперименту, а для моделирования с большими вычислительными затратами важна эффективность конструкции. Гетероскедастичность в выходных данных моделирования является обычным явлением, и потенциально полезно вызвать зависимость путем повторного использования потоков псевдослучайных чисел, чтобы уменьшить дисперсию оценок параметров метамодели. В этой статье мы разрабатываем вычислительный подход к надежному планированию компьютерных экспериментов без необходимости предполагать независимость или одинаковое распределение ошибок. Благодаря явному включению структур дисперсии или корреляции в распределение метамодели можно использовать либо оценку максимального правдоподобия, либо обобщенные оценочные уравнения для получения соответствующей информационной матрицы Фишера. Затем можно с помощью вычислений найти надежные планы, которые максимизируют некоторую релевантную суммарную меру этой матрицы, усредненную по предварительному распределению любых неизвестных параметров.

Работа с обобщенными линейными моделями, часть 1 (машинное обучение)

Вопросы по теме