Исследовательские работы на основе регрессии Лассо, часть 1 (машинное обучение)

Крупномасштабный отбор признаков генетических факторов риска болезни Альцгеймера с помощью регрессии распределенного группового лассо (arXiv)

Автор: Цинъян Ли, Дацзян Чжу, Цзе Чжан, Деррек Пол Хибар, Неда Джаханшад, Ялин Ван, Цзяпин Е, Пол М. Томпсон. », Дже Ван

Аннотация: Полногеномные ассоциативные исследования (GWAS) достигли больших успехов в генетическом изучении болезни Альцгеймера (БА). Совместные генетические исследования с визуализацией в различных исследовательских учреждениях показывают эффективность выявления генетических факторов риска. Однако высокая размерность данных GWAS создает серьезные проблемы при обнаружении SNP риска для AD. Выбор соответствующих функций имеет решающее значение для прогнозирования переменной отклика. В этом исследовании мы предлагаем новую структуру выбора распределенных признаков (DFSF) для проведения крупномасштабных исследований генетики изображений в нескольких учреждениях. Чтобы ускорить процесс обучения, мы предлагаем семейство распределенных групповых правил фильтрации Lasso для выявления нерелевантных функций и удаления их из оптимизации. Затем мы выбираем соответствующие групповые признаки, выполняя процесс выбора группового лассо в последовательности параметров. Наконец, мы используем отбор по стабильности, чтобы ранжировать SNP с наивысшим риском, которые могут помочь обнаружить раннюю стадию болезни Альцгеймера. Насколько нам известно, это первая распределенная модель выбора признаков, интегрированная с групповым выбором признаков Лассо, а также обнаружение генетических факторов риска в системе нескольких исследовательских институтов. Эмпирические исследования проводятся на 809 субъектах с 5,9 млн SNP, которые распределены по нескольким отдельным учреждениям, демонстрируя эффективность и действенность предлагаемого метода.

2. Контроль ложных открытий в байесовских генных сетях с помощью p-значений лассо-регрессии (arXiv)

Автор:Линфэй Ван, Том Михоэл

Abstract:Байесовские сети могут представлять направленную регуляцию генов и, следовательно, предпочтительнее сетей совместной экспрессии. Однако едва ли какое-либо исследование байесовской сети касается контроля ложного обнаружения (FDC) границ сети, что приводит к низкой точности из-за систематических ошибок из-за непостоянных уровней ложного обнаружения в одном и том же исследовании. Мы разрабатываем четыре эмпирических теста для изучения FDC байесовских сетей на основе трех выборок переменных лассо-регрессии на основе p-значения — двух существующих и одного созданного нами. Наш метод, lassopv, вычисляет p-значения для критической силы регуляризации, при которой предиктор начинает вносить вклад в регрессию лассо. Используя нулевые наборы данных и наборы данных Geuvadis, мы обнаруживаем, что lassopv получает оптимальные FDC в байесовских генных сетях, в то время как существующие методы имеют дефектные p-значения. Концепция и тесты FDC распространяются на большинство сценариев логического вывода сети и будут служить ориентиром при разработке и улучшении новых и существующих методов. Наш новый метод выбора переменных с регрессией лассо также позволяет использовать FDC для других наборов данных и вопросов, даже за пределами сетевого вывода и вычислительной биологии. Lassopv реализован на R и находится в свободном доступе на https://github.com/lingfeiwang/lassopv и https://cran.r-project.org/package=lassopv.

3. Многоэкземплярная логистическая регрессия со штрафом LASSO (arXiv)

Автор: Рэй-Бинг Чен, Куанг-Хун Ченг, Шэн-Мао Чанг, Шуэн-Лин Дженг, Пин-Ян Чен, Чунь-Хао Ян , Чи-Чунь Ся

Аннотация: в этой работе мы рассматриваем производственный процесс, который может быть описан моделью логистической регрессии с несколькими экземплярами. Чтобы вычислить оценку максимального правдоподобия неизвестного коэффициента, предлагается алгоритм максимизации ожидания, и предложенный подход к моделированию может быть расширен для определения важных ковариат путем добавления штрафного члена коэффициента в функцию правдоподобия. В дополнение к важным техническим деталям мы демонстрируем полезность предлагаемого метода с помощью моделирования и реальных примеров.

4. Выбор параметра регуляризации для байесовской многоуровневой модели групповой лассо-регрессии с применением к геномике изображений (arXiv)

Автор: Фарук С. Натху, Килин Гринлоу, Мэри Лесперанс

Аннотация: мы исследуем выбор параметров настройки для байесовской многоуровневой модели группового лассо, разработанной для совместного анализа нейровизуализации и генетических данных. Регрессионная модель, которую мы рассматриваем, связывает многомерные фенотипы, состоящие из сводных показателей мозга (значения объема и толщины коры), с данными однонуклеотидного полиморфизма (SNP) и налагает пенализацию на двух вложенных уровнях, первый соответствует генам, а второй соответствует SNP. С каждым уровнем наказания связан параметр настройки, который соответствует гиперпараметру в иерархической байесовской формулировке. Следуя предыдущей работе над байесовскими лассо, мы рассматриваем оценку параметров настройки либо с помощью иерархического байесовского метода, основанного на гиперприории и выборке Гиббса, либо с помощью эмпирического байесовского алгоритма, основанного на максимизации предельного правдоподобия с использованием алгоритма Монте-Карло EM. Для конкретной рассматриваемой модели мы обнаружили, что эти подходы могут привести к серьезному уменьшению оценок параметров регрессии в условиях высокой размерности или при слабых генетических эффектах. Мы демонстрируем эти проблемы на примерах моделирования и изучаем аппроксимацию предельной вероятности, которая проливает свет на причину этой проблемы. Затем мы предлагаем альтернативный подход, основанный на широко применимом критерии информации (WAIC), асимптотическом приближении к перекрестной проверке с исключением одного, который можно удобно вычислить в рамках MCMC.

Исследовательские работы на основе регрессии Лассо, часть 1 (машинное обучение)

Вопросы по теме