Что такое пакетные эффекты и как с ними бороться

Крупномасштабные наборы данных, особенно в биологической и медицинской областях, стали более распространенными. Визуальные и генетические данные, полученные с множества различных машин, часто со всего мира, теперь объединены в общедоступные наборы данных, которые позволяют проводить более углубленное изучение и применять статистические методы и методы машинного обучения.

Огромный объем данных — это здорово, но иногда мы сталкиваемся с проблемами, вызванными различиями в том, как разные машины получают эти данные. К сожалению, например, два аппарата МРТ не могут получить одно и то же изображение (даже если они сканируют одного и того же человека). Есть небольшие различия в контрасте, интенсивности, шуме и других свойствах из-за явной сложности этих машин. Тот же принцип применяется в генетике, где различные микрочипы измеряют экспрессию генов, и данные объединяются.

Примечание. С этого момента я буду ссылаться на пакетные эффекты в области медицинской визуализации, так как это та область, которой я уделяю больше всего внимания.

Почему это имеет значение?

Эти «пакетные эффекты», вызванные приобретением, привносят в наши данные новый тип вариаций. Теперь у нас есть два источника изменчивости: биологическая изменчивость (вызванная различиями в нашей популяции) и небиологическая изменчивость (вызванная различиями в сканерах). В нашей последующей задаче (например, предсказание болезни Альцгеймера, проверка связи радиомики с раком и т. д.) мы, вероятно, хотим рассматривать только биологические вариации.

Здесь есть несколько проблем. Первый связан с быстрым обучением. Скажем, у нас есть набор данных КТ грудной клетки из больницы А и больницы Б для диагностики рака легких. Больница А находится в загрязненном городе, и заболеваемость раком легких здесь, как правило, намного выше, чем в городе Б. Компьютерная томография в больнице А также имеет тенденцию давать более светлые изображения, чем в больнице Б. Теперь, когда мы обучаем сверточную нейронную сеть на наборе данных чтобы предсказать рак легких, модель учится ассоциировать более светлые изображения с раком. Конечно, у нас может быть достойная точность прогнозов, если мы проверим этот же набор данных. Но когда мы развернем нашу модель в другом месте, она может серьезно потерпеть неудачу.

Итак, почему бы нам просто не добавить больше данных с разных сайтов?

Что ж, даже если у нас будет больше данных, несоответствия по всему изображению или пространству признаков заставят наши прогностические модели изучать более общие, простые признаки, а не более сложные, нелинейные, детализированные признаки, которые может быть трудно идентифицировать с непоследовательными пакетами. 9].

Гармонизация

Введите «гармонизацию» или сведите данные из всех разных пакетов в одно и то же пространство, убрав небиологические эффекты. Как мы делаем гармонизацию?

Возвращаясь немного назад, мы должны упомянуть виды данных, с которыми мы работаем. Два формата данных, которые мы можем согласовать, — это табличные (то есть строки и столбцы) или изображения (2D или 3D пиксели/воксели). Даже в области визуализации мы часто используем табличные данные, отправляя наши необработанные изображения через конвейер обработки, который извлекает четко определенные интерпретируемые характеристики (например, толщину определенных областей мозга). То, как мы проводим согласование, зависит от того, рассматриваем ли мы табличные (характеристические) данные или данные изображений.

Табличные данные

В примере с табличными данными визуализации мозга у нас есть строки для каждого отсканированного пациента и столбцы для каждой функции, которую мы извлекаем из МРТ (толщина лобной доли, объем гиппокампа и т. д.). У нас также есть этикетки, на которых указано, где был отсканирован каждый пациент.

Самый популярный метод согласования табличных данных называется ComBat [2,3] (сокращение от «Борьба с пакетными эффектами при объединении пакетов»). Это линейная модель, которая корректирует среднее смещение и масштабирование дисперсии в табличных пакетных данных. Модель показана ниже:

Наиболее важными функциями в этой модели являются термины ошибок сканера γᵢᵥ и δᵢᵥ, которые мы хотим удалить, чтобы привести наши данные в общий (непакетный) ) космос. Здесь много переменных (αᵥ для каждой функции, γᵢᵥ для каждой комбинации сканера и функции и т. д.). К счастью, мы можем использовать метод под названием эмпирический байесовский анализ, чтобы надежно подогнать модель, даже если у нас мало данных.

Я не буду вдаваться в детали подбора модели, но один важный аспект заключается в том, что это иерархическая модель. Мы предполагаем, что для данного сканера/партии условия ошибок для всех функций исходят из общего распределения.

Как только наша модель подходит, мы можем, наконец, выполнить настройку и привести функции в общее пространство. Уравнение гармонизации:

Обратите внимание, что мы вычитаем аддитивные пакетные эффекты γᵢᵥ и масштабируем остатки линейной модели с помощью обратного эффекта пакетного масштабирования δᵢᵥ. Скорректированные функции теперь готовы для любого последующего анализа.

Существует множество вариантов ComBat, в которых учитываются дополнительные факторы, такие как специфический для субъекта перехват лонгитюдных данных [1], нелинейные ковариантные эффекты [5], общие факторы, специфичные для сканера [8].

Данные визуализации

В задачах визуализации мы часто хотим использовать необработанное изображение (а не извлеченные табличные признаки) для последующего анализа. Гармонизация на уровне изображения становится необходимой. Пиксельного или воксельного уровня ComBat недостаточно; это было бы неэффективно и игнорировало бы пространственно коррелированные паттерны, которые могла бы обнаружить сверточная нейронная сеть. Поэтому нам нужен другой метод согласования на уровне изображения.

Согласование пакетов изображений можно рассматривать как передачу домена. У нас есть изображения из нескольких доменов или источников, которые мы хотим преобразовать в один целевой домен (целевой сканер). Одной из привлекательных моделей глубокого обучения для этой задачи является CycleGAN [4] и другие варианты генеративно-состязательных сетей (GAN). В CycleGAN есть две сети генераторов: F для преобразования исходного домена в целевой домен (S в T) и G для преобразования целевого домена в исходный домен (T в S). Два дискриминатора пытаются узнать, являются ли синтетические изображения настоящими или фальшивыми, в то время как генераторы пытаются обмануть дискриминаторы в игре минимум-макс. Потеря согласованности циклов обеспечивает сходство между исходным изображением X и F (G (X)), гарантируя, что информация на индивидуальном уровне из изображения не будет потеряна при переводе. В случае пакетных эффектов S и T могут представлять два разных МРТ-сканера или два разных набора данных с разными свойствами получения изображений.

CycleGAN привлекателен тем, что не требует «парных изображений» или изображений одного и того же объекта, отсканированных на разных сканерах за короткий промежуток времени. В более редких случаях, когда существует много парных изображений, существуют другие контролируемые методы преобразования изображения в изображение (например, с использованием U-сетей, вариационных автоэнкодеров и т. д.), чтобы воспользоваться преимуществом этого преобразования «основной правды» [6,7].

Гармонизация — это захватывающая новая область исследований в области вычислительной биомедицины, которая облегчает крупномасштабный анализ, и существует множество возможностей для улучшения методов. Пара открытых проблем в этой области: 1) согласование данных с ранее неизвестных сайтов (обобщение предметной области) и 2) оценка производительности наших моделей согласования без достоверности. Я с нетерпением жду возможности поделиться некоторыми из моих работ по гармонизации в ближайшее время.

Использованная литература:

1. Beer JC, Tustison NJ, Cook PA, et al. Продольный ComBat: метод согласования данных продольного мультисканирования. Нейроизображение. 2020;220(май):117129. doi:10.1016/j.neuroimage.2020.117129

2. Фортин Дж. П., Каллен Н., Шелин Ю. И. и соавт. Согласование измерений толщины коры между сканерами и сайтами. Нейроизображение. 2018; 167 (ноябрь 2017 г.): 104–120. doi:10.1016/j.neuroimage.2017.11.024

3. Джонсон В.Е., Ли С., Рабинович А. Регулировка пакетных эффектов в данных экспрессии микрочипов с использованием эмпирических байесовских методов. Биостатистика. 2007;8(1):118–127. doi: 10.1093/биостатистика/kxj037

4. Нгуен Х., Моррис Р.В., Харрис А.В., Коргоанкар М.С., Рамос Ф. Исправление различий в данных нейровизуализации с несколькими участками с использованием генеративно-состязательных сетей. 2018. http://arxiv.org/abs/1803.09375.

5. Помпонио Р., Эрус Г., Хабес М. и соавт. Гармонизация больших наборов данных МРТ для анализа изображений мозга на протяжении всей жизни. Нейроизображение. 2020; 208 (июль 2019 г.). doi:10.1016/j.neuroimage.2019.116450

6. Тянь Д., Цзэн З., Сунь Х. и др. Основанная на глубоком обучении многосайтовая структура гармонизации нейроизображений, созданная с использованием набора данных о путешествующих субъектах. биоРксив. 2021:2021.12.05.471192. https://www.biorxiv.org/content/10.1101/2021.12.05.471192v1%0Ahttps://www.biorxiv.org/content/10.1101/2021.12.05.471192v1.abstract.

7. Torbati ME, Tudorascu DL, Minhas DS, Maillard P, Decarli CS, Jae Hwang S. Мультисканерная гармонизация парных данных нейровизуализации посредством обучения с сохранением структуры. Proc IEEE Int Conf Comput Vis. 2021; 2021 – октябрь: 3277–3286. дои: 10.1109/ICCVW54120.2021.00367

8. Wachinger C, Rieckmann A, Pölsterl S. Обнаружение и исправление смещения в наборах данных нейровизуализации с несколькими участками. Анал Med Image. 2021;67:101879. doi: 10.1016/j.media.2020.101879

9. Ван Р., Чаудхари П., Давацикос К. Гармонизация с причинным выводом на основе потока. Том 12903 LNCS. Международное издательство Спрингер; 2021. doi: 10.1007/978–3–030–87199–4_17