Тест Covid-19 со звуками кашля

Чтобы предотвратить распространение инфекции COVID-19, во всем мире было разработано множество диагностических тест-наборов. Диагностика важна для изоляции инфицированных людей, предотвращения распространения ими болезни, а также важна для наблюдения и изучения инфекции. Большинство тест-наборов основано на образцах крови, взятых из слизистой оболочки полости носа и горла. Эти образцы используются в RT-qPCR, тестах на антигены и антитела. Метод RT-qPCR вызывает наибольшее доверие, однако он дорогостоящий, не портативный и занимает слишком много времени. Проблемы с RT-qPCR вызывают потребность в более дешевых, эффективных и портативных новых методах.

По данным ВОЗ, сухой кашель является важным симптомом для 67,7% пациентов. [ВОЗ] Сухой кашель – это когда кашель не сопровождается выделением слизи. Кашель людей с COVID-19 может иметь отчетливый звуковой профиль, который можно отличить от других звуков кашля. Разные звуковые структуры можно анализировать с помощью разработанных нами алгоритмов, и эти алгоритмы можно использовать в качестве нового инструмента диагностики COVID-19, который является более дешевым, эффективным и портативным.

Здесь наша цель — создать алгоритм, который может классифицировать звуковой профиль кашля у пациентов с COVID-19 и использовать этот анализ в качестве инструмента раннего прогноза.

НАБОР ДАННЫХ

Набор данных представляет собой набор звуков кашля, которые я нашел в Интернете, есть 3 видео пациентов с COVID-19:

Covid 19 звук кашля 1 (между 3–6-й секундами) ve (между 67–72-й секундами)

Covid 19 звук кашля 2 (между 8–12-й секундами)

Ковид 19 звук кашля 3 (Во многих интервалах)

Нормальный звук кашля (Несколько человек, Видео датировано маем 2018 года, так что ни один из звуков кашля не связан с инфекцией COVID-19)

Я извлек звуки кашля, я получил 10 звуков кашля разной продолжительности от пациентов с диагнозом COVID-19. Также я получил 10 нормальных звуков кашля. Всего я собрал 20 звуков кашля продолжительностью 60 секунд.

ПОДГОТОВКА НАБОРА ДАННЫХ

Каждый сеанс записи звука кашля имеет разную продолжительность. Звуковой сигнал дискретизировался с частотой 44 100 Гц и имел 16-битное разрешение. В этом исследовании каждый звук разделен на более короткие окна, содержащие 1024 сэмпла с 25-процентным перекрытием. Каждое окно имеет продолжительность 23 мс. Каждое окно помечено в соответствии с его типом: COVID-19 или НОРМАЛЬНОЕ.

Как видно, набор данных содержит 2201 помеченное звуковое окно. 955 из них помечены как COVID-19 (0), а 1246 из них помечены как НОРМАЛЬНЫЕ (1) звуки кашля.

РАСЧЕТ ХАРАКТЕРИСТИК

Семь признаков рассчитываются для каждого окна в MATLAB. Эти признаки выбраны среди признаков, используемых для классификации адвентивных звуков в дыхательных шумах. Например, в данной обзорной статье [Оценка признаков для классификации хрипов и нормальных дыхательных шумов] был проведен анализ для выбора наилучших звуковых признаков (в спектральной и временной области) среди всех признаков, используемых для классификации адвентивных звуков среди дыхательных шумов. уже. Мы выбираем лучшие функции в соответствии с этой работой и нашим опытом. Один из членов команды имеет трехлетний опыт анализа легочных звуков и написал магистерскую диссертацию по классификации хрипов.

Выбранные функции:

Эксцесс: Эксцесс дает степень того, насколько распределение выборки соответствует нормальному распределению.
Энтропии Реньи с порядком 1,2 и 3: Информационная энтропия является мерой среднего уровня неопределенности, присущей возможным результатам случайной величины.
Процентные соотношения частот (f25/f75, f25/f90, f50/f90, f50/f75): спектральная плотность мощности показывает мощность сигнала как функцию частоты. f25, f50, f75, f90 — частоты, которые составляют 25 %, 50 %, 75 % и 90 % общей площади при нормированной функции спектральной плотности мощности соответственно.
Средняя неравномерность пересечения: Средняя неравномерность пересечения — это уровень регулярности интервалов между нулевыми пересечениями.
Параметры AR (Yule-Walker -> LPC Paramters):
Кепстральные коэффициенты частоты Мелла
Индекс тональности: Индекс тональности — это мера вероятности, которая определяет, является ли сегмент звукового сигнала более тональным или шумоподобным.

ВЫБОР КЛАССИФИКАТОРА

Я подготовил следующие классификаторы:

КНН (к = 9)
Линейный SVM (C=1)
Полиномиальный SVM порядка 3 (C = 1, Kernel Scale = 4,7)
Gaussian SVM (C = 1, Kernel Scale = 2,5)
Максимальное правдоподобие с многомерным гауссовым
Двоичное дерево решений (максимальное количество разбиений: 100 и индекс разнообразия Джини)

Набор обучающих данных используется с пятикратной перекрестной проверкой для определения точной производительности классификаторов. Из-за ограниченного количества обучающих данных перекрестная проверка увеличивает производительность классификатора за счет обучения большего количества невидимых выборок.

Двоичное дерево решений показало наилучшую производительность среди других классификаторов. Вы можете увидеть детали производительности этого классификатора ниже.

Как видите, алгоритм предсказывает правильные метки с точностью до 90 %. Чувствительность (способность правильно маркировать окна COVID-19 среди всех окон COVID-19) составляет 88%. Эти результаты выглядят многообещающе. С другой стороны, мы не должны доверять этим результатам, потому что созданный нами набор данных мал и не содержит много данных. Нам нужно больше звуков кашля, чтобы выбрать лучшие классификаторы.

На приведенном ниже графике рассеяния показаны окна, помеченные как covid, и окна, помеченные как обычные в соответствии с MFCC 4 и MFCC 10. Вы можете увидеть разницу.

ДИАГНОСТИРОВАТЬ COVID-19

Диагностика covid-19 — одна из важнейших частей этой работы. Путь может быть следующим:

Звук кашля, записанный для теста, разделен на более короткие окна, которые содержат 1024 сэмпла с 25-процентным перекрытием. (1024 выборки и 25% перекрытия)
Характеристики рассчитываются для выбранного классификатора.
Затем модель ML предсказывает, какие окна содержат звуки кашля covid-19.
Затем можно применить порог. Например, если 70 % окон со звуком кашля помечены как Covid-19, алгоритм может сказать: «Вероятность того, что у вас будет диагностирован Covid-19, составляет 70 %».

Мы не делали эту часть, потому что нам нужно больше данных для обучения классификатора и диагностики Covid-19.

ВЕБ-САЙТ

Мы создали веб-сайт для доступа к большему количеству звуков кашля и диагностическим данным. Запишите звук своего кашля, помогите этому исследованию Covid-19.

https://caglayan.github.io/covid19/ru/