Прогнозирование возникновения сепсиса с помощью моделей классификации машинного обучения

Проверьте часть EDA здесь: https://medium.com/@alidu143/uncovering-sepsis-occurrence-secrets-through-exploratory-data-analysis-8cffee7e760

Введение

Сепсис — опасное для жизни состояние, возникающее, когда в ответ на инфекцию организм повреждает собственные ткани и органы. Это серьезная проблема здравоохранения во всем мире, с высоким уровнем смертности, если ее не выявить и не лечить быстро. Раннее выявление сепсиса имеет решающее значение для улучшения результатов лечения пациентов и снижения нагрузки на системы здравоохранения.

Прогнозирование возникновения сепсиса с использованием моделей классификации машинного обучения предлагает многообещающий подход для выявления лиц, подверженных риску, и обеспечения целенаправленных вмешательств. Используя данные о пациентах и передовые алгоритмы, эти модели могут помочь медицинским работникам выявлять закономерности и индикаторы, которые могут предшествовать возникновению сепсиса. Раннее выявление позволяет проводить своевременные вмешательства, такие как начало соответствующей антибактериальной терапии, инфузионная терапия и мониторинг показателей жизнедеятельности, что может значительно улучшить результаты лечения пациентов и потенциально спасти жизни.

Традиционно диагностика сепсиса основывалась на клинической оценке и стандартизированных критериях, основанных на показателях жизненно важных функций, лабораторных показателях и клинических показателях. Однако эти критерии могут не отражать незначительные изменения в состоянии пациента или учитывать индивидуальную вариабельность. Модели машинного обучения могут преодолеть эти ограничения за счет включения широкого спектра переменных и изучения сложных закономерностей из больших наборов данных.

Кроме того, прогнозирование возникновения сепсиса может помочь оптимизировать распределение ресурсов здравоохранения. Выявляя пациентов с повышенным риском, поставщики медицинских услуг могут более эффективно распределять ресурсы, например, расставлять приоритеты в отделениях интенсивной терапии, инициировать ранние консультации со специалистами и обеспечивать адекватный уровень укомплектования персоналом.

В этой статье мы рассмотрим весь процесс прогнозирования возникновения сепсиса с использованием моделей классификации машинного обучения. От предварительной обработки данных до оценки и выбора модели — мы углубимся в каждый шаг, чтобы продемонстрировать потенциал этих моделей в обеспечении раннего выявления и целенаправленных вмешательств при сепсисе. Проливая свет на эту важную тему, мы стремимся внести свой вклад в текущие усилия по улучшению лечения сепсиса и, в конечном итоге, к спасению жизней.

Предварительная обработка данных

Проверка дисбаланса данных

Несбалансированность данных — распространенная проблема машинного обучения, когда классы или категории в наборе данных представлены неодинаково. Это может привести к моделям, которые предвзято относятся к классу большинства и изо всех сил пытаются точно предсказать класс меньшинства.

В контексте прогнозирования сепсиса дисбаланс данных означает, что частота случаев сепсиса значительно ниже, чем случаев без сепсиса, как указано выше. Это связано с тем, что сепсис является относительно редким состоянием по сравнению с населением в целом.

Чтобы устранить дисбаланс данных, мы будем использовать следующие методы:

Повторная выборка: это включает в себя избыточную выборку класса меньшинства или недостаточную выборку класса большинства, чтобы сбалансировать набор данных.
Использование показателей оценки, которые учитывают несбалансированные данные: эти показатели, такие как оценка F1 или площадь под кривой точности-отзыва, более чувствительны к классу меньшинства, чем к точности.

Оценивая распределение классов в наборе данных и используя соответствующие методы для устранения дисбаланса, мы можем повысить производительность моделей машинного обучения на несбалансированных данных.

Удалить дубликаты:

Удаление повторяющихся записей из набора данных важно для обеспечения целостности и качества данных. Повторяющиеся записи могут внести предвзятость и неточности в анализ, что приведет к вводящим в заблуждение результатам.

Чтобы определить и удалить дубликаты, мы можем использовать метод duplicated() в pandas. Этот метод возвращает логический ряд, указывающий, является ли каждая строка дубликатом или нет. Затем мы можем использовать эту серию для фильтрации набора данных и удаления повторяющихся записей с помощью метода drop_duplicates(). Таким образом мы гарантируем уникальность каждого наблюдения в наборе данных, устраняя любую избыточность и повышая надежность нашего анализа.

def check_duplicate_rows(data):
    duplicate_rows = data.duplicated()
    num_duplicates = duplicate_rows.sum()
    print("Number of duplicate rows:", num_duplicates)

# Check duplicate rows in train data
check_duplicate_rows(train)

# Check duplicate rows in test data
check_duplicate_rows(test)

Number of duplicate rows: 0
Number of duplicate rows: 0

Проверьте недостающие значения:

Обработка отсутствующих значений в наборе данных также имеет решающее значение, поскольку они могут повлиять на точность и надежность анализа. Отсутствующие значения могут привести к необъективным результатам и снизить производительность моделей машинного обучения.

Чтобы определить и оценить недостающие значения в моем наборе данных о сепсисе, мы используем метод isna().sum() в pandas.

def check_missing_values(data):
    missing_values = data.isna().sum()
    print("Missing values:\n", missing_values)

# Check missing values in train data
check_missing_values(train)

# Check missing values in test data
check_missing_values(test)
Missing values:
 ID           0
PRG          0
PL           0
PR           0
SK           0
TS           0
M11          0
BD2          0
Age          0
Insurance    0
Sepssis      0
dtype: int64

Missing values:
 ID           0
PRG          0
PL           0
PR           0
SK           0
TS           0
M11          0
BD2          0
Age          0
Insurance    0
dtype: int64

Этот метод возвращает количество пропущенных значений для каждого столбца в наборе данных. Изучив количество отсутствующих значений, мы можем определить, в каких столбцах есть отсутствующие значения, и степень «отсутствия». Эта информация помогает нам принять решение о соответствующих стратегиях обработки пропущенных значений, таких как вменение или удаление, чтобы обеспечить целостность данных для дальнейшего анализа.

Кодирование функций

В моделях машинного обучения категориальные признаки необходимо кодировать в числовые значения, поскольку большинство алгоритмов работают с числовыми данными. Кодирование меток — это один из методов, используемых для кодирования категориальных признаков.

Кодирование меток преобразует целевые категориальные значения в числовые метки, где каждой уникальной категории присваивается уникальное целочисленное значение. Это позволяет модели машинного обучения понимать порядковые отношения между различными категориями. В случае данных о сепсисе у нас есть такие категории, как «положительные» и «отрицательные», кодирование меток может присваивать им числовые метки 0 и 1 соответственно.

def encode_target_variable(data, target_variable):
    # Encode the target variable using LabelEncoder
    label_encoder = LabelEncoder()
    encoded_target = label_encoder.fit_transform(data[target_variable])
    target_encoded = pd.DataFrame(encoded_target, columns=[target_variable])

    # Combine the features and the encoded target variable
    data_encoded = pd.concat([data.iloc[:, :-1], target_encoded], axis=1)
    data_encoded.drop('ID', axis=1, inplace=True)

    return data_encoded

# Encode target variable in train data
train_encoded = encode_target_variable(train, 'Sepssis')

Предоставленный фрагмент кода демонстрирует использование LabelEncoder из scikit-learn для кодирования целевой переменной. Он преобразует целевую переменную в закодированные метки и создает новый кадр данных с закодированной целевой переменной. Наконец, закодированная целевая переменная объединяется с исходными функциями, за исключением столбца «ID», для создания закодированного набора данных. Кодирование меток — это простой и эффективный способ обработки категориальных функций в моделях машинного обучения.

Разделение данных

Процесс разделения набора данных на подмножества обучения и тестирования включает в себя разделение данных на два отдельных набора для оценки производительности модели машинного обучения.

def split_data(X, y, test_size, random_state=42, stratify=None):
    # Split the data into train and validation sets
    X_train, X_eval, y_train, y_eval = train_test_split(X, y, test_size=test_size, random_state=random_state, stratify=stratify)

    return X_train, X_eval, y_train, y_eval

# Split the data into train and validation sets for both X and y
X_train, X_eval, y_train, y_eval = split_data(train_encoded.iloc[:, :-1], train_encoded.iloc[:, -1:], test_size=0.2, random_state=42, stratify=train_encoded.iloc[:, -1:])

В предоставленном фрагменте кода функция split_data принимает функции (X) и целевую переменную (y), а также желаемый размер теста, случайное состояние и необязательный параметр стратификации. Он использует функцию train_test_split из scikit-learn для разделения данных на наборы для обучения и проверки.

Разделение выполняется с учетом сохранения распределения классов в разделении, указанного параметром stratify. Это гарантирует, что доля различных классов остается сбалансированной как в подмножествах обучения, так и в подмножествах проверки.

Разделив данные, мы можем обучить модель на тренировочном наборе и оценить ее производительность на невидимом проверочном наборе. Это помогает оценить, насколько хорошо модель будет обобщать новые, невидимые данные.

Вменение пропущенных значений:

Вменение пропущенных значений — важный шаг в предварительной обработке данных для обработки неполных данных. В предоставленном фрагменте кода для вменения используется класс SimpleImputer из scikit-learn.

# Creating imputer variables
numerical_imputer = SimpleImputer(strategy = "mean")

numerical_imputer.fit(X_train)

X_train_imputed = numerical_imputer.transform(X_train)
X_eval_imputed = numerical_imputer.transform(X_eval)
X_test_imputed = numerical_imputer.transform(test)

Выбранный метод вменения — это mean стратегия, обозначенная strategy="mean". Эта стратегия заменяет пропущенные значения средним значением соответствующего признака/столбца.

Метод fit из SimpleImputer вызывается в обучающем наборе (X_train) для вычисления среднего значения каждой функции. Этот шаг позволяет импутеру узнать средние значения для каждой функции.

Затем метод transform используется для замены отсутствующих значений в обучающем наборе (X_train_imputed), наборе проверки (X_eval_imputed) и тестовом наборе (X_test_imputed) изученными средними значениями.

Обоснование использования стратегии среднего заключается в том, что она обеспечивает простой и эффективный подход к вменению отсутствующих числовых значений. Используя среднее значение признака, мы можем сохранить общее распределение и центральную тенденцию данных. Вменение пропущенных значений гарантирует, что данные будут полными и готовыми к дальнейшему анализу или обучению модели, поскольку многие алгоритмы машинного обучения не могут обрабатывать пропущенные значения во входных данных.

Масштабирование функций

Масштабирование функций — важный шаг в подготовке данных для моделей машинного обучения. Он включает в себя преобразование числовых признаков в общую шкалу, гарантируя, что ни один конкретный признак не доминирует в процессе обучения из-за его больших значений. В приведенном ниже фрагменте кода StandardScaler из scikit-learn используется для масштабирования функций.

scaler = StandardScaler()
scaler.fit(X_train_imputed)

columns = ['PRG','PL','PR','SK','TS','M11','BD2','Age','Insurance']

def scale_data(data, scaler, columns):
    scaled_data = scaler.transform(data)
    scaled_df = pd.DataFrame(scaled_data, columns=columns)
    return scaled_df
# Scale the data
X_train_df = scale_data(X_train_imputed, scaler, columns)
X_eval_df = scale_data(X_eval_imputed, scaler, columns)
X_test = scale_data(X_test_imputed, scaler, columns)

StandardScaler масштабирует функции путем вычитания среднего значения и деления на стандартное отклонение, в результате чего получается распределение со средним значением 0 и стандартным отклонением 1.

Метод fit из StandardScaler вызывается в обучающем наборе (X_train_imputed) для вычисления среднего значения и стандартного отклонения для каждой функции. Этот шаг позволяет скейлеру узнать параметры масштабирования.

Затем метод transform используется для масштабирования функций в обучающем наборе (X_train_df), проверочном наборе (X_eval_df) и тестовом наборе (X_test) на основе изученных параметров.

Масштабируя данные, мы гарантируем, что все функции в равной степени способствуют процессу обучения. Это особенно важно для алгоритмов, основанных на вычислении расстояний или оптимизации на основе градиента, таких как k-ближайших соседей, машины опорных векторов и нейронные сети.

В предоставленном коде указанные столбцы (['PRG', 'PL', 'PR', 'SK', 'TS', 'M11', 'BD2', 'Age', 'Insurance']) масштабируются с использованием StandardScaler. Результирующие масштабированные данные возвращаются в виде кадра данных с теми же именами столбцов.

Моделирование машинного обучения

В этом проекте оценивались несколько моделей классификации: дерево решений, логистическая регрессия, наивный байесовский алгоритм, метод опорных векторов (SVM) и случайный лес. Критерии выбора для оценки этих моделей основывались на их баллах F1 и баллах площади под кривой (AUC). Общий процесс реализации моделей классификации можно резюмировать следующим образом:

Создайте экземпляр классификатора. Создайте экземпляр нужного алгоритма классификации, например логистической регрессии, дерева решений, наивного байесовского алгоритма, SVM или случайного леса.
Подгонка модели. Обучите классификатор на обучающих данных, вызвав метод fit и предоставив матрицу признаков (X_train) и соответствующую целевую переменную (y_train).
Создание прогнозов. Используйте обученную модель, чтобы делать прогнозы на основе данных оценки или тестирования, вызывая метод predict и передавая матрицу признаков (X_eval или X_test).
Оценить производительность. Оцените производительность модели с помощью соответствующих показателей оценки. Для задач классификации общие метрики включают оценку F1, точность, достоверность, полноту и оценку AUC. Эти показатели можно рассчитать с помощью таких функций, как f1_score, accuracy_score, precision_score, recall_score и roc_auc_score из библиотеки scikit-learn.
При необходимости проанализируйте прогнозы модели. Вы можете дополнительно проанализировать прогнозы модели, изучив такие показатели, как кривая ROC, матрица путаницы или важность функций, в зависимости от конкретных требований вашего проекта.

Следуя этому общему процессу, вы можете реализовать и оценить различные алгоритмы классификации, сравнивая их производительность на основе выбранных показателей оценки.