Как машинное обучение может обнаруживать суицидальное поведение

ВВЕДЕНИЕ

Депрессия - это безмолвный и невидимый враг, которого, кажется, так долго игнорировали, что пришло время собраться вместе и обратить на это внимание. С конкурентоспособной карьерой и напряженной работой мы часто игнорируем необходимость сбалансировать нашу жизнь и поддерживать гармонию разума. По данным ВОЗ, депрессия - распространенное заболевание в мире, которым страдают более 264 миллионов человек. А в худшем случае это приводит к самоубийствам; Самоубийство в одиночку - вторая по значимости причина смерти людей в возрасте от 15 до 29 лет.

Все мы знаем, что медицинская наука теперь предлагает методы профилактики депрессии, но только тогда, когда мы обращаемся за помощью или располагаем для этого необходимыми средствами. Это заболевание, которое, как и все вирусы, поражает всех нас, независимо от нашего класса, цвета кожи, пола и касты. А когда пандемия поразила нас прямо в самый центр нашего кишечника, мы наблюдаем резкий рост тревожности и депрессии. При COVID-19 мониторинг психического здоровья имеет первостепенное значение из-за растущего числа случаев заражения. потери рабочих мест, сокращения заработной платы, личных и финансовых потерь. Ниже мы поговорим о том, как мы можем отслеживать ваше психическое здоровье через платформы социальных сетей.

ЗАЯВЛЕНИЕ О ПРОБЛЕМЕ

Как мы можем помочь выявить депрессию / суицидальные наклонности среди людей по их сообщениям в социальных сетях (Twitter, Instagram)?

Цель этого проекта состоит в 2-х аспектах:

Показать, как депрессия приводит к суицидным наклонностям.
Как предсказать суицидальные наклонности среди людей

МЕТОДОЛОГИЯ

Шаг 1 - Сбор данных

Первый шаг этого процесса включает сбор данных с различных форумов, посвященных суициду / депрессии. Для нашего проекта мы использовали данные с сайта https://www.beyondblue.org.au/.

Этот веб-сайт в основном представляет собой форум, состоящий из отдельных тем, посвященных депрессии и суициду; в нем также есть советы и инструкции. Этот форум выступал в качестве справедливого источника

Пост депрессии
Суицидальный пост
Совет / Обычный пост

Нам было легко помечать сообщения вручную, поскольку на веб-сайте уже есть разные типы веток. Мы очистили веб-сайт для сбора данных. Доступны различные инструменты парсинга, для исследования мы использовали плагин Chrome под названием Web scraper (http://webscraper.io/).

Шаг 2 - Очистка и подготовка данных

Когда у нас есть необработанные данные, важно очистить данные, удалив все повторяющиеся предложения, любые URL-адреса, пробелы, имена пользователей и стоп-слова (в основном, шум в данных), которые не имеют отношения к нашему исследованию. Мы также удалили скобки, тире, двоеточие и любые другие символы, которые присутствовали в данных. Наконец, в наборе данных 600 сообщений, в том числе (190 сообщений о депрессии, 180 сообщений о суицидальных действиях и сообщения о несуицидных / депрессивных состояниях).

Помимо очистки данных, мы должны пометить пост по трем различным категориям (суицидальный, депрессивный и нормальный), что было сделано на этом этапе.

Шаг 3 - Исследование и обнаружение данных

Перед тренировкой данных мы подумали об анализе сообщений о депрессии и суициде, изучив слова и темы.

Шаг 3.1 - WordCloud

WordCloud используется для визуального представления данных. Облако слов, показанное здесь, характерно для слова «Пост депрессии». Из облака слов ясно видно, что в большинстве сообщений о депрессии говорится о депрессии, и они обращаются за помощью и нуждаются в совете.

Шаг 3.2 - Тематическое моделирование

Мы провели анализ машинного обучения (так называемое тематическое моделирование), чтобы проанализировать текстовые данные и найти группы слов и похожие выражения. На самом деле это анализ текста, который помогает нам получить представление, классифицируя данные по различным темам. Мы извлекли из постов 3 темы (депрессия и суицид).

Тематическое моделирование дало нам список слов и оценку, показывающую, сколько раз каждое слово обсуждалось в каждой теме. Мы выделили 6 самых популярных слов из каждой темы и использовали их для соответствующей маркировки каждой темы.

(Обратите внимание, что названия тем Забота, Обсуждение и Охват полностью субъективны. Количество тем, которые необходимо выделить, также может варьироваться)

Было интересно найти «работу» по двум темам - «Забота» и «Мысли». Означает ли это, что работа - одна из основных причин депрессии?

Из диаграммы следует, что Охват был наиболее частой темой, обсуждаемой как в сообщениях о суицидальных поступках, так и в сообщениях о депрессии. Таким образом, тем более важно выслушивать и помогать первым, прежде чем они перейдут ко второму. Это были интересные наблюдения, которые требуют более актуальных данных и требуют отдельного исследования.

Шаг 3.3 - Приводит ли депрессия к самоубийству

Это одна из целей этого исследования - проверить, действительно ли депрессия приводит к суицидным наклонностям. Тематическое моделирование также дало нам результат, показывающий, в какой степени каждая тема обсуждалась во всех сообщениях в цепочках. Когда мы сравнили результаты поста о депрессии и поста о самоубийстве, мы обнаружили, что посты в обоих были довольно похожи с точки зрения обсуждаемых тем.
Используя ключевые слова из каждой темы, указанной на предыдущем шаге, в качестве атрибутов, мы запустили «Сходство» Анализ по всем постам. Это помогло нам определить, насколько похожи сообщения о депрессии и суицидальных действиях.

Таким образом, мы можем сделать вывод, что депрессия приводит к склонности к суициду

Шаг 3.4 - Анализ настроений

Все мы знаем, что слово «суицидальный» и «депрессия» подразумевает отрицательные эмоции. Чтобы проверить, что думает машина о суицидальном посте, мы подумали о проведении анализа настроений. Анализ настроений - это интерпретация эмоций (положительных, отрицательных и нейтральных). Это можно сделать с помощью скриптов или инструментов. В нашем случае мы использовали инструмент под названием MonkeyLearn

Вы можете ясно видеть, что этот суицидальный пост имеет негативные настроения с вероятностью 98,4%.

Шаг 4 - Алгоритм машинного обучения

Машинное обучение - это концепция программирования на компьютере таким образом, что он изучает доступные данные и развивает отношения, которые впоследствии можно использовать для выполнения прогнозов. Это предпосылка искусственного интеллекта.

Взяв в качестве примера текущее исследование, модель будет изучать существующие сообщения и строить отношения, то есть какие сообщения в социальных сетях могут указывать на то, что человек переживает депрессию или что он / она могут быть склонны к суициду. Это называется модельным обучением.

Для этого мы пометили собранные сообщения в соответствующие темы, т. Е. Депрессивные, суицидальные или нормальные, а затем случайным образом разделили их на обучающий набор и тестовый набор. Обучение использовалось для обучения модели машинного обучения или машинного обучения. Мы начали с логистической регрессии, чтобы упростить и облегчить интерпретацию этого исследования. Мы также пробовали другие модели, такие как SVM (машина опорных векторов), что привело к повышению точности.

AUROC (площадь под кривой ROC) - популярный показатель, используемый для измерения таких моделей, и оценка выше 0,5 может указывать на то, что модель уже работает лучше, чем случайный прогноз, то есть без какого-либо машинного обучения.

ПРИМЕНЕНИЕ

Теперь мы разработали модель, которая может помочь в прогнозировании суицидных наклонностей. Как мы можем сделать его полезным и спасти жизни миллионов людей?

Один из способов найти людей - использовать Контент, созданный пользователями. Миллионы людей сегодня находятся в сети с помощью социальных сетей, таких как Twitter, Facebook, Instagram, Reddit и т. д. Это платформа, позволяющая им не только взаимодействовать с другими, но и передавать свои чувства, мысли и эмоции. Если наша модель сможет обнаружить эти удручающие твиты, возможно, мы сможем спасти несколько тысяч жизней.

Мы подумали о том, чтобы выбрать Twitter в качестве платформы, поскольку люди открыто выражают свои чувства в Twitter. Мы подумали о выборе двух важных профилей:

Честер Беннингтон - американский певец и автор песен, покончивший с собой в 2017 году.

Дипика Падуконе - индийская актриса - переживала депрессию.

Сбор данных Twitter и прогнозирование

После выбора профилей для прогнозирования мы соскребли твиты из обоих профилей и разделили их по годам. Мы протестировали все тексты в том порядке, в котором они были опубликованы, и заметили кое-что интересное. Суицидальная склонность Честера Беннингтона увеличилась за год, и он, наконец, покончил жизнь самоубийством в 2017 году, тогда как уровень депрессии Дипики Падуконе снизился, и, похоже, она ведет счастливую супружескую жизнь.

Могут ли эти твиты быть сигналом?

ОГРАНИЧЕНИЯ

У этого исследования есть несколько ограничений.

В исследовании использовался базовый алгоритм машинного обучения, то есть логистическая регрессия и SVM, где точность не выше. Точность этой модели может быть дополнительно улучшена с помощью алгоритмов глубокого обучения, таких как модель сети долгосрочной краткосрочной памяти (LSTM), которую можно дополнительно комбинировать с моделью CNN.

Набор данных был очень ограниченным и состоял всего из 600 сообщений. Мы можем собирать данные с различных других форумов и платформ. Это поможет нам еще больше повысить точность модели.

ЗАКЛЮЧЕНИЕ И ДАЛЬНЕЙШИЕ УЛУЧШЕНИЯ

Наша цель - просто создать прототип, подтверждающий предположение, что новые технологии, такие как машинное обучение и глубокое обучение, могут быть использованы для решения социальных проблем; депрессия и самоубийства в этом случае. Люди с депрессией в большинстве стран не получают должного внимания или избегают общения из-за определенной социальной стигматизации. Хотя мы не можем охватить каждый укромный уголок, цель здесь заключалась в создании социальной модели, основанной на доступных пользовательских данных.

Чего мы пытаемся достичь? Мы просто хотели выдать идею о том, что эти типы приложений можно использовать для прогнозирования поведения пользователей на основе их использования в социальных сетях, а не только сообщений, которые они создают, но и сообщений. они потребляют. Модели искусственного интеллекта и машинного обучения могут использоваться транснациональными организациями не только для развития своего бизнеса, но и в социальных целях. Полученные данные можно использовать для выявления потенциальных дел и нацеливания на них конкретных мотивационных и вдохновляющих групп / страниц и форумов самопомощи. Терапевты и оздоровительные организации могут воспользоваться этой возможностью, чтобы предложить помощь через приложения в социальных сетях, ориентируя целевую аудиторию, которая нуждается в помощи. Создание решения на основе API для интеграции с различными приложениями в будущем станет шагом вперед на пути к обеспечению доступа людей к информации и здравоохранению.

Это исследование было проведено в рамках академического проекта Института менеджмента и исследований имени С.П. Джайна Антара Датта, Сурадж Чакраборти (Сурадж Чакраборти) и Сугат Наяк (сугат наяк) под руководством нашего профессора доктора Анитеша Баруа.