Введение

Личность относится к характерным образцам поведения, мышления и эмоциональных моделей человека. В этом проекте наша цель - обучить модель прогнозирования личности на наборе данных MBTI, а затем использовать эту модель для анализа взаимосвязи между личностью и политическими взглядами. Распознавание личности - очень важная тема, поскольку она может помочь определить поведение и эмоциональные модели человека. Личности могут быть очень полезны для профилирования профессий, супружеского профилирования и т. Д. Наш проект показывает один из способов использования личностных качеств для создания полезных выводов, которые могут позволить кандидатам больше сосредоточиться на некоторых группах личностей, которым они не нравятся. Аналогичная работа также может быть проделана, чтобы увидеть влияние личности на процесс найма, запугивания, преследования и т. Д.

Поскольку все мы знаем, что выборы в США закончились и на этот раз президентом избран Джо Байден, нам было весьма любопытно выяснить, каковы личности тех, кто поддерживал Джо Байдена, и тех, кто был против Дональда Трампа.

Весь проект был разделен на два этапа:

Этап 1

На этом этапе мы использовали стандартный набор данных MBTI, доступный на Kaggle, для обучения нашей модели прогнозирования личности (назовем ее Модель 1).

Этап 2

На этом этапе Модель 1 была улучшена за счет использования другого подхода к классификации (назовем ее Модель 2). В улучшенном подходе прогнозирование личности выполняется с использованием 4 бинарных моделей, каждая для классификации определенного измерения, то есть I / E, S / N, T / F, J / P. Пользовательские твиты были извлечены с помощью Twitter API на основе некоторых распространенных хэштегов из US Election 2020, таких как #USElections, #Biden, #Trump, #MAGA, # USElections2020 и т. Д., И был проведен анализ настроений по извлеченным твитам для разделения твитов с положительными и отрицательными настроениями. как для Трампа, так и для Байдена. Наконец, положительные и отрицательные пользовательские твиты как для Трампа, так и для Байдена были даны в качестве входных данных для нашей Модели 2 для прогнозирования личностей пользователей на основе их твитов.

Набор данных MBTI

Теперь давайте обсудим набор данных MBTI. Этот набор данных содержит 8600 строк данных. Каждая строка содержит тип личности человека и раздел каждого из последних 50 опубликованных им твитов. Тип личности относится к психологической классификации разных типов людей. Индикатор типа Майерс-Бригг (MBTI) содержит различные психологические предпочтения относительно того, как люди принимают решения и воспринимают мир. Эта система делит людей на 16 различных типов личности, присваивая им 4 категории:

· Интроверсия (I) или экстраверсия (E)

· Интуиция (N) или ощущение (S)

· Мышление (T) или чувство (F)

· Оценка (J) или Восприятие (P)

Предварительная обработка данных

Набор данных должен быть предварительно обработан перед использованием для анализа данных и построения модели. После обработки вручную мы видим, что процесс очистки данных требует удаления URL-адресов, цифр и специальных символов. Мы не увидели использование смайлов в этих данных, поэтому обработка смайликов не выполняется. После очистки данных мы переводим данные в нижний регистр и удаляем стоп-слова. Затем мы использовали преобразованные слова чата в их исходные слова (AFAIK - ›Насколько я знаю) и выполнили исправление орфографии с помощью библиотеки python. После этого мы лемматизируем данные, и теперь эти данные готовы для встраивания слов. Метод частотности терминов и обратной частоты документов (TF-IDF) используется для расчета встраивания слов. Часто встречающиеся слова, то есть встречающиеся более чем в 50% документов, игнорируются, и аналогично нечастые слова, т.е. встречающиеся менее чем в 10% документов, игнорируются. Этот шаг уменьшил размер слова embed, и поэтому модель должна быть обучена на более мелких, но релевантных функциях.

Анализ набора данных

Распределение классов всего набора данных было визуализировано в виде гистограммы, приведенной ниже, показывающей количество экземпляров в конкретном классе MBTI.

На гистограмме выше ось x обозначает типы личности MBTI, а ось y показывает количество экземпляров (пользователей) для каждого класса. Точное количество экземпляров в каждом классе указано в таблице ниже. Из приведенного выше столбчатого графика и таблицы ниже видно, что классы распределены неравномерно, что означает, что набор данных очень несбалансирован. Классы, имеющие черту I (интроверт), обычно имеют большое количество экземпляров по сравнению с E (экстраверт). Точно так же есть больше пользователей с чертой N (Интуиция) по сравнению с чертой S (Чувство).

Передискретизация

Асимметрия, наблюдаемая в данном наборе данных, нежелательна, поскольку она приводит к смещению модели в сторону предсказания большинства классов для любого неизвестного экземпляра. Поэтому нам нужно устранить этот дисбаланс классов, применив некоторые методы повторной выборки для данного набора данных. Для этого набора данных мы использовали процедуру случайной передискретизации, которая в основном дублирует экземпляры меньшинства, чтобы увеличить долю дисбаланса. Это дублирование класса меньшинства устраняет большую асимметрию в нашем наборе данных. На рисунке ниже показана гистограмма после применения случайной передискретизации к нашему набору данных.

Модель прогнозирования личности

После предварительной обработки набора данных мы разделили наш набор данных на обучающие функции и соответствующие метки (наземная правда). Мы обучаем разные модели машинного обучения, а затем проверяем их работоспособность на тестовом наборе. Мы использовали два разных подхода для обучения нашей модели прогнозирования личности, которые были проиллюстрированы в следующих подразделах.

Базовый подход

В базовом подходе мы используем единую модель машинного обучения для классификации разных типов личности. На рисунке ниже показан процесс обучения модели с использованием этого подхода. Необработанные твиты в наборе данных MBTI предварительно обрабатываются с последующим извлечением признаков и обучением модели на их основе.

Мы применили стандартные модели машинного обучения SVM, логистическую регрессию и многослойный персептрон. Мы также смогли повысить точность за счет передискретизации набора данных.

Улучшенный подход

Усовершенствованный подход к обучению модели прогнозирования личности является усовершенствованием ранее описанного и обычно используемого базового подхода. В улучшенном подходе прогнозирование личности выполняется с использованием 4 бинарных моделей, каждая для классификации определенного измерения, то есть I / E, S / N, T / F, J / P. На рисунке ниже показан процесс обучения модели с использованием этого подхода. После выполнения предварительной обработки сырых твитов и извлечения из них функций, 4 бинарные модели, созданные для независимой классификации, обучаются на предварительно обработанных данных, а обученные модели дополнительно оцениваются на исходном наборе данных MBTI, и результат каждой модели объединяется для генерации окончательного прогнозируемый класс личности.

Мы применили стандартные модели машинного обучения SVM, логистическую регрессию и многослойный персептрон для обучения каждой из 4 бинарных моделей. Мы также смогли повысить точность за счет передискретизации набора данных. Результаты всех трех моделей приведены в таблице ниже.

Из результатов, полученных с использованием как базового, так и улучшенного подхода, ясно видно, что наилучшая достигнутая точность была достигнута при использовании улучшенного подхода для обучения четырех бинарных моделей MLP со случайной передискретизацией для достижения точности 97,25% на наборе данных MBTI. Мы будем использовать эту обученную модель прогнозирования личности с четырьмя бинарными классификаторами, чтобы делать прогнозы на основе извлеченных твитов о выборах в США 2020.

Предлагаемая архитектура

В этой работе мы нацелены на выборы в США-2020, потому что это была одна из самых популярных тем в Твиттере. Нашей целью было проанализировать типы личностей людей, которые любят или ненавидят каждого кандидата. На рисунке ниже показана предлагаемая архитектура. В окончательной архитектуре видно, что мы сначала извлекли твиты о выборах в США и применили анализ настроений этих извлеченных твитов, чтобы увидеть настроения пользователей по отношению к конкретному кандидату. Основываясь на этих настроениях, мы использовали обученную модель прогнозирования личности, чтобы предсказать личность человека с похожими настроениями.

Извлечение твитов о выборах в США 2020

Twitter позволяет добывать данные Twitter с помощью Tweepy или Twitter API. Перед извлечением твитов из Twitter необходимо выполнить два основных шага, а именно: получить ключи API Twitter и подключиться к API Twitter. На первом этапе мы создали учетную запись разработчика Twitter и отправили в Twitter запрос на предоставление ключей доступа и ключей потребителя для успешного подключения. Затем, как только Twitter одобряет запрос, он предоставляет нам ключ потребителя, секрет потребителя, ключ доступа и секрет доступа, которые необходимы для подключения к API Twitter. После всех этих шагов мы начали извлечение твитов на основе некоторых общих хэштегов из US Election 2020, таких как #USElections, #Biden, #Trump, #MAGA, # USElections2020 и т. Д. При извлечении твитов мы отфильтровали пользователей на основе общего количества количество твитов, количество подписчиков и их язык твитов. Мы сохранили имя пользователя, подписчиков, общее количество твитов, текст и хэштеги для каждого твита. Мы извлекали твиты в течение 2 недель, чтобы создать базу данных, содержащую около 36000 твитов, связанных с выборами в США.

Анализ настроений

Мы отфильтровали извлеченные твиты о выборах в США, чтобы создать отдельные базы данных для Байдена и Трампа, используя простое сопоставление ключевых слов. Затем мы использовали те же методы предварительной обработки, что и раньше для набора данных MBTI, чтобы отфильтровать нежелательную информацию из твитов. Мы экспериментировали с различными моделями анализа настроений на наших данных и обнаружили, что модель Flair лучше, чем две другие модели Vader и Textblob. На рисунке ниже показан образец твитов, связанных с Трампом, и ясно видно, что все твиты на самом деле имеют крайне негативное отношение к Трампу, которое предсказывает только Флер. Причина низкой производительности Vader и TextBlob заключается в том, что они основаны на правилах, они используют список лексических функций (например, слово), которые помечаются как положительные или отрицательные в соответствии с их семантической ориентацией для расчета тональности текста. Эти модели не используют машинное обучение для расчета тональности текста. Textblob игнорирует слова, которые ему неизвестны, Vader оптимизирован для данных социальных сетей и дает хорошие результаты по сравнению с Textblob. Основным недостатком основанного на правилах подхода к анализу тональности является то, что эти методы учитывают только отдельные слова и полностью игнорируют контекст, в котором они используются. В последнее время исследователи обнаружили, что встраивание слов работает лучше, чем традиционное представление слов.

Вложения в текст похожие слова представлены похожими векторами, которые близки друг к другу. Flair - это простой пакет Python, который использует эту форму текстового представления для предсказания тональности текста и, как следствие, обеспечивает лучшее предсказание.

Прогнозы

Из анализа настроений мы получили информацию о пользователях, у которых были положительные и отрицательные настроения по отношению к каждому из кандидатов. Основываясь на этих настроениях, мы извлекли около 100 твитов для каждого пользователя, чтобы мы могли протестировать нашу модель прогнозирования личности. Поэтому мы снова использовали полученные ключи Twitter для извлечения твитов от пользователей, у которых есть общедоступные профили и более 100 твитов. Мы также отфильтровали ретвиты и твиты не на английском языке.

Теперь у нас есть четыре базы данных, соответствующие положительным и отрицательным настроениям по отношению к каждому кандидату, около 100 твитов для каждого пользователя. Затем мы использовали нашу сохраненную модель MLP для прогнозирования личности, разработанную с использованием улучшенного подхода для прогнозирования личностей пользователей.

Результаты и анализ

Мы использовали извлеченные твиты на нашей обученной модели прогнозирования личности, чтобы определить типы личности, которые имеют положительное и отрицательное отношение к обоим кандидатам.

На приведенных выше рисунках показаны столбиковые диаграммы типов личности, которые имеют положительное и отрицательное отношение к Дональду Трампу, и столбчатые диаграммы типов личности, которые имеют положительное и отрицательное отношение к Джо Байдену.

мы попытались провести анализ, сосредоточив внимание на определенных аспектах прогнозов. Мы рассмотрели отдельные характеристики каждого типа личности, которые описаны ниже:

· Как вы предпочитаете воспринимать информацию? S против N

· Как вы предпочитаете принимать решения? Т против F

· Вы сосредоточены на внутреннем или внешнем? E vs. I

· Как вы предпочитаете свою внешнюю жизнь? J против P

На приведенном выше рисунке показаны круговые диаграммы пользователей с положительными и отрицательными настроениями, с разными аспектами их личности для обоих кандидатов. Было замечено, что и Байден, и Трамп нравятся личностям I, S и T, которые ассоциируются с смелыми, ориентированными на факты, практичными логиками. Байдена не любят I, S и J, которые в целом ответственные и теплые. Трампу не нравятся личности E, N и J, которые ассоциируются с популярными и организованными людьми, подходящими для того, чтобы быть лидерами.

Авторы блогов и их вклад

Раджат Агарвал (https://in.linkedin.com/in/rajatag27)

Внедрение базовой модели прогнозирования личности, улучшенных подходов к извлечению признаков, таких как Перчатка, Берт и т. Д., А также анализ настроений в твитах о выборах в США.

Харшит Сингх Чхабра (https://www.linkedin.com/in/harshit-chhabra)

Извлечение твитов о выборах в США и их предварительная обработка, извлечение последних 100 твитов пользователя и их предварительная обработка, а также тестирование сохраненной модели прогнозирования личности на извлеченных твитах пользователя для получения результатов.

Картикея Арора (https://www.linkedin.com/in/kartikey-arora-714b23140)

Предварительная обработка и анализ данных MBTI, повторная выборка набора данных MBTI для решения проблемы дисбаланса классов и реализация улучшенной модели прогнозирования личности.

Подтверждение

Выражаем благодарность профессору Dr. Танмою Чакраборти и нашему TA Чхави Джайну за их постоянную поддержку и руководство на протяжении всего этого проекта в рамках курса машинного обучения (PG) 2020.

  1. Профессор: linkedin.com/in/tanmoy-chakraborty-89553324
  2. Сайт профессора: faculty.iiitd.ac.in/~tanmoy/
  3. Учитель: г-жа Ишита Баджадж
  4. Помощники учителя: Прагья Шривастава, Шив Кумар Гехлот, Чхави Джайн, Вивек Редди, Шикха Сингх и Нирав Диван.

Ссылки

1] Бхарадвадж, Шрилакшми и др. «Идентификация личностных черт на основе индикатора типа Майерс-Бриггс (MBTI) - подход к классификации текста». Международная конференция по достижениям в области вычислительной техники, связи и информатики 2018 г. (ICACCI). IEEE, 2018.

2] Гюркович, Матей и Ян Шнайдер. «Reddit: золотая жила для предсказания личности». Материалы второго семинара по компьютерному моделированию мнений, личности и эмоций людей в социальных сетях. 2018.

3] Пратама, Баю-Юдха и Риянарто Сарно. «Классификация личности на основе текста Твиттера с использованием Наивного Байеса, KNN и SVM». 2015 Международная конференция по инженерии данных и программного обеспечения (ICoDSE). IEEE, 2015.

4] Балакришнан, Вимала и др. «Обнаружение кибербуллинга в Твиттере с использованием функций Большой пятерки и Темной триады». Личность и индивидуальные различия 141 (2019): 252–257.

5] Мораес, Рошаль и др. «Оценка личности с использованием социальных сетей для приема на работу кандидатов». 2020 3-я Международная конференция по системам связи, вычислениям и ИТ-приложениям (CSCITA). IEEE, 2020.