Вычислительный анализ больших данных Осень 2019

Ребекка Лунер, Елена Грей, Жерар Гуше

Код и набор данных можно найти здесь: https://drive.google.com/open?id=1VvKs33xxRHF2o_U4pmsBEY4d5Qoiwu9P

Введение:

Экстраверсия против интроверсии, ощущение против интуиции, мышление против чувства, суждение против восприятия: эти четыре дихотомии определяют личность на основе теста индикатора типа Майерса Бриггса. Этот личностный тест представляет собой анкету для самоотчетов, разработанную Кук Бриггс и ее дочерью Изабель Бриггс Майерс на основе теорий, представленных Карлом Юнгом.

1. Экстраверсия против интроверсии относится к тому, как люди черпают энергию. Экстраверты получают энергию от других и предпочитают быть в обществе, в то время как интроверты получают энергию от одиночества и, как правило, ведут себя спокойнее.

2. Ощущение против интуиции определяет, как мы собираем информацию. Сенсорики собирают факты из своего окружения и полагаются на свои пять чувств для получения информации, в то время как интуитивы обращают внимание на контекст и закономерности, обращая внимание на более широкие идеи и возможности для получения информации.

3. Мышление и чувство связаны с тем, как люди принимают решения. Мыслители принимают решения на основе логики и аналитики и, как правило, уравновешены, в то время как чувствующие больше сосредотачиваются на эмоциях, ценностях и потребностях других и склонны быть чуткими и теплыми.

4. Суждение против восприятия определяет то, как люди организуются. Судьи предпочитают структуру и регулирование, имея подробные планы, в то время как воспринимающие хотят, чтобы вещи были открытыми и гибкими, и склонны к импровизации.

Типы личности классифицируют людей на основе того, как они думают и действуют. Это полезно для разделения людей на разные группы или для тех из нас, кто ищет лучшего понимания себя. Мы стремимся проанализировать данные о 16 уникальных типах личности и сделать важные выводы. Делая это, мы надеемся понять нюансы личностных черт, каковы реальные различия между личностями и какие сходства существуют. Мы надеемся, что сможем предоставить альтернативный способ анализа чьей-либо личности, ограничивающий предвзятость, присущую опросам или тестам. Личности — это увлекательное эволюционное явление, которое мы надеемся использовать с помощью больших данных, чтобы пролить больше света на него.

Сбор и очистка данных:

Это подводит нас к нашему проекту. На Kaggle наткнулся на набор данных, содержащий более 8000 точек данных с форумов personalcafe.com. Он содержит последние 50 сообщений на форуме каждого человека, который идентифицировал себя как определенный тип личности. Чтобы очистить данные, мы сначала загрузили и импортировали набор данных в виде файла csv в файл блокнота python jupyter. Затем мы организовали данные, создав новые каталоги для каждого из 16 различных типов личности, и заполнили папки созданными текстовыми файлами, состоящими из сообщений форума этого типа личности.

Одним из ключевых недостатков нашего набора данных является то, как он отличается от населения мира. Как показано выше, индивидуальная разбивка нашего набора данных по сравнению с глобальными частотами сильно отличается, искажая больше вправо, чем глобальные данные искажают влево.

Анализ данных:

1. Анализ настроений типа личности

Во-первых, мы подумали, что было бы интересно углубиться в анализ настроений для каждого из 16 уникальных типов личности Мейерса-Бриггса. Для этого мы объединили все текстовые файлы, относящиеся к определенному типу личности, удалили все часто используемые стоп-слова, числа и ссылки и вычислили среднюю оценку настроения для каждого типа личности, используя лексикон настроений AFINN. Этот словарь состоит из списка терминов, оцененных по значению их валентности, обозначенному целым числом от -5 до 5. Рейтинги были созданы Финном Нильсеном в 2009–2011 годах. Затем мы визуализировали данные, нанеся значения настроений для каждого из типов личности на гистограмму, пытаясь найти более крупные тенденции. Мы обнаружили, что тип личности с самой низкой оценкой настроений — это ISTP, а тип личности с самой высокой оценкой настроений — ESFJ.

После этого мы хотели обнаружить более очевидные тенденции и поэтому решили разделить данные, сравнивая каждый из четырех наборов дихотомий: интроверсия и экстраверсия, ощущение и интуиция, мышление и чувство, суждение и восприятие.

Интроверсия и экстраверсия:

Экстравертные типы личности дают более высокий балл, чем интровертные (в среднем 0,1113 против 0,0951 с разницей 0,0162). Мы предполагаем, что это связано с тем, что экстраверты определяются как «общительные и социально уверенные», поэтому их посты могут быть наполнены более сильными положительными эмоциями, чем интроверты, которые склонны к застенчивости и могут скрывать эмоции.

Ощущения и интуиция:

Средние оценки чувств для сенсорного и интуитивного типов личности были примерно одинаковыми: 0,1059 против 0,1004, при этом сенсорный был немного выше. Эта незначительная разница в 0,0055 показывает, что это различие мало влияет на оценку настроений.

Размышление и чувство:

Сравнение мыслящих и чувствующих типов личности выявило наиболее заметное расхождение между средними показателями настроений, когда мышление имеет оценку 0,0825, а чувство — 0,1239 (разница 0,0414). Мы предполагаем, что это связано с тем, что мыслящие склонны наблюдать, анализировать и принимать решения спокойно, основываясь на логике, в то время как чувствующие более эмоциональны, принимают решения на основе эмоций и, таким образом, могут транслировать свои чувства другим.

Оценка и восприятие:

Последнее сравнение было между суждением и восприятием; оценивающие типы личности имеют более высокое среднее значение настроения 0,1096, в то время как воспринимающие типы личности имеют более низкое среднее значение настроения 0,0968 (разница 0,0128).

В целом, анализ настроений каждого из 16 типов личности вместе со сравнением четырех личностных дихотомий позволил нам обнаружить, что ранжирование оценок настроений для каждой из 8 категорий от высшей к низшей таково: Чувство (0,1239), Экстраверт ( 0,1113), Суждение (0,1096), Ощущение (0,1059), Интуиция (0,1004), Восприятие (0,0968), Интроверт (0,0951), Мышление (0,0825). Таким образом, тип личности с наивысшим баллом настроений должен быть ESFJ, что согласуется с графиком отсортированных типов личности. Наивысшим показателем более высокого балла настроений является различие между мышлением и чувством, за которым следует принадлежность к экстраверту или интроверту, затем выбор между суждением и восприятием и, наконец, выбор между ощущением или интуицией.

2. Лучшие слова/Облако слов

Первоначально, чтобы расшифровать, насколько наши данные репрезентативны для глобальных типов личности, мы посмотрели на гистограмму данных Personality Cafe по сравнению с глобальными процентами. Как вы можете видеть ниже, собранные нами данные имеют относительно другую частоту, чем глобальные, что следует учитывать на протяжении всего нашего анализа этих данных. Ниже приведена гистограмма наших данных и глобальных данных для прямого сравнения.

Стремясь проанализировать использование языка каждой личностью, мы создали гистограммы для их 10 наиболее часто используемых слов и облака мира для объединенных сообщений в блогах каждой личности. Чтобы создать гистограммы, мы нашли 10 наиболее часто встречающихся слов во всех сообщениях блога для одного типа личности, исключая стоп-слова. Результаты показали интересные тенденции для каждой личности. Основная согласованность между ними заключалась в том, что наиболее часто употребляемым словом было «думать», вероятно, потому, что тема этого онлайн-«кафе» — личности Майерс-Бриггс, и они часто обсуждают их мнения и мысли. Некоторые интересные различия, которые следует отметить, заключаются в том, что у всех «чувствующих» личностей по сравнению с «мыслящими» слово «чувствовать» было в их 10 лучших словах, кроме одного, в то время как ни у одной из «мыслящих» личностей не было слова «чувствовать» в их 10 лучших словах. Кроме того, экстраверты в среднем больше говорили о своем типе личности, чем интроверты, возможно, из-за их общительного характера. Облака слов предоставили интересные визуальные эффекты, чтобы продемонстрировать различия для всех слов, используемых за пределами топ-10. Вот 2 примера гистограмм и облаков слов для личностей ENTJ и ISFP.

3. Анализ любви

https://thoughtcatalog.com/lacey-ramburger/2019/01/ranking-the-myers-briggs-personality-types-on-who-loves-the-hardest-and-leaves-the-easyest/

Используя ранжирование из приведенной выше статьи о том, какие личности Майерс-Бриггс «любят сильнее всего», мы попытались определить взаимосвязь между использованием слова «любовь» для каждой личности и их ранжированием. Как вы можете видеть на приведенном ниже графике рассеяния, эти два фактора действительно коррелировали.

Две переменные имеют положительную корреляцию 0,72 и значение p 0,002, что означает, что эта связь значима.

4. Машинное обучение

Учитывая большой объем имеющихся у нас данных, мы решили использовать методы машинного обучения, чтобы попытаться определить категории для наборов отдельных сообщений.

Сначала мы попытались использовать классификатор дерева решений для определения индивидуальных характеристик MBTI. В этот классификатор мы добавили все нецелевые буквы типа личности и оценку тональности сообщений пользователя (с использованием Afinn). Наши результаты были смешанными, E против I были предсказаны очень точно, а также S против N, но затем наша точность значительно упала. Мы утверждаем, что это происходит из-за индивидуальной природы деревьев решений, решения принимаются с учетом только части жизненно важных функций.

Кроме того, использование оценок тональности, похоже, не дает достаточно возможностей для обучения классификатора, поэтому мы решили расширить и рассмотреть другие варианты. Мы решили использовать метрику TF-IDF, чтобы увидеть, есть ли какой-то словарь или уникальные характеристики соединения для каждого типа.

Таким образом, после некоторых исследований мы решили перейти от использования решения к классификации линейных опорных векторов, учитывая наше использование массива TF-IDF. Этот классификатор использует набор функций в качестве векторов и может создавать гиперплоскость, которая концептуально похожа на линию наилучшего соответствия, и использует ее для прогнозирования категорий данных. Это особенно полезно с нашими 16 различными категориями и, таким образом, дает довольно точные результаты. К нашему изумлению, построенная модель смогла предсказать типы личности с точностью примерно 65% (по обучению, тестированию, разделению выбранных тестовых данных), что, как мы обнаружили, было довольно высоким, учитывая, что существует 16 различных категорий.

Примечательно, что повторный цикл для прогнозирования точности нашего классификатора на общих данных вместо тестовых данных дал точность › 90%.

Посмотрев на успех классификатора LinearSVC в прогнозировании типов личности, мы решили снова использовать его для прогнозирования отдельных букв. К нашему удивлению, точность этих предсказаний отдельных букв была почти идентична точности предсказаний общего типа личности. Разброса точности, заметного в классификаторе дерева решений, больше не было.

5. Заключительные замечания

Из-за исходного характера наших данных в нашем анализе есть некоторые явные недостатки. Как упоминалось ранее, данные с форума личного кафе не соответствуют тенденциям глобальных данных с точки зрения разбивки населения по каждой личности. Набор данных из более репрезентативного населения, такого как университет, может предоставить более применимые результаты для населения в целом. Кроме того, наши классификаторы были обучены на очень специфических точках данных, что усложняло использование наших классификаторов вне контекста личностного кафе. Использование этого в более широком масштабе, например, в Facebook или Twitter, может привести к более интересным тенденциям. Также было бы интересно посмотреть на людей, которые были неправильно типизированы классификаторами. Были ли предсказания классификаторов существенно ошибочными или они были ошибочны буквально на одну букву? Кроме того, мы должны учитывать личную предвзятость людей, классифицирующих себя, поскольку люди не всегда правильно себя классифицируют.

В дальнейшем есть несколько способов дальнейшего изучения этих данных. Во-первых, было бы интересно посмотреть на тенденции, сходные с тем, что мы обнаружили в нашем анализе употребления слова «любовь». Например, мы могли бы посмотреть на такие личностные качества, как открытость или честолюбие у этих личностей, и определить, как их ранжирование по этим чертам связано с использованием определенного слова из этих тем. Кроме того, интересным способом дальнейшего изучения этой темы было бы наличие набора продольных данных, который отслеживал бы типы личности людей с течением времени. Было бы интересно увидеть тенденции эволюции и какие типы личности меняются больше и каким образом на протяжении жизни человека.