К юнгианской типологии с наукой о данных

Карл Юнг не разработал количественную методологию для оценки типа личности, что, скорее всего, сделало бы его теорию более популярной в научном сообществе. Однако он считал слова, произнесенные анализандом (то есть клиентом), первичными эмпирическими данными, а также картины и т. д. До появления Интернета более или менее единственной научно приемлемой (и экономически обоснованной) методологией измерения личности было самоотчетность с использованием тщательно составленных анкет. . Сегодня достижения в области цифровых медиа и науки о данных обещают методологию оценки, более соответствующую первоначальной точке зрения Юнга о том, что психика динамична, шумна и меняется со временем.

Психолог Карл Юнг в своей книге 1921 года Психологические типы предложил теорию четырех когнитивных функций. Его собственная первоначальная идея заключалась не в четырех когнитивных функциях, а в том, как они либо направлены вовне, к внешнему миру людей и вещей, либо к внутреннему миру мыслей, эмоций и субъективного опыта.

Внешнюю склонность он назвал экстраверсией, а внутреннюю — интроверсией. Строго говоря, его первоначальная теория типов личности основана на восьми когнитивных функциях, которые являются продуктом сочетания четырех основных функций с их направлением.

Сегодня гораздо больше людей знают о его идеях благодаря более поздним разработкам, таким как Индикатор типов Майерс-Бриггс или множество более или менее достоверных и надежных онлайн-опросников типов личности.

Как хорошо известно как квалифицированным специалистам, использующим такие опросники, так и критикам таких тестов, существует много проблем с получением точного профиля личности, опираясь на такую самоотчетность о психологических предпочтениях. Для обзора лучших практик и подводных камней я предлагаю прочитать более академическую книгу Основы оценки индикатора типа Майерс-Бриггс доктора Наоми Квенк или более доступную книгу Мой истинный тип доктора А.Дж. Дрент».

Проблема с самоотчетными анкетами

Подводя итог, я бы предложил сосредоточиться на том важном факте, что Карл Юнг как психолог уделял основное внимание описанию того, насколько психика динамична и что мы все больше и больше развиваем эти когнитивные функции в течение нашей жизни. живет.

Дело тогда было или не в том, чтобы классифицировать людей в статическую категорию, а в том, чтобы проанализировать и, возможно, облегчить дальнейшее развитие когнитивных функций, которые «застряли» в развитии у индивидуума и тем самым вызвали невроз. и страдания в жизни.

Роль аналитика на самом деле не в том, чтобы «подтолкнуть» людей к тому, чтобы они вышли за пределы их текущего психологического состояния и потенциальных комплексов, а в том, чтобы помочь анализируемому человеку (анализанду на юнгианском языке) стать больше осведомлены о бессознательных, подавленных частях психики и способны признать их, а также интегрировать их в свое сознательное осознание.

Когнитивные функции как карта личностного роста

Роль четырех основных когнитивных функций в этом процессе состоит в том, чтобы действовать как карта психологического роста и целостности. У человека с рождения и с детства наиболее взращенная специфическая функция имеет свою противоположную функцию наименее развитой и также неосознанно действующей функции. Много неприятностей в жизни человека можно отнести к наименее развитой из четырех функций, особенно в первой половине жизни человека.

Только осознав и поняв работу своей наименее развитой когнитивной функции — вместе с тремя все более развитыми функциями, которые созревают в осознанность и сознательную работоспособность до нее — можно стать психологически цельным и испытать глубокое чувство экзистенциальной «завершенности». и радость от беспрепятственной возможности свободно и адекватно использовать свою психику в ответ на множество различных внешних событий, которые подбрасывает нам жизнь.

Проблема отсутствия размеченных обучающих данных

Именно после новаторской работы психолога Джеймс У. Пеннебейкер, опубликованной в 2003 году и его коллег сегодня можно с уверенностью сказать, что использование слов отражает закономерности в нашем социальном и психологическом мире. Сферы, конечно, откуда мы делаем выводы о типе личности и чертах, независимо от того, какую методологию мы используем, чтобы проникнуть в умы и сердца людей.

Однако, чтобы использовать науку о данных, такую как машинное обучение, нам нужно множество языковых образцов от множества людей, тип личности которых нам известен. Были проведены исследования, в частности, сопоставление категорий слов LIWC, тщательно изученных Пеннебейкером, с типом личности, но количество людей в каждом исследовании было очень низким с точки зрения машинного обучения.

Примером может служить исследование 2007 года корреляции между категориями LIWC в эссе о потоке сознания и типами Большой пятерки и MBTI, о которых сообщают сами 80 корейских студентов, которые показали статистически значимые корреляции. Но в эксперименте по машинному обучению нужно, по крайней мере, n-число около тысячи человек и иметь возможность использовать достижения последних лет, например. глубокое обучение от 100 000 до миллионов человек.

Необходимые данные могут быть созданы компаниями, но…

В современном мире веб-приложений масштаба Интернета, где данные о типах личности могут иметь значение, таких как приложения для онлайн-знакомств, к таким данным действительно можно получить доступ. По крайней мере, для компаний, которым принадлежат эти приложения.

Но некоторые люди, заинтересованные в этой области, взяли на себя инициативу по сбору контента с форумов по типам личности. На популярной платформе сообщества Data Science Kaggle.com есть, например, набор данных с сообщениями на форуме 8600 пользователей вместе с их типом личности Майерс-Бриггс, о котором они сами сообщают.

Качество этих необработанных данных может быть поставлено под сомнение, поскольку они не контролируют, какие анкеты использовали пользователи форума для определения своего типа, насколько хорошо они составлены и насколько развиты способности к самопониманию и самонаблюдению у этих людей благодаря ход их жизни.

Кроме того, маловероятно, что контент, который они размещают на этом конкретном форуме (personalitycafe.com), носит характер потока сознания, который, вероятно, даст наилучшие результаты. Тем не менее, я думаю, что это очень хороший вклад, который люди вносят, собирая онлайн-данные, чтобы сделать данные обучения доступными.

Может быть, такая организация, как The Myers & Briggs Foundation, которая концентрирует то, что выглядит как большая часть академических знаний о юнгианском типе (хотя и в слегка, но, возможно, важном, варианте типа личности Майерс-Бриггс), будет иметь финансовые мускулы и дальновидность. взять на себя инициативу в изучении новых возможностей интеллектуального анализа данных о типах личности. А может не будут и не будут.

Или, может быть, Центр прикладных юнгианских исследований, посвященный тому, чтобы сделать идеи Карла Юнга доступными для более широкой аудитории, мог бы помочь продвигать или даже призвать к финансированию и развитию дополнительных исследований в области юнгианской науки о данных.

Но вместо этого кажется, что глобальное исследовательское сообщество с многолетним исследованием Джеймса Пеннебейкера в области психологического анализа текста в его эпицентре взяло на себя инициативу, не проявляя особого интереса к глубинной психологии Карла Юнга как таковой. Любые успехи, достигнутые в научном сообществе, конечно же, распространятся на всех, кто занимается оценкой и обсуждением типа личности, будь то для коммерческого или терапевтического использования.

Примеры из шведского анализа социальных сетей

В прошлом году я провел эксперимент по науке о данных, пытаясь предсказать восемь юнгианских когнитивных функций на основе сообщений Reddit, опираясь на предыдущий эксперимент другого частного лица.

В настоящее время я изучаю, как отобразить и использовать LIWC-категории Пеннебейкера, чтобы делать прогнозы о взаимосвязях здравого смысла между когнитивными функциями и вероятным социальным поведением в социальных сетях.

Например, я попытался перевести определенные категории, такие как LIWC-категории 132 (Insight) и 133 (Cause) на шведский язык, чтобы протестировать их на шведских пользователях Twitter.

Примерно в 18% от общего количества слов каждого твита наблюдается повторяющаяся естественная закономерность.

Человеческие языки, изучаемые в масштабе, имеют интересные закономерности. Радикальные улучшения последних лет в машинном переводе с одного языка на другой — живое тому доказательство. На самом деле я был очень озадачен, когда заметил закономерности, показанные выше, но в данном случае для личных местоимений. То же самое касается слов и фраз, связанных с когнитивным мышлением (категория LIWC 132) и причинно-следственной связью (133). При анализе достаточно большой выборки людей и достаточно большого количества языковых образцов от них возникает естественная закономерность.

Обратите внимание, что каждая точка на приведенной выше диаграмме представляет 1000 аккаунтов в Твиттере, в среднем 323 твита от каждого человека. Твит в среднем состоит из 10 слов, поэтому результаты показывают, что почти 2 из 10 слов в твите связаны с мыслительными процессами, определенными LIWC (и, конечно, с качеством моих переводов на шведский).

Глядя на язык народов с этой высокоуровневой статистической точки зрения, вы можете очень точно измерить корреляции между языковыми моделями и содержанием их общения. Я хотел быстро проверить, относятся ли люди с более высокой степенью словесности к LIWC-категориям 132 и 133 (приблизительная оценка того, что, по моему мнению, должно соответствовать юнгианским функциям мышления, будь то интроверты или экстраверты) и насколько они говорить о семье и друзьях.

Я начал с личного предчувствия, что чем выше уровень слов, используемых в стиле мышления, тем ниже будут ссылки на семью (например, мама, брат, супруг) и друзей (например, приятель, друг, гости). Кажется довольно очевидным, не так ли? Но на самом деле простое визуальное исследование этих двух переменных, измеренных в процентах от всех слов в твите, вообще не показало никаких признаков родства.

Это просто шум. Что, возможно, само по себе открытие.

Если бы существовала статистическая связь между словами LIWC, связанными с мышлением, и тем, как много люди говорят о семье и друзьях, то точки и линия регрессии на диаграмме выглядели бы совсем по-другому. Как между возрастом деревьев и их высотой. Тогда сюжет, подобный приведенному выше, будет выглядеть примерно так, как показано ниже.

Лично я очарован фактом, отмеченным Джеймсом У. Пеннебейкером и его коллегами, что слова, которые обычно выбрасываются перед проведением каких-либо экспериментов с машинным обучением на естественном человеческом языке, демонстрируют несколько последовательных шаблонов, связанных с социальным статусом. и тип личности среди прочего. Он написал легкую для чтения научно-популярную книгу о многих из этих открытий под названием Тайная жизнь местоимений, которую я настоятельно рекомендую всем, кто интересуется изучением типов личности с помощью науки о данных.

Мой интерес сильно возрос, когда я только что воспроизвел его выводы о личных местоимениях в шведском языке. Употребление личных местоимений, как он обнаружил, многое говорит об уровне психологического и физического (они, конечно, родственные, трудно быть крутым и довольным при боли в теле) самочувствия. Поскольку использование на статистическом уровне демонстрирует явные признаки хорошо известного статистического нормального распределения, можно с высокой точностью анализировать людей с постоянно более высоким или более низким использованием конкретных личных местоимений, чем в среднем по популяции.

Посмотрите, как аккуратно использование местоимений самоссылки (например, я, мой, мой) в шведских твитах группируется вокруг среднего значения при просеивании сотен тысяч твитов из 9 различных случайных выборок шведских пользователей твиттера!

Из всех слов, найденных во всех твитах от каждого пользователя, около 2% являются самоотсылающими местоимениями. Эксперимент повторяется 9 раз с 1000 пользователями в каждой подвыборке (точки).

Шведское исследование с использованием LIWC и аналогичных методов

Здесь, в Швеции, я нашел очень мало академических исследований или опубликованных экспериментов в этой области, за исключением Шведского агентства оборонных исследований — FOI, которое неоднократно использовало Pennebakers LIWC для таких исследований, как

Лингвистические маркеры радикализированного мышления у адептов-экстремалов

Автоматическое обнаружение ксенофобских нарративов: пример шведских альтернативных СМИ

Подход машинного обучения к выявлению экстремальных пользователей в цифровых сообществах

Все вышеперечисленное на самом деле является частью исследований недавней (2019 г.) докторской диссертации Амендры Шреста в Шведском университете Уппсалы, в которой дается очень хороший обзор подходов к науке о данных, применяемых для анализа онлайн-дискурсов людей, иногда с использованием LIWC. Над диссертацией работала Лиза Каати из FOI, также имеющая докторскую степень в Университете Упсалы.

Полностью его диссертацию можно найти здесь:

Методы анализа цифровых сред с точки зрения безопасности