Особенности, SNA и NLP: более глубокое погружение в науку о данных

Понимание выбора функций и использования SNA и NLP в разработке функций.

В мире науки о данных ключевым фактором является эффективность. Учитывая стоимость сбора данных, маркировки и вычислительной мощности, важно разумно подходить к функциям, которые мы используем в наших моделях. В этом сообщении в блоге будет рассказано о важности выбора функций и проектирования в науке о данных, включая влияние функций на влияние и использование анализа социальных сетей и обработки естественного языка для выявления влиятельных лиц.

Этот пост в блоге является частью лекции, прочитанной в сентябре 2020 года. Для тех, кто заинтересован в просмотре записанной лекции и доступе к слайдам, ссылки можно найти в конце этого поста в блоге.

Мы рассмотрим следующее:

· Выбор и проектирование признаков
· Свойства и влияние
· Гомофилия, социальное доказательство, эхо-камеры и фильтрующие пузыри
· Выявление типов влиятельных лиц с помощью SNA
· Если это похоже на утку — это НЛП.

Позвольте мне вернуться к активному обучению — помните, я сказал, что маркировка требует времени и денег? Что ж, наука о данных стоит дорого; будь то данные, которые стоят дорого, время на извлечение данных, маркировка данных, облачные вычисления или вычислительная мощность — все это стоит времени или денег, у них есть своя цена.

Чем больше у вас данных и функций, тем дороже это стоит. Так почему бы не быть в этом умнее?

Зачем использовать все функции? Почему бы не отказаться от функций, которые меньше коррелируют с целью? Меньше прогностических функций?

Зачем сохранять все функции, которые имеют высокую корреляцию друг с другом? Разве это не совместимые функции? Нам действительно нужны они все?

Выбор функций и разработка

И с другой стороны, должны ли мы относиться ко всем функциям одинаково? А как личности?

Предположим, мы хотим рассчитать стоимость медицинской страховки для мужчины в возрасте 20 лет, и он ходит к врачу примерно раз в год; когда ему за 60, он ходит раз в полгода. А в свои 80 лет он ходит примерно раз в неделю — мы видим, что это не линейно, а скорее экспоненциально.

Добавление таких особенностей, как курение или ожирение, может увеличить уязвимость этого человека к болезням, если он одновременно страдает от курения и ожирения — простое сочетание делает этого человека еще более уязвимым для серьезных заболеваний и, таким образом, резко увеличивает его медицинскую страховку.

курение + ожирение + возраст²

Особенности и влияние

Поговорим об особенностях и влиянии — зачем влиять? Это интересное явление, чтобы понять, выяснить, что заставляет людей менять свое мнение и свое поведение, и потому что это часть моего исследования по классификации убеждения в Интернете.

Мы можем узнать больше о важности признаков из этой статьи, измеряющей влияние черт автора на обнаружение влияния в обсуждениях на странице обсуждения Википедии. Черты, которые они исследуют, - это возраст, пол, религия и политическая партия.

Они выбрали темы, которые, по их мнению, более привлекательны для извлечения признаков, такие как аборт, который больше связан с полом, или Майкл Джексон, больше связан с возрастом.

Они исследуют влиятельных лиц:

Влиятельный человек — это тот, кто пользуется доверием в группе, настойчиво пытается убедить других и предлагает темы/идеи, которые другие подхватывают или поддерживают.

Здесь мы можем увидеть разбивку бинарных функций в обучающем наборе.

Они также объединяют функции для изучения влияния, как вы можете видеть на рисунке 3: Разбивка влиятельных и не влияющих лиц в обучающих данных на основе бинарного комбинированного признака пола и политической партии.

Они обнаружили, что в их наборе данных женщины на 53% чаще являются демократами. Однако женщины-республиканцы с большей вероятностью будут влиятельными, чем женщины-демократы, как показано в разбивке признака «пол, политическая партия» в данных обучения на рис. 3.

При объединении функций необходимо учитывать парадокс Симпсона, при котором тенденция появляется в нескольких разных группах данных, но исчезает или меняется на противоположную при объединении этих групп.

Гомофилия, социальное доказательство, эхо-камеры и фильтрующие пузыри

гомофилия

В этой статье они исследуют утверждение о том, что на людей больше влияют те, кто похож на них, чем те, кто на них не похож.

Этот психологический феномен, также известный как социальное доказательство, предполагает, что люди будут находиться под влиянием окружающих. Кроме того, социальное доказательство наиболее очевидно, когда человек воспринимает людей в своем окружении как похожих на него (Cialdini, 2007). Эта тенденция известна как гомофилия. Одним из способов, которым люди могут быть похожи, являются общие авторские черты, такие как демографические данные: возраст (год рождения), пол (мужской/женский) и религия (христианин/еврей/мусульманин/атеист), а также политическая партия. (республиканец/демократ).

Рисунок 2: Разбивка пользователей, составляющих большинство в своем документе, для каждой черты автора с учетом темы. На рисунке 2 показано, что влиятельные лица, как правило, солидарны с большинством других участников беседы.

Эти конфликты между редакторами Википедии или между противоборствующими политическими сторонами связаны с такими явлениями, как поляризация и разногласия.

Похоже, что люди общаются и взаимодействуют с единомышленниками только в чрезвычайно закрытых сообществах, также известных как эхо-камеры. Это относится к гомофилии — люди хотят общаться с теми, кто разделяет их убеждения или социальные особенности (Sunstein, 2017). Сочетая это с концепцией пузырей фильтров (Pariser, 2011), механизма социальной фильтрации, отвечающего интересам отдельных лиц, можно увидеть, что не все пользователи получают доступ ко всей информации. Новости обычно перетаскивают на одну сторону конфликта и рассматривают как подкрепление мнений, которые уже крутятся в эхо-камере.

Определение типов влиятельных лиц с помощью SNA

В этой недавней статье они проанализировали влиятельных лиц в онлайн-дискуссиях о политике в Твиттере. Они основывали статью на данных, собранных за три дня во время судебного процесса над бывшим президентом Бразилии Лулой.

Они определили четыре типа влиятельных лиц, используя матрицу участия, видимости и того, имеет ли пользователь четкую политическую позицию.

Для этого они использовали анализ социальных сетей (SNA).

Позвольте мне провести вас через это.

Что такое социальная сеть? Сеть строится из точек и линий.
Точки и линии могут варьироваться-

Точки и линии имеют формальные названия, которые различаются в разных дисциплинах:

Их исследование было основано на данных Twitter.

Twitter, в отличие от Facebook, является ориентированной социальной сетью, основанной на подписчиках, а не на друзьях.

Они использовали следующие показатели:

Модульность – измеряет степень разделения сети на модули (также называемые группами, кластерами или сообществами).
Степень –количество упоминаний и ретвитов, полученных пользователем. Высокая степень вхождения указывает на видимость.
Outgrade –количество пользователей, которых кто-то ретвитнул или упомянул в данной сети, что свидетельствует об их участии.

Четыре типа влиятельных лиц, которые они обнаружили:

Пользователи с четкой политической позицией:

Лидеры мнений с высоким уровнем, что означает много упоминаний и ретвитов.
Активисты – с высокой степенью исхода, что означает количество пользователей, которых кто-то ретвитнул или упомянул в данной сети.

Пользователи без четкой политической позиции:

Информационные влиятельные лица –с высоким уровнем вовлеченности, обычно это новостные агентства.
Новостные вырезки — с высокой степенью исходящего сигнала.

Вот несколько полезных вещей, которые вы должны знать и рассказать своему другу:

Безмасштабная сеть — это сеть, чье распределение степеней следует степенному закону, также известному как длинный хвост.

Эксперимент с маленьким миром включал в себя несколько экспериментов Стэнли Милгрэма (справа) и других исследователей, изучающих среднюю длину пути для социальных сетей людей в Соединенных Штатах.

Также известен как «шесть степеней разделения», придуманный Джоном Гуаре.

Это положило начало Шесть степеней Кевина Бэкона (в центре), также известному как Оракул Бэкона https://oracleofbacon.org/. И номер Эрдоса (слева).

Сократ-озарения

Последнее, чем я хочу поделиться с вами, — это инструмент, основанный на SNA, и каждый исследователь в каждой дисциплине должен ознакомиться с Socrates-insights. Это удивительное приложение строит сетевой анализ в соответствии с вашим поисковым запросом. будь то тема или писатель.
Он может найти близкие ключевые слова, чтобы вы могли расширить поиск. Он может находить похожих писателей и использовать всевозможные фильтры. Я настоятельно рекомендую добавить этот сайт в закладки, чтобы войти и запросить демонстрацию.

Вкладка «Документы» разделена на несколько областей:

Для исследования темы в левой части экрана добавляются условия поиска. Условия поиска — это строительные блоки для строк поиска, которые Сократ генерирует при поиске в Интернете соответствующего контента. Термины также используются для ранжирования результатов.

В центральной части экрана представлены результаты.

Исследование темы представляет список предлагаемых терминов над результатами.

В правой части экрана вы найдете различные аспекты, динамически генерируемые из содержимого. Вы можете использовать эти аспекты для фильтрации результатов.

На вкладке «График авторов» показаны авторы научных статей, имеющихся в настоящее время в исследовании, а также отношения соавторства между ними. С помощью графа авторов можно обогащать, объединять, удалять и т. д. (подробности ниже). График наглядно и интуитивно отображает географию институтов авторов, относительный вклад каждого автора в исследование, сходство содержания между авторами и многое другое. Используйте грани справа, чтобы сосредоточиться на соответствующих авторах.

Когда вы почувствуете, что расследование идет по плану, откройте график авторов, скройте авторов отдельных статей (щелкнув значок снежинки) и измените размер узлов по релевантности.

Крупнейшие узлы являются ведущими исследователями в этой теме. Кластеры выявляют ведущие группы исследователей. Цвета узлов показывают основные географические местоположения институтов этих исследователей.

Вы можете отфильтровать результаты по дате, географическому региону, конкретным ключевым словам (используйте фильтр произвольного текста в правом верхнем углу) и т. д.

Щелчок по узлу в графе авторов показывает их данные на правой панели. Это включает в себя список известных организаций, основных областей исследований, самых последних публикаций и многое другое.

При нажатии «Просмотреть профиль» открывается отдельная вкладка браузера со всеми доступными данными, относящимися к выбранному автору.

Профиль автора объединяет всю информацию, которую Сократ собрал об этом авторе.

Щелчок по разным областям на обзорном экране приведет к переключению на соответствующие вкладки с полными данными.

Обратите внимание, что профиль автора основан только на информации, доступной в настоящее время в Socrates. Вы можете использовать операцию обогатить, чтобы попросить Сократа принести дополнительную информацию из Интернета о желаемых авторах.

Сократ может вычислить семантическое сходство между любыми двумя авторами на основе их публикаций, собранных Сократом.

Вы можете увидеть сходство между выбранным автором и всеми другими авторами на графике:

● Изменение размера узлов — в контекстном меню выбранного узла выберите «Размер по сходству с этим автором».

● Раскрашивание узлов — в контекстном меню выбранного узла выберите Раскрасить по сходству с этим автором.

График терминов показывает карту терминов, как активных поисковых терминов, так и предлагаемых терминов, а также семантических связей между ними. Условия можно добавлять, удалять и т. д. Используйте аспекты справа, чтобы сосредоточиться на соответствующих терминах.

Термины из каждой группы окрашены в тексте по-разному, что поможет вам быстро распознать вклад каждой группы в каждый результат.

Если это похоже на утку - это НЛП.

В то время как Term Graph визуализируется как сеть, они на самом деле используют метод НЛП, называемый TF-IDF.

Что такое TF-IDF

TF-IDF означает "Частота термина — обратная частота документа".

Общая цель TF-IDF — статистически измерить, насколько важно слово в наборе документов.

1. Что такое ТФ

Итак, давайте посмотрим на TF: частотность терминов. Это именно то, на что это похоже — как часто этот термин встречается. Вот что он измеряет — возникновение. Это только заведет вас до сих пор, поэтому, как правило, частота терминов затем делится на длину документа, чтобы учесть более длинные или короткие документы.

Позвольте мне привести вам пример: допустим, у вас есть статья из 500 слов, в которой слово «лошадь» встречается 4 раза. И у вас есть статья из 2000 слов, в которой слово «лошадь» встречается 5 раз. Тогда это объясняет это. Вот почему они делят его на длину документа. Теперь у нас есть хорошая мера возникновения.

tf(t,d) = количество t в d / количество слов в d

TF — счетчик частоты термина t в документе d, а DF — количество вхождений термина t в наборе документов N. Другими словами, DF — это количество документов, в которых присутствует это слово.

df(t) = наличие t в документах

2. Что такое ИДФ

Давайте посмотрим на IDF: обратная частота документа. Это говорит вам о том, насколько важен термин. Таким образом, у него по сути две работы.

Первый: утяжелить часто встречающиеся термины, такие как «есть» или «тот», а также множество стоп-слов, которые мы все используем.
Вторая цель — увеличить количество уникальных и редко используемых терминов.

Нам нужно уменьшить количество частых терминов и увеличить количество редких. Обратный коэффициент частоты документа вводится путем вычисления IDF, который уменьшает вес терминов, которые очень часто встречаются в наборе документов, и увеличивает вес терминов, которые встречаются редко.

Интуитивная формула: idf(t) = N/df

Что является проблемой в случае большого корпуса.

idf(t) = log(N/df)

Это также проблема в случае слова, которого нет в словаре (не может делиться на 0):

idf(t) = log(N/(df + 1))

3. TF-IDF

Частота термина — обратная частота документа

В наборе документов статистически измерьте, насколько важно слово.

Базовая версия TF-IDF:

tf-idf(t, d) = tf(t, d) * log(N/(df + 1))

В сообщении блога обсуждается важность выбора функций и проектирования в науке о данных, поскольку это может сильно повлиять на стоимость и эффективность проекта. В посте также рассматривается концепция влияния и то, какую роль в нем играют функции. Автор также упоминает, как можно использовать анализ социальных сетей и обработку естественного языка для выявления влиятельных лиц в наборе данных. В заключении поста подчеркивается важность грамотного подхода к функциям, используемым в модели, для максимизации эффективности и минимизации затрат.

Этот пост в блоге является второй частью лекции, прочитанной в сентябре 2020 года. Он был подготовлен параллельно с лекцией в качестве письменного сопровождения. Пожалуйста, перейдите по этой ссылке для тех, кто хотел бы просмотреть запись лекции. Кроме того, слайды, использованные во время лекции, можно найти в связанном репозитории GitHub.