Изучение социальных сетей из веб-документов с использованием классификаторов опорных векторов

Что такое социальная сеть?

Термин «социальные сети» относится к использованию интернет-сайтов социальных сетей для поддержания связи с друзьями, семьей, коллегами или клиентами. Социальные сети могут иметь социальную цель, деловую цель или и то, и другое через такие сайты, как Facebook, Twitter, Instagram и LinkedIn.

А теперь давайте углубимся в то, как эти социальные сети помогают сделать нашу жизнь лучше

Социальные сети очень полезны для общения с единомышленниками, и создание таких сплоченных сообществ позволит нам почувствовать себя ценными и принятыми. Самое главное, социальные сети помогают нам оставаться на связи с семьей и друзьями, которые уехали. Делиться мультимедиа (изображениями, аудиоклипами, большими файлами) стало так же просто, как нажать кнопку.
Но задумывались ли вы когда-нибудь о том, как мы получаем рекомендации? будь то предложения друзей или видеорекомендации (рекомендуемые видео на YouTube), или это может быть даже продукт, который вы хотели купить. Что ж, в нашей статье делается упор на предложение списка друзей, поскольку остальные темы выходят за рамки исследовательской работы, которую мы собираемся обсудить, а также касаются обширных тем, которые не подпадают под тот же зонтик, что и наш исследовательский интерес!

В исследовательской работе Изучение социальных сетей на основе веб-документов с использованием классификаторов опорных векторов — Масуд Макрехчи, Мохамед С. Камель»главным образом делается акцент на понимании взаимосвязей/связей в неполной сети. из веб-документов с помощью классификатора опорных векторов.

Классификатор опорных векторов — линейное ядро

Основные шаги SVM:

Выберите две гиперплоскости (в 2D), которые разделяют данные без точек между ними (красные линии).
Максимально увеличить расстояние (маржа)
Средняя линия (здесь линия посередине между двумя красными линиями) будет границей принятия решения.

Поиск оптимальных гиперплоскостей в 2D проще, т.е. когда количество атрибутов всего два, что, если у нас есть N атрибутов и N измерений? Здесь появляется ядерный трюк, где мы используем множители Лагранжа для оптимизации, которая имеет дело с поиском локальных максимумов на кривой . Чтобы узнать больше об SVM — трюке с ядром, вы можете прочитать его по следующей ссылке.

Исследования и номенклатура

Исследование касалось создания виртуального класса, небольшой группы в социальной сети со списком студентов, которые разделяют знания и академические интересы. Paper предлагает подход, который автоматически создает социальную сеть из коллекции веб-документов — каждый человек помечается набором функций или атрибутов, которые извлекаются из его веб-документов соответственно)

Номенклатура

Словарь — используя векторное пространство, каждый человек может быть представлен соответствующими документами, которые моделируются векторным пространством. Здесь, например, давайте представим, что у нас есть проблема классификации текста, в которой мы классифицируем, принадлежит ли точка данных к классу «сплетен» или «ревности»;

Есть два способа найти сходство или пометить точки данных:

Евклидово расстояние: корень суммы квадратов расстояний.

Косинусная мера. Для угла мы находим по следующей формуле, которая определяет, к какой метке принадлежит точка данных.

Но этот метод поиска сходства или маркировки точки данных на основе косинуса или расстояния не очень эффективен, мы рассмотрим агрегирование векторов документов акторов с обеих сторон отношения и создадим новый агрегированный вектор документов.

Актеры.Люди, которые представлены конечным набором функций и атрибутов. Представлен URI.

Отношения/связи:это соответствует общим функциям между субъектами, что имеет решающее значение для создания сети.

Подходы к созданию социальной сети

Использование парных отношений: когда отношения между действующими лицами известны — контролируемая классификация.
Использование попарных сходств: когда отношение неизвестно; неконтролируемое обучение.

Мы предполагаем, что наша сеть частично исследована. Мы используем классификатор опорных векторов для извлечения недостающих отношений.

Векторная космическая модель —

Используя SVM, каждый документ, представляющий актера, может быть взят как вектор, что помогает описать актера в однословных терминах, добавленных в «словарь». Актеры и словарь могут быть представлены в матрице актер-термин.

Случай 1: описательный (все отношения известны)

Связь между двумя субъектами может быть извлечена из информации в объекте данных, например, получатель электронной почты, имя автора цитируемой статьи, ссылка на веб-страницу или «знает» взаимосвязь словаря FOAF в файле FOAF и цель состоит в том, чтобы визуализировать извлеченную сеть для целей анализа и отслеживания

Случай 2: прогнозирование (неполные данные о связи)

Ссылка переводится в подобие двух актеров. Это попарное сходство извлекается из текстовых ресурсов (веб-документов) отдельных лиц (URI). Социальная сеть генерируется вероятностной моделью сети.

Разреженность данных

Проблема разреженности данных возникает, когда количество ненулевых значений очень меньше по сравнению с нулевыми значениями в наборах данных.

Высокая разреженность создает изолированные подсети и изолированные участники, а низкая разреженность создает плотные сети.

Социальная матрица

T = {t1, t2, …, tq} — неполный набор актеров A. Текстовые данные D = {d1, d2, …, dn}.

Другими словами, дана матрица смежности Tr (таблица 1-A), целью является изучение матрицы смежности Te, которая представляет собой полную социальную сеть

Предлагаемый подход - из Incomplete Network

Изучение социальной сети выполняется в три этапа:

(i) Моделирование действующих лиц в социальной сети.

(ii) Моделирование отношений между субъектами.

(iii) Обучение классификатора изучению социальной сети.

Актерское моделирование

Актер представлен такими документами, как домашняя страница, блог, резюме, уникальный вектор документа.
Все документы, связанные с отдельным лицом, объединяются для создания уникального вектора документа.
Каждый документ dj ∈ D связан с одним актором. Используя векторную пространственную модель поиска текстовой информации, каждый актер представлен набором однословных терминов следующим образом.

Схема взвешивания – частота терминов, обратная частота документов

Все методы взвешивания включают две части: глобальное и локальное взвешивание. Глобальное взвешивание присваивает вес термину на основе его значимости в коллекции, а локальное оценивает важность термина в конкретном документе.

tf — локальное взвешивание — значимость термина в конкретном док.
Idf — глобальное взвешивание — значимость термина в корпусе.
Все термины с частотой документа меньше 5 и больше 100 удаляются. Пожалуйста, взгляните на ссылку, чтобы использовать python для лучшего понимания tf и idf.

Скрытое семантическое индексирование

Скрытое семантическое индексирование, также известное как скрытый семантический анализ, представляет собой математическую практику, вдохновленную и основанную на методе разложения по единичным значениям, который просто игнорирует менее важные функции.

Моделирование отношений

Оптимизация H

Н : Д → С; H — классификатор, D — документы, C — метка класса.

r = Положительные/отношения, m — r = Отрицательные/разорванные отношения, m — r — классовый дисбаланс

Дисбаланс классов

Из-за большого дисбаланса выборочных данных процесс обучения становится плохим. Например, допустим, мы хотели бы найти количество людей, инфицированных (распространенных) из-за COVID-19, и вы хотели бы понять сеть, используя ограниченное количество известных отношений или связей. Мы бы сделали упор на известные отношения/связи, а не на неизвестные отношения, поскольку знание неизвестного привело бы нас к плотным матрицам, которые соответствовали бы нашей модели.

Подходы к преодолению дисбаланса классов (на 10% лучше производительность)

1. Повышение выборки класса меньшинства

2. Понижающая выборка мажоритарного класса

В статье делается акцент на снижении выборки класса большинства за счет сокращения нарушенных отношений.

Оценка эффективности

Как и в любой модели, здесь используются общие термины, такие как отзыв, прецессия и оценка F1, чтобы понять производительность модели.

FOAF (Friend-of-a-Friend) — База данных — 210 611 RDF — Структура распределения ресурсов.

Первоначально набор данных касался

Актеры:34275
Реальные связи:33419
Возможные отношения: 587 370 675
Соотношение : 1: 17575

который показал плотную и упакованную сеть. Следовательно, мы понизили выборку мажоритарного класса и получили следующие значения.

Удалить с менее 20 и более 70 отношений в сети.

После разбиения сети на небольшие подгруппы:

Актеры:254
Реальные связи:246
Возможные отношения:32131
Соотношение: 1: 130 (что все еще было бы сложным для классификации)

Полученные результаты

Балансировка дисбаланса классов дала лучшие результаты.

Как вы можете ясно видеть, значение точности увеличилось с 50% до 60% после балансировки классов.

Спасибо, что прочитали мою статью. Пожалуйста, не стесняйтесь вносить свой вклад.