Что такое социальная сеть?
Термин «социальные сети» относится к использованию интернет-сайтов социальных сетей для поддержания связи с друзьями, семьей, коллегами или клиентами. Социальные сети могут иметь социальную цель, деловую цель или и то, и другое через такие сайты, как Facebook, Twitter, Instagram и LinkedIn.
А теперь давайте углубимся в то, как эти социальные сети помогают сделать нашу жизнь лучше
Социальные сети очень полезны для общения с единомышленниками, и создание таких сплоченных сообществ позволит нам почувствовать себя ценными и принятыми. Самое главное, социальные сети помогают нам оставаться на связи с семьей и друзьями, которые уехали. Делиться мультимедиа (изображениями, аудиоклипами, большими файлами) стало так же просто, как нажать кнопку.
Но задумывались ли вы когда-нибудь о том, как мы получаем рекомендации? будь то предложения друзей или видеорекомендации (рекомендуемые видео на YouTube), или это может быть даже продукт, который вы хотели купить. Что ж, в нашей статье делается упор на предложение списка друзей, поскольку остальные темы выходят за рамки исследовательской работы, которую мы собираемся обсудить, а также касаются обширных тем, которые не подпадают под тот же зонтик, что и наш исследовательский интерес!
В исследовательской работе Изучение социальных сетей на основе веб-документов с использованием классификаторов опорных векторов — Масуд Макрехчи, Мохамед С. Камель»главным образом делается акцент на понимании взаимосвязей/связей в неполной сети. из веб-документов с помощью классификатора опорных векторов.
Классификатор опорных векторов — линейное ядро
Основные шаги SVM:
- Выберите две гиперплоскости (в 2D), которые разделяют данные без точек между ними (красные линии).
- Максимально увеличить расстояние (маржа)
- Средняя линия (здесь линия посередине между двумя красными линиями) будет границей принятия решения.
Поиск оптимальных гиперплоскостей в 2D проще, т.е. когда количество атрибутов всего два, что, если у нас есть N атрибутов и N измерений? Здесь появляется ядерный трюк, где мы используем множители Лагранжа для оптимизации, которая имеет дело с поиском локальных максимумов на кривой . Чтобы узнать больше об SVM — трюке с ядром, вы можете прочитать его по следующей ссылке.
Исследования и номенклатура
Исследование касалось создания виртуального класса, небольшой группы в социальной сети со списком студентов, которые разделяют знания и академические интересы. Paper предлагает подход, который автоматически создает социальную сеть из коллекции веб-документов — каждый человек помечается набором функций или атрибутов, которые извлекаются из его веб-документов соответственно)
Номенклатура
Словарь — используя векторное пространство, каждый человек может быть представлен соответствующими документами, которые моделируются векторным пространством. Здесь, например, давайте представим, что у нас есть проблема классификации текста, в которой мы классифицируем, принадлежит ли точка данных к классу «сплетен» или «ревности»;
Есть два способа найти сходство или пометить точки данных:
Евклидово расстояние: корень суммы квадратов расстояний.
Косинусная мера. Для угла мы находим по следующей формуле, которая определяет, к какой метке принадлежит точка данных.
Но этот метод поиска сходства или маркировки точки данных на основе косинуса или расстояния не очень эффективен, мы рассмотрим агрегирование векторов документов акторов с обеих сторон отношения и создадим новый агрегированный вектор документов.
Актеры.Люди, которые представлены конечным набором функций и атрибутов. Представлен URI.
Отношения/связи:это соответствует общим функциям между субъектами, что имеет решающее значение для создания сети.
Подходы к созданию социальной сети
- Использование парных отношений: когда отношения между действующими лицами известны — контролируемая классификация.
- Использование попарных сходств: когда отношение неизвестно; неконтролируемое обучение.
Мы предполагаем, что наша сеть частично исследована. Мы используем классификатор опорных векторов для извлечения недостающих отношений.
Векторная космическая модель —
Используя SVM, каждый документ, представляющий актера, может быть взят как вектор, что помогает описать актера в однословных терминах, добавленных в «словарь». Актеры и словарь могут быть представлены в матрице актер-термин.
Случай 1: описательный (все отношения известны)
Связь между двумя субъектами может быть извлечена из информации в объекте данных, например, получатель электронной почты, имя автора цитируемой статьи, ссылка на веб-страницу или «знает» взаимосвязь словаря FOAF в файле FOAF и цель состоит в том, чтобы визуализировать извлеченную сеть для целей анализа и отслеживания
Случай 2: прогнозирование (неполные данные о связи)
Ссылка переводится в подобие двух актеров. Это попарное сходство извлекается из текстовых ресурсов (веб-документов) отдельных лиц (URI). Социальная сеть генерируется вероятностной моделью сети.
Разреженность данных
Проблема разреженности данных возникает, когда количество ненулевых значений очень меньше по сравнению с нулевыми значениями в наборах данных.
Высокая разреженность создает изолированные подсети и изолированные участники, а низкая разреженность создает плотные сети.
Социальная матрица
T = {t1, t2, …, tq} — неполный набор актеров A. Текстовые данные D = {d1, d2, …, dn}.
Другими словами, дана матрица смежности Tr (таблица 1-A), целью является изучение матрицы смежности Te, которая представляет собой полную социальную сеть
Предлагаемый подход - из Incomplete Network
Изучение социальной сети выполняется в три этапа:
(i) Моделирование действующих лиц в социальной сети.
(ii) Моделирование отношений между субъектами.
(iii) Обучение классификатора изучению социальной сети.
Актерское моделирование
- Актер представлен такими документами, как домашняя страница, блог, резюме, уникальный вектор документа.
- Все документы, связанные с отдельным лицом, объединяются для создания уникального вектора документа.
- Каждый документ dj ∈ D связан с одним актором. Используя векторную пространственную модель поиска текстовой информации, каждый актер представлен набором однословных терминов следующим образом.
Схема взвешивания – частота терминов, обратная частота документов
Все методы взвешивания включают две части: глобальное и локальное взвешивание. Глобальное взвешивание присваивает вес термину на основе его значимости в коллекции, а локальное оценивает важность термина в конкретном документе.
- tf — локальное взвешивание — значимость термина в конкретном док.
- Idf — глобальное взвешивание — значимость термина в корпусе.
- Все термины с частотой документа меньше 5 и больше 100 удаляются. Пожалуйста, взгляните на ссылку, чтобы использовать python для лучшего понимания tf и idf.
Скрытое семантическое индексирование
Скрытое семантическое индексирование, также известное как скрытый семантический анализ, представляет собой математическую практику, вдохновленную и основанную на методе разложения по единичным значениям, который просто игнорирует менее важные функции.
Моделирование отношений
Оптимизация H
Н : Д → С; H — классификатор, D — документы, C — метка класса.
r = Положительные/отношения, m — r = Отрицательные/разорванные отношения, m — r — классовый дисбаланс
Дисбаланс классов
Из-за большого дисбаланса выборочных данных процесс обучения становится плохим. Например, допустим, мы хотели бы найти количество людей, инфицированных (распространенных) из-за COVID-19, и вы хотели бы понять сеть, используя ограниченное количество известных отношений или связей. Мы бы сделали упор на известные отношения/связи, а не на неизвестные отношения, поскольку знание неизвестного привело бы нас к плотным матрицам, которые соответствовали бы нашей модели.
Подходы к преодолению дисбаланса классов (на 10% лучше производительность)
1. Повышение выборки класса меньшинства
2. Понижающая выборка мажоритарного класса
В статье делается акцент на снижении выборки класса большинства за счет сокращения нарушенных отношений.
Оценка эффективности
Как и в любой модели, здесь используются общие термины, такие как отзыв, прецессия и оценка F1, чтобы понять производительность модели.
FOAF (Friend-of-a-Friend) — База данных — 210 611 RDF — Структура распределения ресурсов.
Первоначально набор данных касался
- Актеры:34275
- Реальные связи:33419
- Возможные отношения: 587 370 675
- Соотношение : 1: 17575
который показал плотную и упакованную сеть. Следовательно, мы понизили выборку мажоритарного класса и получили следующие значения.
Удалить с менее 20 и более 70 отношений в сети.
После разбиения сети на небольшие подгруппы:
- Актеры:254
- Реальные связи:246
- Возможные отношения:32131
- Соотношение: 1: 130 (что все еще было бы сложным для классификации)
Полученные результаты
Балансировка дисбаланса классов дала лучшие результаты.
Как вы можете ясно видеть, значение точности увеличилось с 50% до 60% после балансировки классов.
Спасибо, что прочитали мою статью. Пожалуйста, не стесняйтесь вносить свой вклад.
Рекомендации
https://dl.acm.org/doi/pdf/10.1109/WI.2006.109
https://www.investopedia.com/terms/s/social-networking.asp
https://wallpaperaccess.com/ultra-hd-network
https://towardsdatascience.com/svm-and-kernel-svm-fed02bef1200