Эта статья служит моими личными заметками к курсу CSE 6242 Data and Visual Analytics, пройденному в Технологическом университете Джорджии (GaTech) весной 2023 года.

Этот курс познакомит вас с широким спектром методов и инструментов для анализа и визуализации данных в масштабе.

Акцент делается на том, как дополнить вычисления и визуализацию для эффективного анализа. Мы рассмотрим методы с каждой стороны и гибридные, которые сочетают в себе лучшее из обоих миров.

Урок посвящен строительным блокам Analytics. Все уроки можно найти здесь.

Введение

Этот курс использует стандартные блоки, чтобы помочь нам выполнить анализ и визуализацию больших данных. Аналитические строительные блоки состоят из

  1. Коллекция
  2. Уборка
  3. Интеграция
  4. Анализ
  5. Визуализация
  6. Презентация
  7. Распространение

Это не последовательные шаги, а скорее блоки, и вы можете выполнять их в любом порядке, пропускать блоки, возвращаться к предыдущим и т. д.

Проекты

Чтобы понять, как это можно использовать. Мы подробно рассмотрим два проекта и продемонстрируем, как можно реализовать эти строительные блоки.

Исследование графа Apolo

Первый пример называется исследование графа Аполо. Это инструмент, используемый для изучения больших графиков. Этот инструмент использует машинное обучение и визуализацию.

Проблемное пространство включает в себя: задан большой сложный граф статей и ссылки на них. Как мы можем найти релевантные/связанные узлы для пользователя.

Для этого проекта данные были собраны и очищены от Google Scholar. Анализ включал разработку алгоритма вывода, а затем создание представления данных с использованием интерактивного графического интерфейса.

Презентация для этой части работы включает статью, которая была опубликована.

NetProbe

Второй пример — проект под названием NetProbe. Это система, которая выявляет мошенничество на онлайн-аукционах на EBay.

Этот проект направлен на выявление мошенничества с недоставкой или, скорее, лиц, которые на самом деле ничего не продают.

Способ, которым это работает, заключается в том, чтобы связать покупателей с продавцами. Это строит график/сеть, где мы можем связать отношения между ними.

На EBay профиль каждого человека содержит общее количество положительных отзывов за вычетом отрицательных отзывов.

Таким образом, те, кто пытается обмануть других, создают учетную запись мошенника для выполнения незаконной работы, а также другие учетные записи, чтобы компенсировать подсчет очков мошенника. Сообщники торговали как между честными счетами, так и с честными людьми.

Цель сообщника — создать положительные сделки и хороший скоринг для мошенника.

Теперь мы хотим обнаружить Мошенников, и мы делаем это, находя Сообщников. Это называется почти двудольным сердечником.

Мы можем сделать это, оценивая взаимодействия между типами людей. Более темные квадраты указывают на то, что нам нужно пометить учетные записи самозванцев.

Строительные блоки, используемые в этом проекте, включают сбор и очистку. Что включало в себя сбор и очистку данных с EBay.

Поскольку все данные поступали с Ebay, в интеграции данных не было необходимости.

Был проведен анализ для построения алгоритма обнаружения. А также создание визуализации данных и, наконец, этот проект был представлен в статье, а затем с докладами и лекциями.

Надеюсь, вы чему-то научились.

-R