Эта статья служит моими личными заметками к курсу CSE 6242 Data and Visual Analytics, пройденному в Технологическом университете Джорджии (GaTech) весной 2023 года.

Этот курс познакомит вас с широким спектром методов и инструментов для анализа и визуализации данных в масштабе.

Акцент делается на том, как дополнить вычисления и визуализацию для эффективного анализа. Мы рассмотрим методы с каждой стороны и гибридные, которые сочетают в себе лучшее из обоих миров.

Введение в курс

Этот курс даст вам инструменты для анализа и представления данных.

Сегодня у нас есть доступ к большим наборам данных, однако люди могут хранить в своей рабочей памяти только приблизительно 7+-2 элемента. Наша цель — объединить эти большие наборы данных в ценные, актуальные и важные вещи, которые люди смогут сохранить в своей памяти.

Мы достигаем этого, преобразовывая данные в идеи, используя методы двух подходов, которые включают интеллектуальный анализ данных и человеко-компьютерные интерфейсы.

Интеллектуальный анализ данных фокусируется на автоматических методах, включая методы кластеризации и классификации.
Поскольку они автоматические, их можно легко масштабировать до миллионов элементов. Взаимодействие человека с компьютером помогает интуитивно понимать данные. Основное внимание уделяется методам взаимодействия и визуализации.
Этот курс объединяет вычисления и человеческую интуицию в этих двух областях.

Почему визуальная аналитика данных?

  1. Лучший способ начать отвечать на этот вопрос — понять, Что такое данные и визуальная аналитика? Это междисциплинарная наука, объединяющая методы вычислений и интерактивную визуализацию, чтобы помочьпреобразовывать данные, чтобы помочь принять важное решение или сделать открытие. Таким образом, мотивацией этого является способность принимать обоснованные решения или извлекать информацию из данных.

Есть несколько вещей, которые стоит учитывать при попытке выполнить визуальную аналитику данных. Некоторые проблемы, включая то, как эффективно хранить и извлекать данные, а также как масштабировать алгоритмы, работать с распределенными системами, как мы проводим тестирование, визуализацию и т. д.

2. Каждый день создается больше данных, и есть необходимость в обработке этих данных. Особенно в таких областях, как медицина, спорт, финансы, маркетинг и т. д.

Цели курса и ожидания

  • Изучите визуальные и вычислительные методы и используйте их взаимодополняющим образом.
  • Получите широту знаний
  • Изучите практические ноу-хау, работая с реальными данными и проблемами.

Программа курса состоит из нескольких частей. Части, выделенные зеленым цветом, — это сбор данных, очистка и интеграция. Затем у нас есть синий раздел, представляющий аналитику и визуализацию данных и, наконец, презентацию и распространение.

Это строительные блоки, а не жесткие ступени. Эти строительные блоки можно пересмотреть или некоторые из них можно пропустить в зависимости от данных и ваших целей.

Темы курса

  1. Введение в курс
  2. Основные блоки аналитики
  3. Модные словечки науки о данных
  4. "Сбор данных"
  5. SQLite
  6. Очистка данных
  7. Резервное копирование кода и контроль версий
  8. Интеграция данных
  9. Аналитика данных, концепции и задачи
  10. Визуализация 101
  11. Устранение распространенных проблем с визуализацией
  12. Визуализация данных для Интернета (D3)
  13. Масштабируемые вычисления: Hadoop
  14. Масштабируемые вычисления: свинья
  15. Масштабируемые вычисления: Hive
  16. Масштабируемые вычисления: Spark
  17. Масштабируемые вычисления: HBase
  18. Классификация
  19. Визуализация для классификации
  20. Введение в кластеризацию
  21. Графическая аналитика
  22. Метод ансамбля
  23. Масштабирование алгоритмов с виртуальной памятью
  24. Текстовая аналитика

Другие темы, затронутые в курсе, будут публиковаться по мере прохождения курса — приведенный выше список должен стать списком ссылок.

Надеюсь, вы чему-то научились.

-R