VizNet: к репозиторию обучения крупномасштабной визуализации и сравнительного анализа

В этой статье обобщается статья, написанная Кевином Ху, Снехалкумаром Нилом С. Гайквадом, Маделоном Хулсебосом, Мишелем А. Баккером, Эмануэлем Зграггеном, Сезаром Идальго, Тимом Краской, Гуоляном Ли, Арвиндом Сатьянараяном и Чагатаем Демиралпом. Этот доклад будет представлен на CHI 2019 во вторник, 7 мая 2019 г., в 16:00 в секции Системы визуализации и репозитории.

Забрать

VizNet - это крупномасштабный корпус из более чем 31 миллиона наборов данных, собранных из Интернета, открытых репозиториев данных и онлайн-платформ визуализации. Исследователи могут использовать VizNet для проведения экспериментов с реальными данными, оценки экологической достоверности синтетических данных и сравнения методов проектирования с общим исходным уровнем.

Потребность в репозиториях визуализации

Крупномасштабные базы данных, такие как WordNet [1] и ImageNet [2], предоставляют данные, необходимые для обучения и тестирования моделей машинного обучения, а также являются общей базой для оценки, экспериментирования и тестирования. Они доказали свою полезность в продвижении передовых технологий в языковом моделировании и компьютерном зрении.

Однако исследования графического восприятия часто опираются на специальные или синтетически сгенерированные наборы данных, которые не обладают теми же характеристиками, что и данные, найденные в естественных условиях. На сегодняшний день недостаточно внимания уделяется проектированию и проектированию централизованного и крупномасштабного хранилища для оценки эффективности визуального дизайна. Это усиливает потребность в создании крупномасштабного корпуса для изучения, оценки и сравнения различных показателей перцепционной эффективности.

Характеристика реальных данных

Мы представляем VizNet, крупномасштабный корпус из более чем 31 миллиона наборов данных, собранных из Интернета, открытых репозиториев данных и онлайн-платформ визуализации.

Мы обнаружили, что реальные наборы данных обычно состоят из 17 строк и 3 столбцов. 51% столбцов в корпусе представляют собой категориальные данные, 44% - количественные и только 5% - временные. Около половины столбцов лучше всего описываются нормальным, логнормальным или степенным распределением. Сводная статистика и распределения (внизу) показаны ниже.

Полезность VizNet как ресурса для специалистов по данным и визуализации

Мы демонстрируем жизнеспособность VizNet в качестве платформы для проведения масштабных онлайн-краудсорсинговых экспериментов путем репликации исследования Kim and Heer (2018), оценивающего влияние задачи и распределения данных на эффективность визуального кодирования [3], и расширяем его дополнительной задачей: обнаружение выбросов.

Несмотря на то, что наши результаты в значительной степени соответствуют первоначальным результатам, наши результаты все же демонстрируют несколько статистически значимых различий в результате более разнообразных наборов вспомогательных данных. Эти различия информируют наше обсуждение о том, как краудсорсинговые исследования графического восприятия должны адаптироваться и учитывать вариации, обнаруживаемые в органических наборах данных.

По мере роста корпуса VizNet оценка эффективности этих троек (данные, визуализация, задача), даже с использованием краудсорсинга, быстро станет трудоемкой и затратной. Чтобы противостоять этой шкале, мы в заключение сформулируем прогноз эффективности как задачу машинного обучения для этих триплетов. Наши результаты показывают, что машинное обучение предлагает многообещающий метод для эффективного аннотирования контента VizNet.

Выводы

VizNet обеспечивает общую основу для сравнения методов проектирования визуализации и разработки эталонных моделей и алгоритмов для изучения графического восприятия в масштабе.
Мы демонстрируем, как модели машинного обучения могут предложить многообещающий метод для эффективного аннотирования триплетов (данные, визуализация, задача) в любом масштабе.
Исследования VizNet обеспечивают важное направление для понимания возможностей и проблем, с которыми сталкиваются при воспроизведении предыдущей работы в исследованиях взаимодействия человека с компьютером и визуализации.

Благодарности

Мы благодарим Алекса Джонсона за предоставление доступа к Plotly API, Роберта Косару за предоставление данных Many Eyes и авторов [4] за парсинг и предоставление доступа к репозиториям открытых данных.

использованная литература

[1] Джордж Миллер. 1995. WordNet: лексическая база данных для английского языка. Сообщество. ACM 38, 11 (1995), 39–41.

[2] Цзя Дэн, Вэй Донг, Ричард Сочер, Ли-Цзя Ли, Кай Ли и Ли Фей-Фэй. 2009. Imagenet: крупномасштабная база данных иерархических изображений. В CVPR.

[3] Ёнхун Ким и Джеффри Хир. 2018. Оценка влияния распределения задач и данных на эффективность визуальных кодировок. Форум компьютерной графики (Proc. EuroVis) (2018).

[4] Себастьян Ноймайер, Юрген Умбрих и Аксель Поллерес. 2016. Автоматическая оценка качества метаданных на порталах открытых данных. Журнал качества данных и информации (2016).