В этой статье обобщается статья, написанная Кевином Ху, Снехалкумаром Нилом С. Гайквадом, Маделоном Хулсебосом, Мишелем А. Баккером, Эмануэлем Зграггеном, Сезаром Идальго, Тимом Краской, Гуоляном Ли, Арвиндом Сатьянараяном и Чагатаем Демиралпом. Этот доклад будет представлен на CHI 2019 во вторник, 7 мая 2019 г., в 16:00 в секции Системы визуализации и репозитории.
Забрать
VizNet - это крупномасштабный корпус из более чем 31 миллиона наборов данных, собранных из Интернета, открытых репозиториев данных и онлайн-платформ визуализации. Исследователи могут использовать VizNet для проведения экспериментов с реальными данными, оценки экологической достоверности синтетических данных и сравнения методов проектирования с общим исходным уровнем.
Потребность в репозиториях визуализации
Крупномасштабные базы данных, такие как WordNet [1] и ImageNet [2], предоставляют данные, необходимые для обучения и тестирования моделей машинного обучения, а также являются общей базой для оценки, экспериментирования и тестирования. Они доказали свою полезность в продвижении передовых технологий в языковом моделировании и компьютерном зрении.
Однако исследования графического восприятия часто опираются на специальные или синтетически сгенерированные наборы данных, которые не обладают теми же характеристиками, что и данные, найденные в естественных условиях. На сегодняшний день недостаточно внимания уделяется проектированию и проектированию централизованного и крупномасштабного хранилища для оценки эффективности визуального дизайна. Это усиливает потребность в создании крупномасштабного корпуса для изучения, оценки и сравнения различных показателей перцепционной эффективности.
Характеристика реальных данных
Мы представляем VizNet, крупномасштабный корпус из более чем 31 миллиона наборов данных, собранных из Интернета, открытых репозиториев данных и онлайн-платформ визуализации.
Мы обнаружили, что реальные наборы данных обычно состоят из 17 строк и 3 столбцов. 51% столбцов в корпусе представляют собой категориальные данные, 44% - количественные и только 5% - временные. Около половины столбцов лучше всего описываются нормальным, логнормальным или степенным распределением. Сводная статистика и распределения (внизу) показаны ниже.
Полезность VizNet как ресурса для специалистов по данным и визуализации
Мы демонстрируем жизнеспособность VizNet в качестве платформы для проведения масштабных онлайн-краудсорсинговых экспериментов путем репликации исследования Kim and Heer (2018), оценивающего влияние задачи и распределения данных на эффективность визуального кодирования [3], и расширяем его дополнительной задачей: обнаружение выбросов.
Несмотря на то, что наши результаты в значительной степени соответствуют первоначальным результатам, наши результаты все же демонстрируют несколько статистически значимых различий в результате более разнообразных наборов вспомогательных данных. Эти различия информируют наше обсуждение о том, как краудсорсинговые исследования графического восприятия должны адаптироваться и учитывать вариации, обнаруживаемые в органических наборах данных.
По мере роста корпуса VizNet оценка эффективности этих троек (данные, визуализация, задача), даже с использованием краудсорсинга, быстро станет трудоемкой и затратной. Чтобы противостоять этой шкале, мы в заключение сформулируем прогноз эффективности как задачу машинного обучения для этих триплетов. Наши результаты показывают, что машинное обучение предлагает многообещающий метод для эффективного аннотирования контента VizNet.
Выводы
- VizNet обеспечивает общую основу для сравнения методов проектирования визуализации и разработки эталонных моделей и алгоритмов для изучения графического восприятия в масштабе.
- Мы демонстрируем, как модели машинного обучения могут предложить многообещающий метод для эффективного аннотирования триплетов (данные, визуализация, задача) в любом масштабе.
- Исследования VizNet обеспечивают важное направление для понимания возможностей и проблем, с которыми сталкиваются при воспроизведении предыдущей работы в исследованиях взаимодействия человека с компьютером и визуализации.
Благодарности
Мы благодарим Алекса Джонсона за предоставление доступа к Plotly API, Роберта Косару за предоставление данных Many Eyes и авторов [4] за парсинг и предоставление доступа к репозиториям открытых данных.
использованная литература
[1] Джордж Миллер. 1995. WordNet: лексическая база данных для английского языка. Сообщество. ACM 38, 11 (1995), 39–41.
[2] Цзя Дэн, Вэй Донг, Ричард Сочер, Ли-Цзя Ли, Кай Ли и Ли Фей-Фэй. 2009. Imagenet: крупномасштабная база данных иерархических изображений. В CVPR.
[3] Ёнхун Ким и Джеффри Хир. 2018. Оценка влияния распределения задач и данных на эффективность визуальных кодировок. Форум компьютерной графики (Proc. EuroVis) (2018).
[4] Себастьян Ноймайер, Юрген Умбрих и Аксель Поллерес. 2016. Автоматическая оценка качества метаданных на порталах открытых данных. Журнал качества данных и информации (2016).