В нашем предыдущем сообщении в блоге мы преобразовывали данные из csv в паркет с помощью AWS Glue, затем использовали Amazon Athena для аналитики и использовали Quick Sight для визуализации данных. В этом посте мы познакомим вас со всеми функциями, доступными в Quick Sight, и расскажем, как их использовать для создания сложных информационных панелей и расширенной визуализации данных, чтобы получить представление об общедоступном наборе данных Airbnb.

Во-первых, мы узнаем о данных, которые используются здесь для визуализации. На следующих шагах мы загрузим данные в spice engine и узнаем о функциях, доступных в Quick Sight, для создания сложной визуализации данных.

1) Описание данных. Мы будем использовать общедоступный набор данных от Airbnb, в котором описываются действия и показатели хозяев, гостей, местоположений, свойств, отзывов, цен и т. д. в Нью-Йорке за 2019 год. интернет-рынок, который связывает Хозяев, которые хотят сдать в аренду свои дома/недвижимость, с Гостями, которые ищут жилье в этом регионе. Гости и Хозяева использовали Airbnb, чтобы расширить возможности путешествий и предложить более уникальный и персонализированный способ познания мира.

Мы сможем шаг за шагом визуализировать следующие выводы из данных, используя все функции Quick Sight.

Ø Общее количество арендного дома, указанного в группе района.

Ø 5 самых популярных хостов по количеству отзывов.

Ø Средняя стоимость аренды отдельных комнат, общих комнат и целых домов для каждого из районов и для отдельной группы районов, чтобы можно было выбрать экономичное место для бронирования жилья.

Ø Общее количество отзывов за указанный диапазон дат.

Ø Список идентификаторов хостов с соответствующей группой соседей, типом номера, ценой и ценовым статусом.

Ø Средняя стоимость аренды дорогой, нормальной и дешевой недвижимости в соседней группе.

Ø Средняя стоимость аренды для каждого типа номера.

2) Загрузка набора данных в Spice Engine для визуализации: мы импортируем данные в Spice Engine для визуализации.

3) Создание визуализации: мы начнем создавать нашу визуализацию и будем использовать все функции, доступные в Quick Sight, одну за другой и применять их в заданном сценарии.

Мы можем увидеть все функции, перечисленные ниже:

а. Добавьте визуал.

б. Создание верхнего и нижнего фильтра.

в. Создание параметра и элемента управления для фильтрации визуальных элементов.

д. Применение фильтра диапазона дат к элементу управления.

е. Добавление вычисляемого поля.

ф. Переход от одного экрана к другому или переход к определенному полю

г. Отформатируйте каждый отдельный Visual.

а. Добавление визуального элемента. Мы можем добавить визуальные элементы для создания диаграммы или графика в зависимости от требований, нажав кнопку «Добавить» в верхней части окна. В данной диаграмме мы используем диаграмму Пай, которая показывает общее количество домов, перечисленных в каждой группе районов.

b. Создание верхнего и нижнего фильтра.Сначала нам нужно выбрать визуальный элемент, к которому мы хотим применить фильтр, затем мы создадим фильтр и применим этот фильтр к одному столбец, который будет фильтровать значения. Здесь, в этом случае, мы берем столбец идентификатора хоста в качестве отфильтрованного столбца.

Нажав на маленький квадратный значок, мы можем отредактировать фильтр и получить возможность защитить его от других визуальных элементов, выбрав параметр «Только этот визуальный элемент».

Из списка фильтров мы выберем Верхний и нижний фильтр

В «Показать сверху» мы не используем никаких параметров для выбора значения, поэтому введем 5, а в поле «По» выберем количество отзывов (сумма) и применим этот фильтр.

Как только мы применим этот фильтр к этому визуальному элементу, мы увидим, что мы получаем 5 лучших идентификаторов хостов на основе количества отзывов.

c. Создание параметра и элемента управления для фильтрации визуальных элементов. Мы можем создать новый параметр, выбрав два варианта: добавить параметр сверху или создать параметр с левой панели. Мы назовем его и выберем тип данных этого параметра. Поскольку мы будем использовать этот параметр для выбора группы соседства, мы выберем строковый тип данных. В Values ​​мы выберем Single value. В этом случае мы будем визуализировать среднюю стоимость аренды дома, указанную для каждого типа комнаты в соответствии с выбранной группой соседства, которая будет нашим контрольным параметром.

После того, как наш параметр создан, нам нужно подключить этот параметр к элементу управления, фильтру, вычисляемому полю или действию URL. В данном случае мы связываем его с управлением.

После выбора элемента управления нам нужно добавить элемент управления для параметра, где мы должны выбрать группу «Окрестности» в качестве отображаемого имени, выбрать «Одиночный выбор» в раскрывающемся списке «Стиль» и «Связать с полем набора данных» в «Значения», затем мы выберем наш набор данных и, наконец, столбец, который будет использоваться в качестве управляющего параметра.

Мы добавили здесь элемент управления под названием «Группа соседства», который будет использоваться для фильтрации визуального элемента на основе различных групп соседства. Вы можете видеть здесь, что этот элемент управления показывает все столбцы группы Values ​​of Neighborhood.

На изображении вы можете видеть, что до применения этого элемента управления на этой диаграмме показана средняя арендная плата за дома на тип комнаты для всех групп районов. Если мы хотим видеть эту диаграмму только для Бруклина или любой другой группы соседей, нам нужно добавить фильтр к этому элементу управления.

Мы создадим новый фильтр и выберем «Пользовательский фильтр» и «Равно» в типе фильтра, затем «Использовать параметр», который мы создали ранее, и «Применить».

Здесь вы можете увидеть, что вы выбрали Manhattan из Control, наш визуальный элемент был отфильтрован и показывает только значения, относящиеся к Manhattan.

d. Применение фильтра диапазона дат к элементу управления: чтобы отфильтровать значения для визуального элемента между двумя заданными датами, нам нужно создать два параметра: один для даты начала, а другой — для даты окончания. . На следующем снимке экрана я создаю параметр «Дата окончания» так же, как вы создаете параметр «Дата начала».

После создания параметров нам нужно добавить элементы управления для этих двух параметров.

Когда мы закончим создание параметров и соответствующих им элементов управления, нам нужно добавить фильтр временного диапазона, который будет использовать эти два параметра для выбора необходимого диапазона данных из заданных элементов управления.

На следующем снимке экрана вы можете видеть, что Общее количество отзывов, показанных для диапазона дат с 16 июня по 30 июня. На этой диаграмме вы увидите, что данные за 16 июня недоступны, поскольку я не отметил Включить дату начала на левой боковой панели. и данные за 30 июня доступны, так как я отметил Включить дату окончания.

e. Добавление вычисляемого поля: я добавил вычисляемое поле/столбец, который будет вычислять значение нового столбца на основе ваших требований и условий.

В этом случае я создал столбец статуса цены, который будет классифицировать значения цен как дешевые/нормальные/дорогие в зависимости от определенных условий.

Для создания вычисляемого поля вам необходимо выбрать опцию «Добавить вычисляемое поле» из меню «Добавить». Вы будете перенаправлены на следующую страницу, где у вас есть возможность написать имя вычисляемого поля и Формулу в соответствии с вашим требованием и условием.

Вы также получите возможность использовать необходимые функции из списка функций и обязательные поля из списка полей.

Вы можете видеть в следующем изображении, что я использовал сводную таблицу из диаграммы и выбрал идентификатор хоста, статус цены, группу соседства и поля типа комнаты в качестве строк и цену (среднее) в качестве значений. который показывает идентификатор хоста 2845, имеет два типа арендуемых домов / свойств: общая комната и весь дом / квартира в Manhattan Neighbourhood_group. Вы можете ясно видеть, что цена общей комнаты составляет 99,00 долларов США, которая была отнесена к категории «Дешевая», а цена всего дома / квартиры составляет 225,00 долларов США, которая была отнесена к категории «Дорогая», используя наш расчетный статус цены поля.

f. Переход от одного экрана к другому или переход к определенному полю. У нас есть возможность перейти к определенному полю, чтобы мы могли дополнительно анализировать данные на основе на этом конкретном поле. В этом случае у нас есть круговая диаграмма общего количества домов, перечисленных в каждой группе районов. Теперь мы хотим развернуть нашу диаграмму на основе группы окрестностей поля, что приведет нас к экрану, где мы сможем дополнительно изучить новую визуализацию на основе выбранной группы окрестностей.

Для этого сначала нам нужно выбрать действия URL.

После выбора действий с этим URL-адресом мы попадем на следующую страницу, где мы должны написать имя действия, за которым следует ‹‹имя поля›› в Имя действия, тогда как в URL мы необходимо скопировать URL-ссылку экрана, который мы хотим перенаправить, и вставить его сюда, а затем добавить #p.parametername=‹‹имя поля››.

Мы будем использовать ту же вкладку браузера.

Вы можете видеть здесь, что мы детализируем эту диаграмму на основе поля группы соседей. В этом случае мы переходим к Бруклину (просто нажмите на график в районе Бруклина), после чего вы увидите возможность перейти на экран состояния цен и перейти к Бруклину. Нажав на нее, вы будете перенаправлены на экран состояния цены, а диаграмма/визуальное представление, представленное на этом экране, будет отфильтровано Brooklyn (вам необходимо применить фильтр на этом экране, где имя параметра для управления фильтром — окрестности). Мы будем использовать это имя параметра в URL-действии, как вы уже видели на предыдущем снимке экрана.

Вы можете увидеть здесь, перейдя к Бруклину, элемент управления фильтром на этом экране состояния цены автоматически выбирает Бруклин, и на основе этого графика он был отфильтрован по Бруклину. На этой диаграмме вы можете видеть, что средняя цена дорогого арендного дома составляет 380 долларов, средняя цена обычного арендного дома составляет 170 долларов, а средняя цена дешевого арендного дома составляет 88 долларов.

g. Отформатируйте каждый отдельный визуальный элемент. С помощью этой опции мы можем отформатировать наши визуальные элементы. Мы можем изменить метки X-Axis/Y-Axis, также мы можем показать метки данных и изменить некоторые параметры, связанные с ними. В этом сценарии мы используем горизонтальную гистограмму, которая показывает среднюю стоимость аренды дома для каждого типа комнаты.

4) Обзор. В этом блоге мы изучаем общедоступный набор данных Airbnb, находим полезные сведения и показываем их в визуальной форме с помощью различных функций Quick Sight.

Здесь мы учимся применять фильтры с параметрами и без них. Кроме того, мы изучаем все функции, доступные в Quick Sight, и их использование.

Для получения дополнительной информации о Quick Sight и других технических услугах посетите наши технологические блоги ITTStar на Medium.

Пожалуйста, не стесняйтесь публиковать свои комментарии и отзывы. В ближайшие недели мы опубликуем больше блогов об AWS Services.

***************Спасибо за чтение**********************

Автор: Гарима Шривастава (технический специалист AWS)

Ученый по данным (ITTStar Consulting LLC)

www.ittstar.com