Проект Capstone Data Science

В рамках курса IBM Applied Data Science Capstone на Coursera.org я работал над проектом Capstone, в котором я использовал Foursquare API и Zomato API для получения информации о местоположении, рейтинге и ценах различных заведений в Чандигархе, Индия. В этой статье я расскажу о своем подходе к объединению данных из обоих API и извлечению значимой информации из них.



kb22 / Coursera_Capstone
В репозиторий будет включен код проекта Capstone из курса Applied Data Science Capstone на Coursera. … github.com



Обратите внимание, что карты могут быть недоступны напрямую в представлении Github записной книжки, поэтому вы можете проверить их, клонировав репозиторий и проверив папку maps.

Вступление

В этой статье мы исследуем заведения в Чандигархе, Индия, на основе их рейтинга и средних цен. Всякий раз, когда человек посещает город, он начинает искать места для посещения во время своего пребывания. Они в первую очередь ищут места на основе рейтингов мест проведения по всем площадкам и средних цен, чтобы места соответствовали их бюджету. Таким образом, наша цель здесь - определить места, которые можно посетить.

Здесь мы определим места, подходящие для разных людей, на основе данных, собранных с помощью API Foursquare и Zomato, и информации, полученной из приложения Data Science.

Обсуждение данных

Данные были собраны из двух API: Foursquare API и Zomato API. Первым шагом был поиск мест в радиусе 4 км от центра Чандигарха. После извлечения более 120 местоположений с помощью Foursquare API значения широты и долготы были использованы для получения сведений о месте проведения с помощью Zomato API.

Мы видим, что некоторые площадки перекрываются, а другие - далеко. Таким образом, путем тщательного анализа мы решили исключить все соответствующие места из двух наборов данных, значения широты и долготы которых отличались более чем на 0.0004. Как только это было сделано, мы заметили, что некоторые объекты все еще не согласовывались, и их можно было классифицировать следующим образом:

  1. Есть заведения, внутри которых есть определенные рестораны / кафе, как это предусмотрено Zomato API (Pizza Hut в Elante Mall).
  2. Два места расположены так близко, что имеют практически одинаковые значения широты и долготы (The Pizza Kitchen и Zara).
  3. Некоторые места проведения были заменены новыми (Underdoggs теперь заменен на The Brew Estate).

Хотя места, относящиеся к категориям 1 и 3, можно оставить, мы отбросим их в категорию 2. В результате мы получили набор данных из 49 заведений.

Методология

В качестве первого шага мы получили данные из двух API (Foursquare и Zomato). Мы извлекаем информацию о месте проведения из центра Чандигарха, на расстоянии до 4 км. Значения широты и долготы затем используются для получения рейтинга места и цены от Zomato.

Данные из двух источников тщательно комбинируются на основе значений имени, широты и долготы из двух источников. Окончательный набор данных будет включать рейтинг и значения цен для каждого места проведения.

Затем мы анализируем данные, которые мы создали, на основе рейтингов и цен каждого объекта. Мы определяем типы высших категорий. Мы определяем места, где расположено множество заведений, чтобы любой посетитель мог пойти в одно место и воспользоваться возможностью выбора среди множества вариантов. Мы также исследуем области с высокими и низкими оценками, а также составляем карту мест с высокими и низкими ценами. Наконец, мы группируем места проведения на основе доступной информации о каждом месте. Это позволит нам четко определить, какие площадки можно рекомендовать и с какими характеристиками.

Наконец, мы обсудим и сделаем вывод о том, какие места следует исследовать, исходя из требований посетителей к рейтингу и стоимости.

Анализ

На этапе анализа я изучил категории заведений, рейтинговое распределение заведений и диапазон цен на карте Чандигарха.

Категории

Поскольку мы извлекали категории из Foursquare API, определение того, какие заведения наиболее популярны в городе, было бы действительно полезно. Мы строим гистограмму для того же самого.

Похоже, что большинство заведений в Чандигархе - это либо кафе, либо рестораны индийской кухни. Если посетитель пытается изучить любой из них, ему повезло.

Рейтинг

Далее посмотрим на рейтинги заведений. Как посетитель, вы хотите знать места с хорошими рейтингами. Мы можем построить гистограмму рейтингов всех заведений и подсчет каждого рейтинга, чтобы увидеть, каков средний рейтинг для всех заведений.

Мы видим, что рейтинги варьируются от 1.0 до 5.0. График показывает, что максимальное количество заведений имеет рейтинг, близкий к 4. Посетителю также может быть интересно узнать, где на самом деле расположены заведения с высоким рейтингом.

Оранжевые или красные объекты имеют рейтинг ниже 3, а объекты, отмеченные зеленым или темно-зеленым цветом, имеют рейтинг 3 и выше. Мы видим, что многие заведения с высоким рейтингом расположены рядом с сектором 35 и сектором 17. В Elante Mall есть заведения с полным рейтингом. Кроме того, пояс объектов от Сектора 11 до Сектора 7 и Сектора 26 имеет места с высоким рейтингом.

Цена

Затем мы исследуем средние цены всех заведений для одного человека, используя диаграмму рассеяния, а также количество заведений с такой средней ценой на человека.

Из графика выше мы видим, что большое количество заведений имеет среднюю цену от 200 до 400 рупий. Мы также можем построить площадки в зависимости от их ценового диапазона и посмотреть, в каких районах есть места по какой цене.

Из графика мы видим, что места возле секторов 35 и 17 в основном имеют более низкие цены. На площадках возле сектора 7 и сектора 26 очень высокие цены. Elante Mall, похоже, предлагает сочетание как дорогих, так и недорогих заведений.

Кластеризация

Теперь мы сгруппируем все эти заведения по их ценовому диапазону, местоположению и многому другому, чтобы определить похожие места и отношения между ними. Мы сгруппируем площадки в две отдельные группы.

На карте мы видим два кластера:

  1. Первый кластер (зеленый) распространяется по всему городу и включает большинство площадок. Эти заведения имеют средний ценовой диапазон 1,71 и рейтинг 3,57.
  2. Второй кластер (красный) очень редко распространяется и имеет очень ограниченное количество зрителей. Эти заведения имеют средний ценовой диапазон 3,21 и рейтинг 4,03.

Результаты и обсуждение

После сбора данных из API Foursquare и Zomato мы получили список из 120 различных площадок. Однако не все площадки из двух API были идентичны. Следовательно, нам пришлось проверить их значения широты и долготы, а также их имена, чтобы объединить их и удалить все выбросы. В результате общее количество заведений составило 49.

Мы определили, что из всего набора заведений большинство из них были кафе и индийскими ресторанами. Посетителю, который любит кафе / индийские рестораны, несомненно, будет полезно приехать в Чандигарх.

Рейтинг варьируется от 1 до 5, но у большинства заведений рейтинг близок к 4. Это означает, что большинство ресторанов предлагают еду хорошего качества, которая нравится горожанам, что свидетельствует о высоком рейтинге. Когда мы наносим эти места на карту, мы обнаруживаем, что есть группы мест вокруг секторов 17, 35 и Elante Mall. Эти кластеры также имеют очень высокие оценки (более 3).

Когда мы смотрим на стоимость каждого заведения, мы выясняем, что во многих заведениях цены находятся в диапазоне от 200 до 400 рупий на одного человека. Однако разница в ценах очень велика, поскольку полный диапазон начинается от 100 рупий и заканчивается до 1200 рупий. При нанесении на карту мест на основе их ценового диапазона мы обнаружили, что места, расположенные поблизости Цены в секторах 17 и 35 относительно ниже, чем в секторах 7 и 26. В Elante Mall существует сочетание низкой и высокой цены.

Наконец, с помощью кластеров мы определили, что есть много заведений с относительно более низкими ценами, но со средним рейтингом 3,57. С другой стороны, есть несколько заведений с высокими ценами и средним рейтингом 4,03.

  1. Если вы ищете недорогие места с относительно высоким рейтингом, вам следует заглянуть в сектор 35.
  2. Если вы ищете лучшие места с наивысшим рейтингом, но при этом могут иметь высокую цену, вам следует посетить Сектор 7 и Сектор 26.
  3. Если вы хотите познакомиться с городом и у вас нет конкретных критериев для выбора мест, которые вы хотите посетить, вам следует попробовать Elante Mall.

Компания может использовать эту информацию для создания онлайн-сайта / мобильного приложения, чтобы предоставлять пользователям актуальную информацию о различных заведениях в городе на основе критериев поиска (название, рейтинг и цена).

Заключение

Целью этого проекта было исследование мест, которые может исследовать человек, посетивший Чандигарх. Площадки были определены с помощью Foursquare и Zomato API и нанесены на карту. Карта показывает, что есть три основных района, которые может посетить человек: Сектор 35, Сектор 7 и 26 и Elante Mall . В зависимости от рейтинга заведения и ценовых предпочтений посетитель может выбрать одно из трех мест.