Мишленовские рестораны предсказуемы?

Что такое звезда Мишлен?

Каждый год, начиная с 1936 года, Мишлен обновляет свои путеводители, чтобы присуждать или вычитать до 3 звезд за каждый инспектируемый ресторан. Процесс инспекции окутан тайной, чтобы избежать конфликта интересов, и звезды почти не присуждаются. С тех пор звезды стали одной из самых признанных и уважаемых наград, которые может получить ресторан. Тысячи шеф-поваров со всех уголков земного шара посвящают свою жизнь погоне за одной-единственной звездой.

На самом деле, повара, отмеченные звездами Мишлен, настолько серьезно относятся к звездам, что известные шеф-повара, такие как Гордон Рамзи, оплакивали потерю одной или нескольких звезд, а некоторые даже покончили с собой.

И это неудивительно. У одной звезды могут быть клиенты, стекающиеся в этот назначенный ресторан, что приносит огромную славу и прибыль. Покойный и великий Жоэль Робюшон, который сам имел совершенно поразительный послужной список из 32 звезд Мишлен, однажды сказал, что «с одной звездой Мишлен вы получаете примерно на 20 процентов больше бизнеса. Две звезды означают, что у вас будет на 40% больше бизнеса, а с тремя звездами у вас будет на 100% больше бизнеса».

Поэтому клиенты и инвесторы очень заинтересованы в том, чтобы предсказать, какие рестораны в конечном итоге заработают звезду Мишлен, прежде чем конкуренция станет жесткой.

Но насколько они редки? Разве их не должно быть легко выделить?

Не совсем. Из почти 1600 популярных ресторанов Нью-Йорка 47 имеют одну звезду Мишлен, 11 — две и только 5 — три, что делает прогнозирование ресторана хотя бы одной звездой сложной технической задачей.

Как же тогда выбираются рестораны, отмеченные звездами Мишлен? Есть ли заметная закономерность между каждым из них?

Я начал с поиска на TripAdvisor ресторанов Нью-Йорка и провел предварительный анализ данных, надеясь понять, какие переменные могут способствовать получению звезды Мишлен.

Ни одна из приведенных выше переменных не сильно коррелирует с переменной Michelin.Star и/или Have.Star, которая указывает, имеет ли ресторан 0, 1, 2 или 3 звезды Мишлен и по крайней мере 1 звезду Мишлен соответственно. Это не должно вызывать удивления, поскольку присуждение звезды происходит так редко.

Более того, построение графика зависимости Overall.Rating от количества звезд Мишлен на ящичковой диаграмме не показывает существенной закономерности, указывающей на связь между двумя переменными. Кроме того, количество посетителей в ресторанах с 2 или более звездами Мишлен делает окончательное утверждение невозможным.

Для ресторанов, имеющих хотя бы одну звезду Мишлен, средний общий рейтинг TripAdvisor, по-видимому, одинаков для обоих графиков. Ни в одном из наблюдений нет ничего особенно диковинного. Кроме того, обратите внимание, что диаграмма с ресторанами, имеющими хотя бы одну звезду Мишлен, имеет более широкий разброс, поскольку численность населения невелика.

Анализ настроений показывает, что существует положительная тенденция между ресторанами, отмеченными звездами Мишлен, и положительными настроениями, при этом средний ресторан с нулевой звездой получает вялые отзывы, а средний ресторан с одной звездой получает в целом благоприятные отзывы.

Тем не менее, корреляционная матрица, представленная ранее, показывает, что нет сильной корреляции между настроениями и звездами Мишлен, поэтому приведенная выше гистограмма, хотя и интересная, скорее всего, является просто принятием желаемого за действительное. Облака слов ниже демонстрируют относительное сходство формулировок TripAdvisor между средним рестораном в Нью-Йорке и ресторанами со звездами Мишлен.

Однако наиболее примечательным является тот факт, что есть две основные особенности, которые отличают ресторан, отмеченный звездой Мишлен, от обычного ресторана Нью-Йорка. Во-первых, в то время как американская кухня доминирует в ресторанах без звезд, эта же кухня занимает 5-е место среди ресторанов, имеющих хотя бы одну звезду.

Кроме того, рестораны без мишленовских звезд гораздо менее привычны по сравнению с ресторанами, имеющими хотя бы одну звезду.

Опять же, хотя эти наблюдения не являются чем-то за пределами общеизвестных фактов, они предполагают, что эти модели могут быть полезны для возможной прогностической модели при определении ресторанов, отмеченных звездами Мишлен.

Использование машинного обучения для предсказания того, какой ресторан получит звезду Мишлен

Агрегация данных и обработка

Я собрал все данные с помощью расширения Web Scraper для Chrome на TripAdvisor в Нью-Йорке и Michelin Guide NYC, обработав их с помощью R.

Следующие переменные были полностью извлечены из веб-страниц TripAdvisor: Cuisine, Overall.Rating, Dining.Type, sentiment, Review.count, Value.rating, Service.rating, Atmosphere.rating, years.with.tripadvisor.award и Food.rating.

Я взял Michelin.Stars непосредственно из гида Мишлен и создал переменную Have.Star, создав оператор if-else, который выводит 1, если у ресторана есть хотя бы одна звезда Мишлен, и 0, если нет. Это было сделано для создания бинарной переменной ответа, которую было бы легче обрабатывать моделями логистической регрессии и случайного леса.

О переменных

Я разделил Dining.Type на две категории: изысканные и обычные рестораны. Если ресторан указан в списке $$$ или выше на TripAdvisor, я отношу его к категории изысканных блюд. Все, что стоит $$ или меньше, будет считаться обычной едой.

Чтобы получить переменную sentiment, я провел анализ настроений в R по 30 случайно выбранным отзывам TripAdvisor от каждого ресторана, у которого есть хотя бы 1 отзыв. Это не только упрощает набор данных, но также подходит для улучшения прогнозов моделей при условии, что Michelin обычно не рассматривает непопулярные рестораны.

years.with.trip.advisor.award — это непрерывная переменная, отражающая рестораны, которые были признаны TripAdvisor не менее 1 года назад.

Поскольку общий рейтинг TripAdvisor не является абсолютно точным представлением оценок людей, я создал новое средневзвешенное приближение Overall.Rating, используя отзывы, разделенные по количеству присвоенных звезд.

Подготовка набора данных

Я построил пару моделей, чтобы предсказать, получит ли ресторан хотя бы одну звезду Мишлен. Для начала я начал со случайного выбора обучающего набора данных с 75% исходных данных и переменных. Оставшиеся 25% данных позже будут использованы как часть выборки для удержания.

Модель случайного леса

Я построил модель случайного леса на обучающих данных, а затем применил модель прогнозирования к контрольной выборке. Для модели случайного леса и логистической регрессии я установил Have.Star в качестве переменной ответа, так как хотел, чтобы модель определяла, какие рестораны будут иметь МИНИМУМ одну звезду, а также допускала двоичный ответ, который, в свою очередь, было бы легче вычислить. подходят вокруг.

Настроив модель, я обнаружил, что оптимальное количество переменных, выбранных случайным образом при каждом разделении, составляет около 50. На выходе не возникает ничего необычного. К счастью, ошибка «из коробки» не слишком высока, а это означает, что модель довольно надежна.

Модель случайного леса дает AUC 0,84, в результате чего получается модель, которая очень хорошо различает рестораны со звездами Мишлен и без них.

Кроме того, график важности переменной показывает, что Cuisine намного выше самой важной переменной в наборе данных, за ней следуют Overall.Rating и Dining.Type.

Модель логистической регрессии

Затем я построил модель логистической регрессии, снова установив Have.Star в качестве переменной отклика. Я использовал LASSO с 10-кратной перекрестной проверкой, чтобы определить желаемую разреженность модели.

Используя лямбда-минимум выходных данных регуляризации, я включил в прогностическую модель 4 статистически значимые переменные: Cuisine, Dining.Type, Value.Rating и Review.count. Наименьшее полученное значение AIC составило 237,56, что означает, что эта модель потеряла наименьшее количество информации из всех остальных.

Значение AUC, равное 0,98, для обучающих данных указывает на то, что модель чрезвычайно хороша с ее предсказаниями по обучающим данным.

С другой стороны, AUC 0,74 на данных тестирования показывает гораздо более слабую модель, чем ожидалось. AUC по-прежнему хороший, но не отличный, как в тренировочных данных.

Матрица путаницы обучающих данных построена на консервативном пороге 0,65, что дает точность 0,91.

Применение консервативного порога к набору тестовых данных показывает высокую точность, но крайне плохую полноту. Это не обязательно плохо, поскольку модель с высокой точностью приведет к меньшему количеству ложных срабатываний, что в данном случае будет выгодно инвесторам с низким уровнем риска.

Чтобы построить модель с высокой полнотой, я установил пороговое значение 0,17, что с помощью взвешенной классификации эквивалентно установлению порога, как если бы ложноотрицательный прогноз был в 5 раз дороже, чем ложноположительный. Модель с высоким отзывом лучше всего подойдет тем, кто ищет следующий ресторан, чтобы заработать звезду Мишлен.

Модель на основе отзыва хорошо работает с набором тестовых данных с отзывом около 0,455. Также обратите внимание, что уровень ошибочной классификации, хотя часто имеет значение, здесь не очень полезен, поскольку более важна правильная классификация ресторанов, отмеченных звездами Мишлен.

В целом, исходя из AUC, совершенно очевидно, что случайный лес сгенерировал модель, которая намного лучше, чем та, которую построила логистическая регрессия, поэтому стоит придавать большее значение прогнозам первого при поиске более низкого уровня ошибочной классификации.

Итак, какие рестораны мы должны искать? Какие рестораны скоро получат звезду Мишлен?

Результат модели логистической регрессии, ориентированной на точность:

Согласно логистической модели, построенной на оптимизации точности, следующие рестораны заслуживают как минимум одной звезды Мишлен:

Этот тип прогноза будет полезен для не склонных к риску инвесторов, которые ищут безопасный ожидаемый доход от инвестиций при поиске следующего ресторана, отмеченного звездой Мишлен. Эта конкретная модель убедительно свидетельствует о том, что Gran Tivoli, Perrine и Sushi Ishikawa заслуживают как минимум одну звезду Мишлен, несмотря на то, что у них ее еще нет.

Как и ожидалось, все три вышеупомянутых ресторана получили очень положительные отзывы и относятся к категории изысканных блюд. Я не удивлюсь, если какой-либо из этих ресторанов в ближайшие годы получит звезду Мишлен.

Результат модели логистической регрессии, ориентированной на припоминание:

Модель, ориентированная на отзыв, охватывает большинство ресторанов, имеющих как минимум одну звезду Мишлен, и ее можно интерпретировать как модель, которая в наибольшей степени соответствует стандартам Мишлен. Другими словами, следующие рестораны не имеют звезд Мишлен, но больше всего похожи на те, у которых есть одна или несколько звезд.

Поскольку основное внимание в этом проекте уделяется предсказанию того, какие рестораны потенциально могут получить звезду Мишлен, меня больше интересуют ложные срабатывания модели. Таким образом, приведенная ниже таблица НЕ отражает прогностические способности модели, поскольку все истинные положительные результаты были отфильтрованы. Тот же подход применим к модели случайного леса.

Обратите внимание, что здесь также появляются Гран Тиволи, Перрин и Суши Исикава. Это ожидается, поскольку снижение порога будет включать рестораны консервативной модели и многое другое. Список, показанный выше, больше всего подходит для гурманов, которые ищут звезды Мишлен, не имея при этом большого спроса.

Результат модели случайного леса

Модель случайного леса можно интерпретировать как более точное представление модели логистической регрессии, которая больше ориентирована на отзыв. В этом случае отображается меньше ложных срабатываний, что дает более четкое представление о том, на что похож опыт, отмеченный звездой Мишлен, без фактического владения звездой.

На этот раз только Гран Тиволи, который появляется как в модели точности, так и в модели отзыва, по прогнозам, получит звезду, а не Перрин или Суши Исикава. Это означает, что Gran Tivoli — единственный ресторан, представленный во всех трех моделях, что делает его серьезным претендентом на получение звезды Мишлен.

Заключительные мысли

Было бы экстраполяцией применять эти модели к городам, не похожим на Нью-Йорк, поскольку модель была обучена на конкретных параметрах и потенциальных смешанных переменных, уникальных для города. Например, японские рестораны в Нью-Йорке могут быть намного лучше, чем в некоторых других местах, поэтому, если бы модели применялись к такому городу, как Детройт, они, вероятно, не показали бы столь же хороших результатов, учитывая его сильную зависимость от Cuisine паттернов, которые они подобрали. в Нью-Йорке.

Тем не менее, модели, вероятно, все еще могут быть применены к городам с ресторанной экосистемой, подобной экосистеме Нью-Йорка.

Мишленовские рестораны предсказуемы?

Использование машинного обучения для предсказания того, какой ресторан получит звезду Мишлен

Вопросы по теме