Как быть беспристрастным при выборе хостела для следующей поездки

Недавно я был в двухнедельной поездке по Европе. Каждое большое путешествие требует значительного количества времени, посвященного планированию, поэтому мне пришлось принять несколько важных решений. Я обнаружил, что одним из самых трудоемких решений является выбор общежития. Выбор был трудным, потому что мне приходилось выбирать между несколькими общежитиями с хорошим рейтингом для каждого места.

Как только я вернулся домой, я оценил все общежития, которые я посетил, и спонтанно придумал.

Идея позволит сократить время принятия решения, когда дело доходит до выбора наилучшего общежития для вас.

Каков процесс принятия решений в настоящее время?

Если вы будете выбирать общежитие, в первую очередь вы будете смотреть на звездный рейтинг. И очень часто бывает так, что отличные хостелы почти одинаково оцениваются и стоят относительно близко друг к другу.

Единственный способ определить, какой хостел лучше, — прочитать комментарии. Вы заметите, что самые информативные комментарии — это те, которые дают вам как положительную, так и отрицательную информацию о хостеле.

Поэтому, чтобы принять обоснованное решение, вы хотели бы прочитать комментарий из каждой из следующих категорий:

  • Только позитив
  • Позитив с долей негатива
  • Негатив с долей позитива
  • Только минус

Но каков шанс, что вы наткнетесь на комментарии из всех четырех категорий, если прокручиваете и читаете комментарии случайным образом?

Действительно, очень низко.

Вот и решение

Более легкое принятие решений

Здесь в игру вступает обработка естественного языка.

Идея состоит в том, чтобы представить каждый отдельный комментарий в следующих обозначениях: (положительный, отрицательный), где:

  • Положительный означает положительный настрой в комментарии.
  • Отрицательный обозначает негативное настроение в комментарии.

Соотношение z = положительный/отрицательный даст нам правильную оценку того, насколько положительным является каждый комментарий. Чем больше z, тем позитивнее комментарий.

Обратите внимание на комментарий ниже. Это пишет путешественник, посетивший общежитие:

Останавливались только на одну ночь, но когда я вернусь в Лиссабон, я обязательно остановлюсь здесь снова. Невероятно дружелюбный и услужливый персонал, отличные удобства и бесплатный завтрак!

Наша интуиция подсказывает, что это очень положительный комментарий. И действительно, алгоритм говорит нам, что у него 60 баллов за позитив и всего 5 за негатив. Тогда г = 12

Затем пришло время использовать неконтролируемую кластеризацию и определить четыре отдельных кластера, которые будут четырьмя категориями, к которым мы стремимся. Ось x обозначает z. На изображении ниже мы видим, что большинство положительных комментариев относятся к желтому кластеру, наиболее негативные — к фиолетовому и так далее.

Итак, теперь у нас есть способ определить точную категорию комментария.

Система автоматической группировки комментариев внутри хостела

Помните начальную задачу? Мы хотим принять обоснованное решение. Это возможно только тогда, когда мы принимаем во внимание различные типы комментариев.

Я написал приложение, которое собирало все комментарии в общежитии. Затем он классифицирует комментарии и выдает по три комментария из каждого раздела, как показано ниже:

Теперь вы оптимизировали трудоемкий процесс выбора подходящего хостела.

Если вы хотите, чтобы ваше следующее общежитие было выбрано непредвзято, вы можете начать пользоваться приложением прямо сейчас! Он доступен по адресу:

https://huggingface.co/spaces/popaqy/Choosino.

Однако имейте в виду, что, несмотря на то, что модель в настоящее время дает хорошие результаты, она все еще очень незрелая и имеет много возможностей для улучшения. Кроме того, в настоящее время приложение ограничено работой с https://www.hostelworld.com/.