Модели оценки цен всегда привлекали большое внимание сообщества машинного обучения. Рост крупных онлайн-площадок для всех видов бывших в употреблении предметов увеличил потребность в автоматизированных инструментах для быстрого и точного прогнозирования разумных цен. Жилье и автомобили - два классических примера дорогостоящих предметов со сложными характеристиками, которые вызывают нетривиальные тенденции ценообразования и амортизации. Точные модели прогнозирования чрезвычайно важны как для частных лиц, так и для предприятий, и многие цифровые торговые площадки вкладывают значительные средства в их развитие, но не раскрывают деталей. В этой небольшой заметке мы представляем мотивацию и цели проекта, в котором мы попытались разработать модель машинного обучения (ML) для оценки цен для подержанных автомобилей на швейцарском рынке.

Рынок подержанных автомобилей

Торговля автомобилями порождает чрезвычайно большие и активные рынки по всему миру. Швейцария не является исключением, имея около 4,5 миллионов зарегистрированных туристических автомобилей в 2018 году и более 300000 новых регистраций в 2019 году, где уровень автомобилизации составляет 543 автомобиля на 1000 жителей, что выше, чем в среднем по Европе. Такой большой приток новых автомобилей автоматически создает параллельный рынок для подержанных автомобилей такого же размера. Проблема оценки стоимости автомобиля представляет собой простую проблему регрессии. Целевое количество - это продажная цена подержанного автомобиля, которую мы хотим спрогнозировать на основе набора характеристик автомобиля, представляющих либо исходные характеристики автомобиля, либо уровень его износа. Мы считаем, что предоставление потребителям беспристрастных и практичных инструментов для прогнозирования стоимости их товаров является полезным вкладом в нынешнюю экосистему цифровых торговых площадок. Вот почему мы разработали нашу модель машинного обучения с этой целью и снабдили ее простым пользовательским интерфейсом.

Сбор данных

Получение большого объема выборок данных - ключевая задача для большинства проектов машинного обучения. К счастью, цифровые торговые площадки являются богатыми источниками данных о бывших в употреблении товарах, таких как автомобили, что позволяет собирать объявления о продаже автомобилей в качестве образцов данных. Хотя веб-сайты различаются по макету и информации, содержащейся в каждом предложении, наиболее важные характеристики автомобиля всегда присутствуют вместе с текущей ценой на товар.

Как правило, собрать большое количество таких объявлений несложно. Мы автоматически собрали три набора данных:

  • Набор данных AutoScout24-CH содержит 119’414 объявлений о продаже автомобилей.
  • AutoScout24-DE - это набор из 558’295 объявлений о продаже в Германии (взятых из европейской версии веб-сайта) с аналогичной структурой.
  • Третий набор данных по Швейцарии с другого веб-сайта (Comparis-CH, 111’972 образца) был собран на втором этапе.

Вызовы

Задача оценки стоимости автомобиля ставит несколько интересных задач:

  • Разнообразие и сложность позиций. Количество различных моделей автомобилей, выпускаемых производителями, очень важно и постоянно увеличивается по мере того, как каждый год выпускаются новые автомобили. Модели автомобилей развиваются, и один и тот же автомобиль доступен в вариантах, относящихся к разным классам мощности, не говоря уже об огромном диапазоне возможных опций и аксессуаров. На ценообразование товаров влияет большое количество факторов, поэтому выбрать подход к моделированию сложно.
  • Среда быстро развивается. Создание предсказателя, который сможет выдержать испытание временем и не будет полезен только в очень ограниченном временном окне, представляет собой серьезную проблему.
  • Несбалансированные наборы данных. Любой набор данных об автомобилях, отражающий распределение реальных рынков, будет несбалансированным с точки зрения производителей и моделей автомобилей. Редкость объявлений о продаже многих типов автомобилей затрудняет определение единой модели машинного обучения, которая достаточно хорошо работает для широкого диапазона моделей автомобилей. Поиск способов использовать сходство между разными автомобилями - еще одна необходимость предсказателя, особенно для небольших рынков, таких как швейцарский.
  • Ненадежные данные. Цифровые торговые площадки показывают нам цену, предложенную продавцом. Эта оценка в большинстве случаев будет соответствовать реальным рыночным тенденциям и будет разумной ценой, но мы не узнаем окончательную цену продажи товара после внеплатформенных переговоров. Также сложно обнаружить предложения, содержащие большие неточности в процессе оценки. По этим причинам мы должны знать, что эти наборы данных, основанные на толпе, по своей природе зашумлены. Следовательно, модель ML должна учитывать высокую изменчивость выпуска и выбросы.

Представление подержанных автомобилей

В соответствии с нашей целью сделать модель простой и понятной, мы ограничиваемся следующим набором характеристик автомобиля. Входные данные для нашей модели ML состоят из автомобилей, представленных с этой информацией.

Интерфейс прогноза результатов и цен

Наша модель прогнозирования цен на основе машинного обучения работает замечательно, если принять во внимание простоту нашего подхода к моделированию. средняя средняя ошибка составляет 2187 швейцарских франков, но это касается всех моделей автомобилей, представленных на рынке, даже роскошных и очень дорогих. Для подавляющего большинства автомобилей средняя ошибка оценки составляет менее 20% колебания цены для этой конкретной модели автомобиля в данных обучения. Следующий пользовательский интерфейс позволяет взаимодействовать с нашим предсказателем. Пользователь может ввести характеристики автомобиля и получить оценку цены, а также доверительный интервал и информацию о количестве автомобилей той же модели, которые модель видела во время обучения. Имейте в виду, что модель обучена на данных 2019 года и с тех пор не подвергалась повторному обучению и обновлению.

Оценка цен на сложные предметы, такие как автомобили, является сложной задачей, главным образом потому, что имеющиеся данные содержат некоторые ключевые недостатки, которые требуют продуманных решений и целостного подхода. Это особенно актуально для небольших рынков, таких как швейцарский, тем более, когда цель состоит в том, чтобы предложить удобный инструмент оценки цен. Желательно работать над достижением наилучших возможных результатов, сохраняя при этом небольшой набор функций и понятный для широкой публики, а для этого требуются усовершенствованные процессы подготовки данных и разработки функций.

Мы надеемся, что этот краткий обзор задачи оценки стоимости автомобиля и нашего простого инструмента был полезным чтением для всех, кто намеревается решать аналогичные проблемы в будущем. Представление нашей полной модели архитектуры будет предметом будущей статьи.

Ресурсы