Наши выводы из Huddle о машинном обучении

Нареш Мехта

Это сообщение было первоначально опубликовано в Блоге Zomato 08 ноября 2017 г.

В прошлом месяце мы провели 4-й выпуск Huddle от Zomato — эта встреча была посвящена машинному обучению (ML). Тема была выбрана с учетом интенсивного обсуждения этой темы, а также нашего собственного агрессивного внимания к машинному обучению в течение последних 18 месяцев.

В собрании приняли участие инженеры, специалисты по данным и технические директора из нескольких ведущих технологических и продуктовых компаний, таких как Mobikwik, Times Internet, Policy Bazaar, Snapdeal, Grofers, Shuttl и BabyChakra. Сессии команд в Hike Messenger, Delhivery и Zomato сделали вечер познавательным, наполненным увлекательными дискуссиями во время вопросов и ответов и открытым обменом знаниями после выступлений.

Как всегда, ниже мы делимся некоторыми ключевыми выводами из сессий, надеемся, что это актуально для других энтузиастов машинного обучения.

Три компонента персонализации
Дебдут Мукерджи, директор по науке о данных в Hike, открыла вечернюю сессию докладом о персонализации продуктов. Он объяснил роль и взаимодействие трех ключевых компонентов — контента, контекста и пользователя — для правильной персонализации.

Дебдут подчеркнул, что «проблему холодного старта» можно решить, начав с популярности и постепенно добавляя релевантность по мере того, как мы узнаем все больше и больше о пользователе. Далее он подчеркнул важность «объяснимости» рекомендаций, т. е. разъяснения, почему мы рекомендуем то, что мы рекомендуем пользователю; что можно сделать еще дальше, введя ручную обратную связь. Ниже приведен пример популярного портала электронной коммерции, который следует мантре «объяснимости».

Оптимизация логистики и сокращение ошибочных маршрутов
Dr. Кабир Рустоги и Рахул Кумар Сингла из команды Data Science в Деливери провели вторую сессию по логистике, которая, как они подчеркнули, сегодня является вызовом для индийской экономики на миллиард долларов!

Кабир отметил, что для решения любой проблемы маршрутизации транспортных средств, местоположения объектов или проектирования сети необходимо точно знать, где находятся их клиенты. Однако, поскольку адреса бывают разных форм, размеров и угроз (как видно на веселом изображении ниже), поиск оптимального маршрута доставки является большой проблемой, с которой сегодня сталкиваются логистические компании.

Чтобы решить эту проблему, компания Delhivery перешла от эвристических правил анализа адресов к подходу, основанному на интеллектуальном машинном обучении, что значительно увеличило количество местоположений, для которых продукт может предсказывать точные геокоды. .

Последний подход не только анализирует, но и исправляет опечатки/ошибки в адресах — используя собственный генеративный алгоритм, основанный на «вероятностных графовых моделях» и фонетическом нечетком сопоставлении. Помимо того, что Delhivery позволяет выполнять геокодирование адресов на уровне крыш, этот подход также позволяет им точно определять границы полигонов для каждого из их обслуживаемых мест, и все это за счет использования своих внутренних исторических данных о доставке (~ 150 млн) и данных отслеживания местоположения. флота доставки.

Решение проблемы эстетики изображения
Команда машинного обучения из Zomato рассказала о построении ансамблевой модели с использованием глубокого и основанного на функциях обучения для оценки эстетики изображения фотографий, загруженных пользователями на Зомато. Демонстрация только высококачественного, богатого контента из миллионов иллюстрированных UGC, добавляемых каждый месяц, имеет решающее значение не только для взаимодействия с пользователем, но и для обеспечения высокого рейтинга кликов на платформе.

Они объяснили, как проблема эстетики изначально была поставлена ​​как проблема классификации с исторической ручной маркировкой изображений, служащих обучающими данными. Тем не менее, классическая структура AlexNet, которая очень хорошо работает для классификации фотографий на снимки еды и снимки атмосферы, не совсем давала высококачественные результаты с точки зрения эстетики (изображения низкого и высокого качества) из-за ограничений соотношения сторон.

Внедрение в сеть объединения пространственных пирамид помогло им обойти ограничение, и, наконец, ансамбль векторной модели Фишера с глубоким обучением привел к точности 90% + для эстетической классификации изображений.

В целом, Huddle был очень увлекательным, поскольку каждое заседание касалось различных типов проблем, решаемых в разных областях с использованием различных аспектов машинного обучения. Было интересно отметить, как вековые проблемы теперь решаются более эффективно и разумно, используя экспоненциально растущую мощность вычислений и хранения.

Веселые времена действительно впереди!

Мы вернемся к нашему следующему совещанию через несколько месяцев. Следите за этим пространством, чтобы узнать больше! Для получения любой информации о Huddle обращайтесь к нам по адресу [email protected].

Нареш Мехта возглавляет направление науки о данных и расширенной аналитики в Zomato, уделяя особое внимание системам рекомендаций, поисковым алгоритмам и обеспечению гармонии между статистиками/аналитиками и инженерами по машинному обучению в команде специалистов по данным.