На прошлой неделе я присутствовал на техническом разговоре, организованном Uber и Datagiri здесь, в Бангалоре. Это было в женский день, и местом его проведения стала доска 91SpringBoard, которая предоставляет общее пространство для коворкинга. Было много людей, которые проявили интерес, и на встречу пришло около 200 человек. Начал разговор с приветственной речи Дивьеш, технический директор Uber. Ранее он работал в Google и начал с того, что поблагодарил всех нас за то, что мы пришли на встречу. Во время краткого выступления Дивеш рассказал о том, как Uber помогает своим водителям разными способами.

Я не имел представления о том, как Uber использует аналитику и машинное обучение, чтобы принимать более обоснованные решения с помощью Uber-поездок, до презентации Судхира, которая последовала после презентации Дивьеша. Судхир начал с того, что Uber - это не просто автомобильная компания. Это прежде всего технологическая компания. Этот доклад дал много ценных сведений о том, как в настоящее время используется Google Analytics в Uber. Это моя любимая часть всего технического разговора, потому что Судир сделал то, что он представлял, очень ясным и понятным. И, конечно же, во время его выступления было несколько очень интересных визуализаций. Он показал нам визуализацию всех поездок / поездок, которые происходили в Бангалоре и его окрестностях, в режиме реального времени в это конкретное время. Когда он спросил, многие ли из нас уже работают инженерами данных или специалистами по обработке данных, только 20% подняли руки. Так что честолюбивых специалистов по анализу данных стало больше.

Судхир продолжил объяснение, как обработка онлайн-аналитики (OLAP) в реальном времени происходит с поездками Uber и задействованным стеком технологий. Во время этого процесса учитывается около 500 показателей, таких как ETA, частота отмены и т. Д. Тогда возник еще один вопрос. Кто из нас использует Jupyter? Вы, должно быть, знаете ответ. Практически все мы! Используя аналитику, Uber теперь может держать своих водителей в курсе того, где им находиться. Хотя может показаться, что аэропорт Сан-Франциско - хорошее место, чтобы прокатиться, если вы водитель Uber, данные говорят об ином. Он показывает, когда подходящее время для прибытия в аэропорт, а когда нет.

Все эти примеры были подкреплены визуализацией данных в реальном времени. Пул Uber отличается от обычных поездок тем, что требует большего анализа и вычислений. Совмещение нескольких гонщиков с помощью Uber - это совсем другая игра. Знаете ли вы, что 80% поездок в SFO - это прогулки в бассейне? В остальном мире это 20%. Есть много событий, которые запускаются, начиная с момента, когда пользователь / райдер открывает приложение, и до тех пор, пока поездка не закончится. В рамках этого процесса Uber использует Apache Samza, Kafka, ElasticSearch, Redis, Presto и некоторые другие как часть своего технологического стека. Самое приятное то, что все это с открытым исходным кодом! На вопрос о том, с какими проблемами столкнулась Uber India, ответ был, что платежная система была одной из проблем. В то время как во многих других странах предпочтительным способом оплаты являются карты, в Индии они должны были рассматривать наличные в качестве основного способа оплаты. «Индия доказала Uber, что наличные деньги имеют значение!»

Затем настала очередь Амана Гейрола, старшего специалиста по обработке данных в Uber и члена команды AdTech. Что такое AdTech? Проще говоря, рекламные технологии - это набор методологий, которые доставляют нужный контент в нужное время нужным потребителям. И если у вас есть технологическая компания, такая как Uber, которая использует несколько каналов или платформ для маркетинга / рекламы, вы наверняка захотите знать, кто из ваших маркетинговых партнеров отвечает за новых пользователей, которых создала компания. Это называется атрибуцией. Это может быть не так просто, как кажется, особенно с такими проблемами, как - как выяснить, какой канал привел к конверсии нового пользователя? В случае нескольких каналов, как нам отнести к правильному каналу? Если у вас была рекламная кампания в Facebook, поиске Google, телевизионной рекламе и т. Д., Как будет производиться атрибуция? Аман показал несколько методов для этого. Еще одна вещь, о которой стоит упомянуть, заключается в том, что при запуске рекламной кампании, которая требует значительных денежных средств, важно иметь механизм обнаружения мошенничества с рекламой, чтобы в конечном итоге вы не платили за поддельные клики.

Прамод Билигири, инженер по данным в Uber, который также работает над продуктами, связанными с AdTech, поделился своим опытом в качестве инженера по данным. Как специалист по обработке данных, нужно убедиться, что данные организованы и доступны в нужное время. Независимо от того, сколько данных доступно, они бесполезны, если на их основе невозможно сделать выводы. Он говорит, что, будучи инженером по обработке данных или выполняя любую задачу, связанную с данными, нужно знать, какие вопросы следует задавать, поскольку это часто приводит к глубокому анализу. С отсутствующими данными следует обращаться должным образом, чтобы они не приводили к неверным выводам. Лучше использовать существующие библиотеки, чем изобретать колесо и создавать что-то с нуля, когда в этом нет необходимости. А как насчет конфиденциальности данных? Конфиденциальные данные анонимизируются перед проведением какого-либо анализа, и данные хранятся только в течение нескольких дней или некоторого согласованного времени.

Из интернет-ресурсов по машинному обучению и науке о данных можно многому научиться, поэтому именно такие занятия помогают узнать, как они на самом деле реализованы и используются в режиме реального времени. Нам нужно поговорить со всеми спикерами, а также с несколькими другими сотрудниками Uber, которые помогли нам с нашими вопросами. На этой встрече, которая длилась более пары часов, можно было многому научиться. Если вам понравилось то, что вы прочитали в этой статье, и вы хотите следить за всем, что происходит в Uber, я рекомендую проверить этот блог Uber, а также подписаться на @ubereng в Twitter.

Большое спасибо Маюрешу Шилотри из DataGiri и Uber за организацию этой встречи. Если вам понравился этот пост, не бойтесь хлопнуть в ладоши (или два). Спасибо за чтение!!