Внедрение новой инфраструктуры данных и разработка платформы данных BiTaksi для алгоритмов машинного обучения.

BiTaksi, основанная в 2013 году Назимом Салуром, является лучшей доступной службой вызова такси в Стамбуле и Анкаре. BiTaksi позволяет вам заказывать такси со своего смартфона и помогает перемещаться по городу самым безопасным способом, потому что только лицензированные водители такси могут зарегистрировать его после строгого отбора.

Подход, основанный на данных

BiTaksi придает большое значение технологиям, чтобы быть лучшими в своем секторе услуг. Несмотря на проблемы в транспортной отрасли, BiTaksi за годы сумел добиться широкого распространения благодаря удобству, которое он обеспечивает как водителям, так и клиентам. Он продолжает день ото дня улучшать свой опыт работы с приложениями для драйверов и клиентов. Он направлен на передачу опыта, накопленного за многие годы в области серверной и мобильной разработки, в сторону обработки данных. Придерживаясь видения компании, она применила подход на основе данных от самого маленького отдела к самому большому отделу. BiTaksi стала одной из самых успешных онлайн-систем вызова такси, адаптировав современные технологии к базе кода на стороне данных в течение почти двух лет.

По мере увеличения числа водителей и клиентов я вносил свой вклад в BiTaksi, выполняя роль «Data Scientist» в команде, созданной для улучшения устаревшей инфраструктуры данных. Данные, поступающие из источников данных, используемых бэкэндом и мобильными командами в приложении, были представлены отделу маркетинга с помощью простых заданий cron без необходимости какой-либо разработки и без какой-либо регулярной структуры. Источником большинства выполненных проектов машинного обучения была операционная основная система, а не должным образом спроектированное промежуточное ПО для хранилища данных.

Почему нам нужно было избавиться от устаревшей инфраструктуры?

Подводить итоги;

  • Устаревшая инфраструктура больше не работает должным образом
  • Как избежать противоречий в данных
  • Наличие легко управляемой и современной инфраструктуры

После подробного анализа унаследованной инфраструктуры мы начали тесно сотрудничать с нашей командой DevOps в создании новой инфраструктуры. Исследование предложит решение проблем в старой инфраструктуре данных компании и позволит ввести в действие современную инфраструктуру данных. С другой стороны, несогласованность данных в приложении можно контролировать. Очень простая структура, созданная между транзакционными ресурсами и единой базой данных (MySQL), больше не могла удовлетворить потребности компании. Несогласованность данных была высокой из-за неправильной структуры cron, написанной на нескольких языках программирования. Это несоответствие иногда влияло даже на важные данные, такие как поездки, клиенты и платежи. Еще один негативный аспект ситуации заключается в том, что, поскольку платежи водителей основывались на этой базе данных, даже запросы не могли выполняться в определенное время дня.

Пришло время перемен!

«Иногда необходимо сделать один шаг назад, чтобы сделать два шага вперед».

Мы вернулись немного назад, работая над конструкцией. Определив проблемы одну за другой, мы задокументировали их и начали планировать решение. Сначала мы попытались улучшить MySQL. Однако мы знали, что это не долгосрочное решение. На этом этапе обсуждалась идея разработки нового хранилища данных. Транзакционные данные, полученные из операционных баз данных, были перенесены в PostgreSQL, который мы будем использовать в качестве хранилища, с помощью программного обеспечения с открытым исходным кодом под названием ToroDB. Несколько проблем, с которыми мы столкнулись в ToroDB, подтолкнули нас к поиску других решений. Нашим решением после ToroDB был Foreign Data Wrapper. Вместо того, чтобы настраивать его как отдельную базу данных или службу на сервере, где находится хранилище данных, мы создали новый PostgreSQL на другом сервере и использовали FDW как эффективное решение между хранилищем данных и источниками данных. На ежедневной основе мы можем планировать все конвейеры данных с помощью Airflow и передавать их в наше хранилище данных. С другой стороны, структура, которая скоро будет завершена для потоковых данных, также показана на диаграмме ниже.

AI и аналитика данных

После создания новой инфраструктуры данных пришло время алгоритмов машинного обучения. Особенно большой проблемой было отсутствие грамотно генерируемых оценок прогнозов и сегментации со стороны маркетинга. Я создал упомянутые ниже приложения для анализа данных. Я использовал Python и его библиотеки для всех этих алгоритмов и моделей. Apache Superset был выбран в качестве инструмента визуализации для бизнес-аналитики.

  • Модели сегментации с нуля для клиентов и драйверов
  • Прогнозирование оттока клиентов и модель добавления карт
  • Панель управления удержанием клиентов и водителей
  • Анализ жизненной ценности клиентов

Маркетинг на основе данных

После завершения алгоритмов искусственного интеллекта, специфичных для наших водителей и клиентов, мы предоставили нашей маркетинговой команде необходимую среду, чтобы они могли разрабатывать новые маркетинговые стратегии. Для этого мы интегрировали данные и получили ценную информацию. Таким образом, мы смогли связаться с нашими клиентами в нужное время и в нужном месте. Мы использовали преимущества данных, чтобы предоставлять качественные услуги во время вспышки пандемии.

Заключение

BiTaksi извлекает выгоду из самого ценного источника на сегодняшний день, а именно данных, чтобы предоставлять лучший сервис. После сбора необработанных данных из приложений конечных пользователей он принимает меры, используя современные структуры мира технологий. Не только у группы данных, но и у всех отделов стоит уникальная миссия - преобразовывать необработанные данные в аналитические данные.

Я хочу поблагодарить Mehmet Erten, который вместе со мной создал эту новую инфраструктуру данных, и Emre Rençberolu, который вместе со мной управлял этой надежной инфраструктурой.

Мы демократизировали данные, доставляли данные тем людям, которые в них нуждаются, создавали игровые площадки для аналитических усилий!