Ключевой задачей на пути к автоматизации и повышению эффективности в логистике и цепочке поставок является сделать записи адресов машиночитаемыми и преобразовать их в точные геокоды. Почтовые индексы доказали свою пригодность. довольно эффективны для обеспечения этого в развитых странах, например, в Великобритании, они обычно разрешают любой адрес с точностью 100–200 м. Однако в Индии пин-коды не кажутся многообещающими. Они представляют собой очень большие территории (средняя площадь, покрываемая пин-кодом ~ 90 кв. км), и могут содержать до миллиона домашних хозяйств. .

Более того, когда дело доходит до написания пин-кодов, вряд ли есть какие-либо легкодоступные ресурсы, на которые можно положиться для определения правильного пин-кода адреса. Эта информация в основном поступает от старших членов семьи. Однако по мере того, как города расширяются и вводятся новые пин-коды, большинство людей не знают об изменениях и продолжают использовать пин-коды, с которыми они выросли. В результате 20–30% записанных адресов имеют неправильные пин-коды.

На рисунке 2 показано, почему никто не может быть уверен в том, какой пин-код пишется для адреса. Обратите внимание, что Участок 1 и Участок 5, которые являются соседними зданиями в Секторе 44 Гургаон, имеют разные пин-коды, 122004 и 122002 соответственно, согласно Google Maps. Также обратите внимание, что оба этих здания лежат в одном многоугольнике, который представляет собой область, покрытую пин-кодом 122003. В лучшем случае пин-коды представляют собой «среднее» решение проблемы адресации в Индии!

Как правило, люди в Индии идентифицируют адрес на основе названий окрестностей / населенных пунктов, достопримечательностей (POI) или даже схематичных направлений к месту. Хотя эти функции оказались эффективным способом для опытного местного почтальона найти заданный адрес, они не стандартизированы, и отсутствуют какие-либо официальные записи, которые могут помочь в их систематическом обнаружении. Более того, письменные адреса в Индии часто содержат аномалии, такие как неправильное написание, неполная информация о местонахождении, плохое описание ориентиров и т. Д.

Причина таких аномалий часто подлинная. Например, большинство людей знают, как произносить название населенного пункта на своем местном языке, но не знают его транслитерацию на английском языке, что приводит к большому количеству вариантов написания одного и того же названия населенного пункта. Другие примеры адресов, с которыми трудно справиться:

Подробный рабочий процесс -

xx Raheja Atlantis Sector 31 Gurgaon (по будням) xx Gulmohar Park New-Delhi 110049 (по выходным)

Угроза -

Дом № xx Village xx PO xx PS xx Distt Jalandhar Rural Punjab Я хочу, чтобы все продукты, которые у меня уже были заказаны, должны быть оригинальными, в противном случае я принимаю строгие меры против сотрудника U Bcz IM Cid из Пенджаба, когда я последний раз заказывал Curren Watch Зеркало и вторая рука были сломаны, Адампур, Пенджаб, 144201

Неустранимые орфографические ошибки -

xx Marol Maroshi Rd, Marol, Andheri WAST, Mumbai 400059 (Andheri West или Andheri East?)

При таких нарушениях машине становится очень сложно даже правильно определить неоднозначность адресной строки, не говоря уже о ее геокодировании с высоким разрешением.

Как это повлияет на бизнес?

Любая логистическая компания, пытающаяся оптимизировать свои операции, не может сделать это, не зная, куда им нужно доставить товары. Это становится очевидным на Рисунке 3, который иллюстрирует типичный «жизненный цикл» груза для логистической компании электронной коммерции, такой как Delhivery.

Понятно, что в отсутствие достаточно точного местоположения дома каждого покупателя становится сложнее сделать оптимальный выбор для:

  • Создание маршрутов для курьеров «последней мили»
  • Решение, какой центр доставки должен выполнить «последнюю милю» доставки
  • Решение о том, в какой пункт назначения следует доставить груз

Чем более детализирована информация о местонахождении, тем лучше мы сможем оптимизировать описанные выше шаги.

Можно подсчитать, что стоимость одного только распределения «последней мили» составляет около четверти миллиарда долларов в год для индустрии логистики электронной коммерции Индии. Возможность точного геокодирования адресов, вероятно, повлияет на эту стоимость как минимум на 15–20%.

Коммерчески доступные решения

Большинство онлайн-карт отлично справляются с геокодированием адресов из западного мира, но не оптимизированы для устранения неоднозначности неструктурированных индийских адресов. При тестировании API геокодирования ведущей компании, занимающейся онлайн-картами, на большой выборке адресов мы обнаружили, что только около 40% адресов были преобразованы в геокодирование с точностью до 500 метров. В городах 2-го уровня производительность ухудшается. Основной причиной плохой работы является отсутствие знаний и понимания нестандартных функций, которые люди пишут в своих адресах.

Чтобы решить эту проблему, индийские картографические организации нанимают тысячи людей, чтобы вручную обследовать города на предмет новых адресов, населенных пунктов / районов / POI; см. [1] и [2]. Очевидно, что этот процесс очень обременительный, особенно с учетом того, что это упражнение необходимо периодически повторять, чтобы обеспечить актуальность данных в быстро меняющемся городском ландшафте.

AddFix

В Delhivery мы создали собственное решение AddFix, в котором для решения этой проблемы используются методы генеративного машинного обучения. Обучающие данные для алгоритма включают строки адресов, которые клиенты электронной коммерции предоставляют во время размещения заказов, а также данные о местоположении, полученные с мобильных устройств курьеров, которые в конечном итоге доставляют посылки электронной коммерции к порогу покупателя.

Графические модели загружают миллионы записей адресов клиентов неконтролируемым образом, чтобы узнать названия городов, населенных пунктов, суб-населенных пунктов, названия зданий и POI, которые существуют в данном географическом регионе. , а также их иерархические отношения и альтернативные варианты написания. По сути, на этом этапе создается направленный ациклический граф, состоящий из различных характеристик местности, которые люди обычно записывают в адресах. Затем мы определяем географические границы каждого узла на графике на основе данных о местоположении, полученных мобильными устройствами наземного персонала. Каждый месяц мы собираем сотни надежных геокодов для каждого узла, что позволяет нам рисовать полигоны для соответствующего объекта местности. Эти многоугольники становятся более точными по мере увеличения количества доставок.

Учитывая новый адрес во время прогнозирования, мы ищем в графе набор подключенных узлов, которые наиболее точно соответствуют различным характеристикам местоположения, указанным в адресе. Чтобы гарантировать, что соответствие не очень чувствительно к вариациям в написании, мы используем нечеткий поиск на основе фонетического расстояния, который специально настроен для индийских языков. Например, большинство стандартных фонетических движков подобия не смогут уловить, что Gurgaon и Gudgaon звучат одинаково.

Результирующий вывод включает всю иерархию местоположений данного адреса, т. е. штат, город, населенный пункт, сублокальный район, крышу, а также границы многоугольников (если они доступны) для каждого узла в иерархии.

Этот проект стартовал еще в 2014 году с целью отказаться от сортировки по пин-коду и перейти к системе сортировки по местности. Первая версия AddFix (v1) была в основном системой, основанной на правилах, которая запрашивала заданную адресную строку для сопоставления названий населенных пунктов из вручную сгенерированного списка важных населенных пунктов / подобластей / POI в крупных городах Индии. Этот подход позволил правильно спрогнозировать местонахождение для 80–85% адресов (›95% для мегаполисов и городов уровня 1) и спрогнозировать геокоды для этих адресов с средней точностью 500 м.

Потребность в новой версии возникла, когда наши объемы выросли, и нам потребовалось еще больше повысить уровень детализации нашей службы геокодирования адресов, чтобы обеспечить эффективность при масштабировании. В таком масштабе становилось все труднее жить с системой, требующей ручной маркировки населенных пунктов.

Влияние

Последняя версия AddFix (v3) может правильно определять местонахождение / сублокальность ›90% грузов, которые проходят через сеть Delhivery, и прогнозировать геокоды для этих адресов с помощью средняя точность 200 м. Эти результаты гарантированно улучшатся со временем без каких-либо дополнительных усилий по развитию. Это позволило нам отказаться от традиционной сортировки грузов по пин-коду в пользу более детальной системы сортировки на основе местоположения. Последнее позволяет нам оптимально размещать наши распределительные центры и создавать управляемые системой маршруты для курьеров, которые не работают в отсутствие точных геокодов.

Возможность геокодирования необработанных адресов важна не только для логистических компаний, пытающихся сократить свои расходы, но и для любой организации, которая должна эффективно взаимодействовать с людьми, например, аварийные службы, службы поддержки клиентов и т. Д. Наши пилотные проекты с компаниями из других доменов. предоставили очень обнадеживающую информацию о том, как Addfix может повлиять на очень широкий спектр сценариев использования, помимо эффективной доставки грузов. Возможность автоматически обнаруживать населенные пункты и создавать границы их полигонов может потенциально улучшить видимость небольших населенных пунктов / городов и отобразить их на цифровой карте. Это упрощает для предприятий расширение возможностей / продуктов для более широкого населения. .

О компании

[Обновление] AddFix недавно выиграл премию Geospatial World Innovation Award в области искусственного интеллекта на конференции Geospatial World Forum Forum, прошедшей в Хайдарабаде 19 января 2018 года. Престижность команде!

Кабир возглавляет команду Data Science в Деливери, специализирующуюся на проблемах цифровых карт, машинного обучения, дискретной оптимизации и моделирования. Публикуемый автор, он ранее был старшим преподавателем исследования операций в Гринвичском университете, Великобритания.

Создание этого блога стало возможным благодаря участию Рахула Кумара, старшего специалиста по данным, Деливери. Delhivery - крупнейшая в Индии сторонняя логистическая компания в сфере электронной коммерции. В настоящее время мы ежегодно доставляем около 100 миллионов отправлений по более чем 12000 пин-кодов по всей Индии.

Если вам нравится то, что мы делаем, и вы заинтересованы в изучении возможностей в команде по технологиям и данным в Деливери, посетите tech.delhivery.com.

Ссылки

[1] Теперь правительство должно начать отображать ваш адрес в цифровом виде, The Economic Times. Доступно по адресу: https://economictimes.indiatimes.com/industry/cons-products/durables/govt- look-to-cut-gst-on-white-goods / articlehow / 61718288.cms (дата обращения: 22 ноября 2017 г.)

[2] Андхра-Прадеш начинает исследование Smart Pulse среди 14,8 миллионов домохозяйств. Живая мята. Доступно по адресу: http://www.livemint.com/Politics/epYBSl0nVGaKa8wkx9zPWK/Andhra-Pradesh-kicks-off-Smart-Pulse-Survey-of-148-million.html (дата обращения: 22 ноября 2017 г. )