«Самый ценный ресурс в мире больше не нефть, а данные».

- Экономист[1]

Руководители крупных фирм соглашаются[2].

Умные люди в правительстве не могут отставать (они читают «Экономист»!). Помню встречи в правительстве, где все утвердительно кивали, когда кто-то смешивал данные и нефть в одном предложении. Задача началась, как только кивание прекратилось. Не всегда легко сформулировать способы использования данного набора данных. Используя нефтяную метафору, мы все знаем, что нашли нефть, но не имеем технологии фрекинга.

Крупные технологические фирмы глубоко думают о данных и не оставляют на столе никаких арбитражных решений. Данные о клиентах, собранные в Интернете, собираются и продаются на различных платформах, извлекая всю возможную ценность за счет целевой рекламы и продаж. В центре внимания инструментов искусственного интеллекта для частного сектора находится получение информации для бизнеса и увеличение корпоративной прибыли. Нетехнологические компании тоже осознают тот факт, что они владеют данными, имеющими двойное назначение. Большинство больниц теперь понимают важность использования данных об уходе за пациентами для аналитики. Большинство супермаркетов понимают важность данных, хранящихся на их серверах ERP.

Могут ли правительства использовать аналогичные способы мышления для выявления возможностей для разработки государственной политики? Как можно использовать данные в государственном секторе и что вообще означает использование в этом контексте? Если мы сможем ответить на эти вопросы, мы приблизимся к извлечению ценности из данных.

В этом посте объясняется эвристика «использования» и «объединения» данных. Эти эвристики дают возможность подумать об использовании общедоступных данных с правительством для разработки приложений ИИ. Я фокусируюсь на правительстве по двум причинам. Во-первых, целью правительства является не максимизация прибыли. Большинство правительственных ведомств не думают о данных, которые у них есть, как бизнес, и, таким образом, в конечном итоге не извлекают из них адекватной ценности. Кроме того, правительства развивающихся стран обычно не проводят инвентаризационный анализ своих данных. Новый образ мышления может подтолкнуть их к этому. Во-вторых, рычаги воздействия, получаемые правительствами благодаря новаторскому подходу к данным, огромны. Он опережает любой бизнес, когда речь идет о создании общественного благосостояния. Это связано со способностью правительств вмешиваться посредством мер государственной политики и добиваться положительных результатов. В конечном счете, нет лучшего дела, чем общественное благо. Я полагаюсь на примеры, взятые из индийского контекста, но они имеют общее применение. Я также приостанавливаю работу той части мозга, которая беспокоится о конфиденциальности данных для этого эссе. Это отдельная тема.

Этот пост посвящен разработке приложений ИИ для целей государственной политики. Везде, где я упоминаю использование данных, я делаю это с этой целью. Кроме того, объем не ограничивается данными, которые генерируются онлайн или в закрытом режиме. Данные генерируются везде. Даже в отдаленной деревне Индии, где нет подключения к Интернету, деревенский составитель компаундов генерирует данные, когда заказывает следующую партию вакцины против полиомиелита. Точно так же почтальон, доставляющий почту в деревню, формирует данные о состоянии соединительных сельских дорог. Одинокое отделение кооперативного банка генерирует данные о бедственном положении в сельской местности, когда еженедельно сообщает об остатке на счете. Таким образом, нам нужен скачок в мышлении — внедрять инновации в сбор данных и думать о переводе этих данных в приложения на основе ИИ (или без ИИ).

Использование данных может происходить одним из двух способов:

а. Использование существующих данных

Правительство генерирует данные, выполняя возложенные на него функции. Например, отдел косвенного налогообложения генерирует данные о производстве при сборе косвенных налогов. Департамент образования генерирует данные, когда выделяет средства школам для обеспечения детей полуденным питанием. Департамент здравоохранения генерирует данные, когда субсидирует пациента на медицинские процедуры. Финансовый отдел собирает данные о субсидиях, предоставляемых фермерам через банки в течение сельскохозяйственного сезона. Это важные данные, и в настоящее время эти данные используются для обычного составления бюджета и финансовой отчетности в правительстве. Исследователи получают ограниченный доступ к данным для исследований, чтобы понять эффективность политики. Иногда правительство само проводит аналитику, чтобы лучше понять эффективность и использование средств. Некоторые ведомства также начали использовать инструменты на основе ИИ — примером может служить налоговое управление, которое использует ИИ для выбора дел для расследования.

Что мы упускаем, продолжая использовать этот подход?

Мы упускаем шанс получить ценные данные, которые возникают как побочный продукт чего-то другого. Например, средства, выделяемые школам на программу обедов в середине дня, также позволяют получить данные о количестве приемов пищи, предоставляемых каждый день, что может быть приблизительным показателем посещаемости. Субсидии на кредиты фермерам также дают данные о благосостоянии или бедственном положении сельских жителей на очень детальном уровне. Данные о железнодорожных билетах можно использовать для изучения моделей сезонной трудовой миграции из одного штата в другой. Субсидия на медицинские процедуры генерирует данные о пациентах и ​​их предшествующих заболеваниях. Ежемесячные налоговые декларации по косвенным налогам можно использовать для прогнозирования производственных показателей.

Рассматривая данные, которые генерируются как побочный продукт обычной деятельности правительства, мы можем разработать инструменты, которые могут прогнозировать переменные, представляющие интерес для политиков. В приведенных выше примерах видно, что прогнозирование посещаемости или бедственного положения в сельской местности не является основной целью процесса генерации данных. Только когда мы идентифицируем данные о побочных продуктах, мы начинаем видеть потенциальное использование и приложения.

б. Генерация новых данных из существующей настройки

Другой способ — использовать существующий государственный аппарат для получения совершенно новых данных. Мы не говорим здесь об идее привлечения учителей начальных классов для проведения переписей или использования государственных служащих для проведения выборов — это временное выделение ресурсов. Мы говорим о генерации данных, которые можно использовать для разработки приложений ИИ.

Представьте себе установку камер на велосипед деревенского почтальона, чтобы запечатлеть состояние сельских дорог. Сгенерированные данные можно пометить, а ИИ можно обучить отмечать плохие дороги. Камеры на пунктах взимания платы можно использовать для проверки движения и количества грузовых автомобилей, что может быть предиктором экономической активности. Точно так же дорожные камеры, установленные на перекрестках и светофорах в городе для мониторинга дорожного движения, могут фокусироваться на характере движения двухколесных транспортных средств по дорогам, чтобы определять участки дорог, которые нуждаются в ремонте (двухколесные транспортные средства объезжают выбоины). Школьные учителя могут обучать инструмент искусственного интеллекта, который прогнозирует успеваемость учащихся на основе посещаемости и других факторов. Это примеры, когда мы смотрим на использование существующей настройки для создания новых данных. Затем это можно использовать для обучения алгоритмов в целях государственной политики.

2. Объединение данных

Различные подразделения правительства генерируют и хранят данные в хранилищах, которые в сочетании могут быть полезны для создания решений ИИ. В автономном режиме одни и те же данные могут быть не такими эффективными или даже бесполезными.

Объединение наборов данных — непростая задача, даже если исключить бюрократические войны за сферы влияния. Это требует проработки. Данные с точки зрения контролируемого приложения ИИ разделены на X и Y. X содержит входные данные. Y - прогноз. Например, X может быть спутниковым изображением, а Y — прогнозом посевной площади. Когда в наших данных есть и X, и Y, мы можем начать процесс разработки приложения ИИ.

Однако вполне вероятно, что X может быть в одной ветви правительства, а Y может быть в другой, и получить их может быть непросто. Даже если мы их получим, связывание может быть непростым, если нет общего ключа или идентификатора, который связывает оба набора данных. Например, бедняки в Индии пользуются субсидированными медицинскими услугами, используя номер Aadhar, который является уникальным идентификатором. Тот же номер Aadhar используется для предоставления финансовых субсидий правительством через банковские каналы. Банковские счета в обязательном порядке связаны с Aadhar. Но эти два набора данных (здравоохранение и финансы) относятся к разным отделам. Если бы мы могли объединить данные и присоединиться к числу Aadhar, мы могли бы получить хороший набор данных. Этот набор данных можно использовать для обучения алгоритма прогнозирования финансового здоровья человека (Y) с учетом состояния здоровья (X). Это может быть политическим инструментом во время пандемии, когда люди испытывают финансовые затруднения из-за чрезвычайных ситуаций в области здравоохранения.

Думая о X и Y таким образом, мы можем иметь следующие комбинации:

Первый ряд выше прост. Данные находятся в одном отделе, и связать их легко. Данные о посещаемости занятий учителями и учениками ведутся тем же отделом, который занимается образованием. Данные имеют уникальные идентификаторы для учителей и учеников. Таким образом, объединение данных, содержащих посещаемость учащихся (Y), и данных, содержащих пунктуальность учителей и другие входные данные (X), не составляет труда.

Вторая строка в приведенной выше таблице — это пример, когда связывание данных затруднено, даже если данные находятся в одном и том же отделе. Фермеры получают субсидии на семена, удобрения и инсектициды, которые привязаны к номеру Aadhar фермера. В то же время спутниковые снимки используются тем же сельскохозяйственным ведомством для прогнозирования посевных площадей под различные культуры. Это используется для прогнозирования сельскохозяйственного производства, цен и планирования рыночных операций. Если мы сможем связать набор данных о фермерах и прогноз урожая, мы сможем использовать его для прогнозирования доходов, получаемых отдельными фермерами. Это может помочь лицам, определяющим политику, понять, что такое процветание/бедствие в сельской местности, особенно во время стихийных бедствий. Однако связать данные о посевных площадях со спутниковых снимков с доходами отдельных фермеров непросто. На участках земли, видимых со спутника, нет общего идентификатора идентификационных номеров земледельца. В настоящее время предпринимаются усилия, чтобы помочь такому связыванию в будущем. Различные правительственные проекты пытаются нанести на карту отдельные владения землей с помощью GPS-координат земли.

Третья строка в таблице была объяснена в примере ранее. Хотя данные относятся к разным отделам, связать их легко, поскольку у нас есть общий идентификатор, который существует в обоих наборах данных.

Четвертый касается случая, когда X и Y относятся к разным отделам и не могут быть легко связаны. Коррупция и отмывание денег основаны на крупных операциях с наличными. Это делается для того, чтобы не оставлять онлайн-следов незаконной деятельности. Наличные деньги входят в экономику и выходят из нее через банки. Известны сотни случаев, когда проверка кассовых операций приводила к разоблачению банд по отмыванию денег. Есть также тысячи случаев, когда операции с наличными были доброкачественными. Для инструмента ИИ типа помощи в принятии решений, который может помочь следователям отмечать подозрительные случаи, Xs могут быть входными данными, такими как местонахождение банка, личность устройства для снятия наличных, величина и частота транзакций. Y может быть индикатором того, была ли это доброкачественная транзакция или случай отмывания денег. Этот инструмент ИИ может помочь следственным органам в принятии решений. Однако X соответствует финансовому отделу, а Y — отделу по борьбе с коррупцией. Когда аресты произведены, все Икс не захвачены следственной группой. Таким образом, связывание данных становится утомительным и ручным процессом.

Приведенные выше примеры представляют собой общие принципы того, как можно думать об использовании и объединении данных. Не все предложения могут стать настоящими решениями ИИ. Некоторые могут не взлететь после тщательного осмотра. Идея состоит в том, чтобы показать подход, который можно использовать для использования данных с правительством для разработки решений ИИ.

[1] https://www.economist.com/leaders/2017/05/06/the-worlds-most-valueable-resource-is-no-longer-oil-but-data

[2] https://medium.com/project-2030/data-is-the-new-oil-a-ludicrous-proposition-1d91bba4f294