Использование данных для информирования государственной политики не ново. Использование статистического анализа данных наблюдений можно проследить как минимум до 1950-х годов. Что изменилось за последние годы, так это наша вычислительная мощность и способность собирать большие объемы данных. Это дает нам прекрасную возможность значительно улучшить условия жизни людей.

Однако, как правильно сказал дядя Бен из Человека-паука: «с большой силой приходит большая ответственность».

Хотя большие объемы данных могут улучшить муниципальную политику и эффективность, они также могут вызвать этические проблемы при неправильном обращении. Ежедневно государственные органы собирают огромные объемы административных данных. Административные данные — это данные, собираемые для нестатистических программ (например, регистрация таких событий, как рождение и смерть или подача заявления на получение водительских прав). Этот доступ к большим базам данных может легко проложить путь для потенциального неправомерного использования данных. Однако эти проблемы добавляют осторожности при использовании административных данных, но не должны полностью останавливать использование.

Эта статья начинается с описания некоторых этических проблем, которые могут возникнуть при использовании прогнозной аналитики в государственном секторе. Затем он переходит к разработке двух прогностических моделей, которые в настоящее время применяются в местных органах власти.

Конфиденциальность данных

Существуют юридические проблемы, которые необходимо решать при использовании административных данных. Согласие необходимо получить от отдельных лиц, прежде чем их информация будет использована для любой формы анализа. Следовательно, после получения этих данных необходимо проявлять особую осторожность, чтобы они не попали в чужие руки.

Для этого существуют строгие правила, которые временами делают затруднительным для исследователей получение и использование этих данных. Его получение может быть очень медленным, а иногда и невозможным.

Прогнозная аналитика и прогнозная погрешность

Теперь у нас есть данные. Здорово. Что нам с этим делать?

Город/округ может захотеть использовать прогностическую аналитику, основанную на этой информации, чтобы лучше управлять своими ресурсами, тем самым улучшая результаты политики.

Модели машинного обучения, созданные для этой конкретной цели, могут быть чрезвычайно полезны для раннего вмешательства. Несмотря на то, что они полезны, важно убедиться, что эти прогностические алгоритмы не дают предвзятых результатов. Например, было бы проблематично, если бы прогностическая модель, поддерживаемая правительством, была предвзятой по признаку пола — она одобряла бы более высокое распределение пособий для заявителей одного пола по сравнению с другим. Примером предвзятой модели прогнозирования является Эпизод алгоритма школьных экзаменов в Великобритании в 2020 году. Подробнее о предвзятости в алгоритмах машинного обучения можно узнать здесь.

Оценка модели

То, что считается хорошей точностью модели, может варьироваться от модели к модели. Модели в частном секторе могут не нести такой ответственности, как модели в государственной сфере. Предположим, что алгоритм рекомендации фильмов Netflix имеет точность 99%. Это было бы неплохо. Даже если прогноз неверен в 1% случаев, худшим результатом будет рекомендация не того фильма. С другой стороны, представьте модель, описанную выше, — модель, которая утверждает размер пособия, выделяемого физическому лицу. А теперь представьте, что эта модель содержит 3 миллиона наблюдений. Если модель ошибочна хотя бы в 1% случаев, это означает, что 30 000 человек получат неверные суммы пособий… а это довольно большое число!

Предиктивная аналитика на практике

Если вы дочитали до этого всего, вы, вероятно, думаете, что очень сложно, если вообще возможно, использовать прогностическую аналитику в качестве инструмента для государственных услуг. Даже с этими уровнями осторожности местные органы власти могут действовать на основе понимания, полученного из их данных посредством предоставляемых ими услуг.

Исторически сложилось так, что эти правительственные источники данных существовали отдельно друг от друга. Что делает предиктивную аналитику более мощной, так это то, что эти источники данных впервые могут взаимодействовать друг с другом.

«Со стороны правительства исторически агентства были разрозненными, поэтому их источники данных не были связаны. Сейчас предпринимаются попытки их соединить. Например, теперь вы можете начать задавать вопросы о том, как системы образования влияют на здоровье или как они влияют на то, как люди передвигаются по городу».

«Это совершенно новый рубеж. Не обязательно, что наборы данных состоят из миллионов строк, хотя они могут быть такими — что более эффективно, так это то, что вы получаете данные из разных источников, чтобы общаться друг с другом в первый раз». — Дэвид Йокум, директор LAB, инициативы по работе с данными в Вашингтоне, округ Колумбия

Ниже приведены два тематических исследования, в которых используются различные источники данных. Например, количество ресторанов, подлежащих проверке в Чикаго, было спрогнозировано на основе данных, которые существовали в базе данных Департамента общественного здравоохранения, а также данных, полученных от населения через информационный онлайн-портал.

Осмотр ресторана в Чикаго

Город Чикаго подвергся критике в СМИ за то, что не смог проверить рестораны на наличие критических нарушений. В городе 15 тысяч продовольственных заведений и всего три десятка инспекторов. Департамент здравоохранения и Департамент инноваций и технологий совместно разработали прогностическую модель с целью: заказные проверки для увеличения скорости выявления критических нарушений в розничных продовольственных заведениях. Цель состояла в том, чтобы спрогнозировать предприятия общественного питания, критические нарушения которых с наибольшей вероятностью могут привести к заболеваниям пищевого происхождения. Базовая модель логистической регрессии была реализована со следующими наиболее значимыми предикторами:

  • Заведения с предыдущими критическими или серьезными нарушениями
  • Средняя высокая температура за три дня (более высокие температуры вызывают более быстрое гниение пищи)
  • Жалобы на близлежащий мусор и санитарные условия
  • Кражи со взломом поблизости
  • Имеют ли заведения табачную или алкогольную лицензию
  • Продолжительность времени с момента последней проверки
  • Продолжительность работы заведения
  • Назначен инспектор

Прогнозы, сделанные этой моделью, увеличили количество обнаруженных критических нарушений. До его применения выявленные нарушения в первой половине рабочего года составляли 55%, а после его внедрения подскочили до 69%.

Прогнозирование бездомности в Лондоне, Онтарио

Ежегодно более 230 000 человек в Канаде становятся бездомными — около 35 000 в любую ночь, Тим Рихтер, президент Канадского альянса за искоренение бездомности, правозащитной группы.

Канадский город Лондон, Онтарио, работает над моделью искусственного интеллекта, чтобы предсказать, кто рискует стать бездомным. Модель искусственного интеллекта хронической бездомности (CHAI) отслеживала группу людей в течение шести месяцев, прежде чем она была запущена в августе. За это время модель с вероятностью 93% предсказывала, когда кто-то может стать хронически бездомным. Это может позволить городу уделять приоритетное внимание работе с людьми из группы повышенного риска.

Кто-то считается хронически бездомным, если он находится в приюте 180 и более дней в году. Эти люди используют в 12 раз больше ресурсов, чем те, кто время от времени остается без крова.

В этом проекте учитывались соображения конфиденциальности при работе с такими конфиденциальными данными. Программа отслеживает только давших согласие лиц, которые могут выйти из нее в любое время, при этом их данные удаляются из модели, если они это делают. Кроме того, имя каждого человека заменяется идентификационным номером вместо их имен в наборе данных, используемом для анализа.

В настоящее время модель работает, чтобы прогнозировать и сокращать бездомность для лиц из групп риска. В будущем CHAI можно будет применять и в других областях. Например, первым приложением может быть система координированного доступа, которая направляет бездомных граждан к различным службам.

Заключение

Все больше и больше городов обращаются к прогнозной аналитике для оптимизации программ социального обеспечения. Аналитика может помочь расставить приоритеты в и без того скудных ресурсах города. Это, в свою очередь, требует, чтобы города инвестировали в повышение кибербезопасности, чтобы гарантировать, что эти конфиденциальные данные не будут использованы не по назначению.