Пять ролей, необходимых для успешного осуществления социальных и гражданских изменений с помощью науки о данных.

Ближе к концу сентября я посетил мероприятие Data for Good Exchange, организованное Bloomberg, которое состояло из серии отличных панелей на тему того, как можно использовать науку о данных для осуществления социальных и гражданских изменений. .

Темы включали использование данных для:

  • лучше понять и уменьшить насилие с применением огнестрельного оружия,
  • улучшить участие граждан в их сообществах,
  • лучше выявлять и лечить психическое здоровье,
  • внедрять инновационные методы управления водными ресурсами и лучше реагировать на водные кризисы,
  • отслеживать качество городской инфраструктуры, чтобы оптимизировать время обслуживания,
  • способствовать равенству возможностей и равному доступу к ресурсам,
  • и так далее…

Я записывал в свой блокнот почти все, что я слышал на этих панелях — наблюдения, выводы и призывы к действию были слишком ценными, чтобы их не записывать.

За последние два месяца после конференции я собирался написать огромное количество уточнений и дополнений, но из них один конкретный набросок идеи, которую я особенно собирался исследовать, — это то, что я мне нравится называть «Группа пяти». Этот термин я придумал, чтобы уловить общую тему, которая прослеживалась на многих панелях, которые я посетил.

Вкратце «Группа пяти» относится к пяти ролям, которые кажутся важными для эффективных команд, желающих влиять на социальные и гражданские изменения с помощью науки о данных.

На протяжении всей конференции разные команды представляли решения, которые они разрабатывали для осуществления социальных и гражданских изменений с использованием науки о данных и методов машинного обучения. В этих командах либо были представлены все пять ролей в «Группе пяти», либо они выразили потребность заполнить роли, отсутствующие в их команде. Прослушав целый день выступлений этих междисциплинарных команд, я понял, что не было установленной командной структуры или «наилучшей практики» того, как именно сформировать команду для решения этих крупных социальных и гражданских проблем. Большинство из этих команд пришли к осознанию необходимости определенных ролей путем проб и ошибок, и, похоже, многие из этих команд не знали о сходных выводах, к которым пришли многие их коллеги. В конце концов, эта область все еще находится в стадии становления, и многие столь необходимые практики до сих пор не систематизированы.

Так возникла моя мотивация предложить четкий набор ролей, которыми должны выглядеть команды, работающие с наукой о данных для социального и гражданского блага. Это все еще рабочий набросок идеи, который в значительной степени основан на (1) опыте команд, которые я видел до сих пор, и (2) требованиях важности и необходимости некоторых из этих ролей, как вывод из тематических исследований о том, как данные влияют на общество до сих пор. Я признаю, что еще многое предстоит проработать, но я хочу предложить свой первый рабочий удар по идее, чтобы начать обсуждение и начать процесс пересмотра. .

«Группа пяти» выглядит следующим образом:

  1. Специалисты по данным и информатике
  2. Эксперты на местах (специалисты в предметной области)
  3. Для политиков и юрисконсультов
  4. Социологи
  5. Отзывы и оценка воздействия (аудиторы)

И разбивка того, что каждый делает, и зачем каждый нужен:

Специалисты по данным и информатике

Сразу очевидная роль в команде по науке о данных — специалист по данным. Это люди, которые на самом деле создают алгоритмы и/или визуализации для работы с данными, чтобы можно было делать новые выводы.

Можно спорить, насколько отличается «ученый данных» от «ученого-компьютерщика», но я также прямо указал на необходимость того, чтобы «ученый-компьютерщик» отделил задачу работы с данными от, скажем, разработки веб-интерфейса ( приборная панель), чтобы пользователи могли взаимодействовать с этими данными, среди прочего.

Важное примечание. Многие технически ориентированные команды часто начинают здесь и здесь заканчивают. Это огромная проблема: сегодня многие люди приобретают базовый набор навыков работы с данными, находят случайный набор данных для работы, запускают данные с помощью произвольного алгоритма, который они нашли в Интернете в библиотеке, визуализируют результаты любым удобным для них способом. , и назовите это днем. Часто нет заботы (или понимания) последствий выводов, которые они делают. Набор данных может быть совершенно неадекватным (или предвзятым), а алгоритм, который они используют, может быть совершенно неудовлетворительным для данных, которые они анализируют. С точки зрения дизайна или человеко-компьютерного взаимодействия их визуализация может вводить в заблуждение. Кроме того, что происходит с выводами, которые они делают? Есть ли серьезные проблемы с этими выводами? Являются ли выводы обоснованными и призывают к действиям и изменению политики? Если это так, то просто хорошей визуализации данных часто недостаточно, чтобы эти изменения действительно произошли. Вот почему оставшиеся четыре роли так важны.

Полевые эксперты (специалисты в предметной области)

Командам нужны специалисты в предметной области, которые понимают значение наборов данных и значение выводов, которые делают алгоритмы. Именно они должны делать выводы, основываясь на своем опыте в этой конкретной дисциплине, а не специалисты по данным.

Многие дисциплины уже имеют долгую историю усовершенствованных методов и практик, используемых для понимания данных и принятия на их основе выводов. Будь то образование, здравоохранение и медицина, коммунальные услуги, городское развитие и т. д., было бы нелепо игнорировать огромное понимание, которое они привносят на стол. Они также могут быть ключевыми для специалистов по обработке и анализу данных в понимании того, какие функции в наборе данных актуальны и важны для анализа, а какие нет.

Политики и юрисконсульт

В частности, роль «политического деятеля» может понадобиться не всем командам, но аналогичная роль в той или иной форме должна присутствовать. Если команда надеется что-то сделать со своими данными и выводами, ей лучше иметь кого-то, кто может посоветовать, как это сделать. Во многих случаях действие принимает форму изменения или принятия политики (будь то в государственном или частном секторе). Это требует от политиков понимания того, как работает система, чтобы действительно осуществить это изменение.

Во многих случаях политики и юрисконсульты также важны для консультирования команды о том, что практично, а что нет. Преследовали ли они в настоящее время практически осуществимую цель (скажем, в местном самоуправлении)? Или система так устроена, что такой аск - журавль в небе? Есть ли у вас политик, вооруженный данными и выводами, способный осуществить системные изменения? Наконец, юрисконсульт важен для консультирования по поводу законности вашего анализа — если ваш набор данных или анализ содержит конфиденциальную информацию или затронет отдельных лиц, в связи с которыми могут возникнуть юридические проблемы, вы захотите, чтобы кто-то понял юридические последствия раскрытия этой информации и принятия мер в соответствии с ней. Информация.

На мой взгляд, «распорядитель данных» (понятие, которое становится все более важным и связано с недавним стремлением к улучшению конфиденциальности) также попадает в эту категорию, хотя это вполне может быть неверно с моей стороны. (Подходят ли они больше для роли социолога? У них своя собственная роль?)

Кроме того, когда организации хотят поделиться данными или предоставить их для открытого использования, возникает множество вопросов, связанных с юридическими соглашениями о данных, многие из которых представляют собой компромисс между конфиденциальностью и срочностью. Например, скажем, у организации А есть данные о вспышке болезни в одной стране, и они обнаруживают, что вспышка этой болезни только что началась в другой стране, за пределами юрисдикции организации А, и им нужно передать свои данные в Организация B для использования. Кто-то, кто может облегчить этот процесс и работать с обменом данными и соглашениями о данных, таким образом, очень ценен в подобных ситуациях.

Социологи

Чтобы более полно понять социальные последствия ваших выводов, вам понадобятся социологи. В то время как специалист по данным может обработать данные, а специалист в предметной области может разобраться в выводах, социологи лучше подготовлены к пониманию (потенциально долговременных и системных) последствий ваших результатов.

Существуют ли социальные факторы, которые упускаются из виду в выводах? Являются ли определенные функции проблематичными или на самом деле являются прокси для других, которые не следует использовать или, по крайней мере, остерегаться? (Например, использование почтовых индексов для определения принятия кредита или использование дохода для определения поступления в университет.)

На другой конференции кто-то упомянул, что «математические выводы сильно отличаются от человеческих выводов» и что социолог необходим для того, чтобы делать эти человеческие выводы. Это люди, которые играют решающую роль в консультировании по поводу разнообразия и достоверности ваших данных и методов, и у них есть свои собственные наборы знаний в предметной области, которые можно использовать, чтобы давать рекомендации относительно выводов, которые необходимо сделать, и действий, которые необходимо предпринять. В конце концов, если вы надеетесь добиться социальных изменений, вам действительно следует использовать множество существующих дискуссий, которые уже были изучены в социальных науках. (Оказывается, многие проблемы этих междисциплинарных групп в отношении социальных проблем в той или иной форме уже обсуждались социологами. Их опыт может быть бесценным!)

Оценщики обратной связи и воздействия (аудиторы)

Наконец, пятая роль часто упускается из виду или считается второстепенной. Но на самом деле это так же важно, как и любая из остальных четырех ролей. Это роль оценщика (или аудитора), который приходит после того, как алгоритм или политика введены в действие, и проверяет их эффективность.

Многие алгоритмы самоусиливающиеся, что становится очень опасным. Взгляните, к примеру, на предиктивную работу полиции: если вы предсказываете, что одна группа людей с большей вероятностью совершит преступление, вы потенциально начнете пытаться их арестовать чаще, в результате чего ваш алгоритм будет предсказывать с еще большей вероятностью, что они совершат преступление. стать причиной преступлений. Ту же порочную петлю обратной связи можно найти в выдаче кредитов, рейтингах образования и т. д. При создании алгоритмов прогнозирования с использованием данных должны быть люди, которые будут уверены, что алгоритмы действительно делают то, для чего они предназначены, а не просто падают. в эти порочные петли обратной связи. Кэти О'Нил, автор книги Оружие математического разрушения, а также многие другие члены этого сообщества утверждают, что такие вещи, как обратная связь и проверки справедливости, необходимы, если мы для разработки хороших социальных решений, основанных на данных. Я полностью поддерживаю этот тезис.

Для получения соответствующих ссылок по связанным вопросам, обсуждаемым в этом посте, включая статьи и организации, связанные с пересечением науки о данных и общества, взгляните на этот список на GitHub, который я начал. Дополнения к этому списку очень приветствуются!

Уэллс Лукас Санто — многообещающий писатель на социальные и гражданские темы, связанные с технологиями. Недавно он получил степень магистра компьютерных наук в Нью-Йоркском университете. Он выступает за междисциплинарную работу и междисциплинарное образование для всех.