Впервые в 2021 году на крупной конференции по обработке естественного языка будет тема, посвященная реагированию на стихийные бедствия. Это также первая конференция по машинному обучению или лингвистике, имеющая этот трек! 16-я конференция Европейского отделения ассоциации компьютерной лингвистики (EACL 2021) посвящена теме Приложения НЛП для чрезвычайных ситуаций и управления кризисами.

Я очень рад быть старшим руководителем этого трека! Я проработал в сфере машинного обучения и реагирования на стихийные бедствия уже 20 лет и рад, что теперь все больше людей изучают, как машинное обучение может помочь людям в самые критические моменты.



Большая часть статьи по машинному обучению для реагирования на стихийные бедствия должна быть такой же, как и любой другой документ по прикладной науке: воспроизводимые методы, которые явно расширяют наши знания о том, как развертывать и оценивать технологии машинного обучения.

Однако есть аспекты реагирования на стихийные бедствия, которые делают некоторые аспекты науки более важными, а некоторые аспекты являются уникальными для реагирования на стихийные бедствия. Некоторые из них будут знакомы исследователям, работавшим в сфере здравоохранения, но некоторые из них привлечены из международных разработок. Вот краткое изложение важных моментов, затронутых в этой статье:

  1. В большинстве случаев меры реагирования на стихийные бедствия помогают пострадавшему от кризиса сообществу помочь себе самому. Поэтому инструменты, которые расширяют возможности пострадавших от стихийных бедствий сообществ, являются наиболее ценными, особенно говорящих на языках с ограниченными ресурсами.
  2. Управление информацией - гораздо более серьезная проблема, чем обнаружение информации для профессиональных спасателей.
  3. Статьи, посвященные машинному обучению для реагирования на стихийные бедствия, не должны уклоняться от науки.
  4. Системе продвижения статей, созданной исследовательскими лабораториями, нет места в реагировании на стихийные бедствия.
  5. Невозможно полностью оценить уязвимость данных во время стихийного бедствия, поэтому реагирование на продолжающиеся стихийные бедствия должно по умолчанию применяться к частной информации.
  6. Реагирование на стихийные бедствия часто используется как прикрытие для нарушений прав человека, особенно при авторитарных режимах, поэтому исследования авторитарных режимов, которые могут нарушать права человека, должны быть отклонены.
  7. Исследователи не должны сотрудничать с неоперативными организациями по оказанию помощи и должны знать, как определить разницу между действующими и нефункциональными организациями.
  8. Обработка данных в английских социальных сетях не интересна и не полезна для спасателей.
  9. Игнорируйте все, что основано на исследованиях, опубликованных в «ISCRAM».
  10. При оценке воздействия применяйте принцип «Не навреди».

Я поделюсь примерами из собственного опыта, подробно остановившись на каждом из них.

1. Реагирование на стихийные бедствия - это в основном сообщества, помогающие себе сами.

В случае любой крупной катастрофы у нас просто нет ресурсов, чтобы помочь большинству людей напрямую. В преддверии лесного пожара ваша собственная подготовка к вашей собственности, вероятно, будет иметь большее влияние, чем любая подготовка, которую успевает выполнить профессиональный пожарный. Во время пандемии вы будете нести прямую ответственность за социальное дистанцирование и санитарию. После землетрясения ваши соседи с гораздо большей вероятностью вытащат вас из разрушенного дома, чем профессиональная поисково-спасательная команда.

Самый важный способ поддержать эти сообщества - это четкое общение. Люди, говорящие на языках с ограниченными ресурсами, чаще становятся жертвами стихийных бедствий и техногенных катастроф. Следовательно, любая технология, которая помогает доставлять информацию лингвистически разнородным сообществам, поможет им в случае бедствий. Фактически, я считаю, что работа, которую я проделал, помогая крупным компаниям внедрять технологии на большем количестве языков, оказала большее влияние на реагирование на стихийные бедствия, чем время, которое я провел в лагерях беженцев для ООН.

Итак, если вы улучшаете машинный перевод или языковую поддержку устройств и приложений, таких как поисковые системы и интернет-магазины, то вы уже работаете над единственной наиболее важной проблемой для машинного обучения при реагировании на бедствия. Это помогает аварийным службам общаться с пострадавшим сообществом, а также помогает сообществу искать в Интернете нужные ресурсы, чтобы помочь себе.

Как я рассказывала в недавней статье Гретхен Маккалох Wired « Covid-19 - самая большая проблема перевода в истории », я много раз сталкивался с недостатками того, что ошибался. Например, в Сьерра-Леоне во время кризиса, вызванного вирусом Эбола, международное информационное агентство транслировало объявления на языке манде в районе, где говорят на темне, что вызвало недоверие, поскольку манде считался языком политической партии, находившейся у власти в то время. В результате темненцы с большей вероятностью избегали клиник.

Я работал с агентствами по оказанию помощи, чтобы прийти к шокирующему выводу, что на каждого человека, заболевшего Эболой, десять человек умерли поблизости от других предотвратимых состояний, потому что они избегали клиник. Распространение опасений богатых стран в местных СМИ при слишком низком внимании к местным языкам привело к гибели большего числа людей, чем сама Эбола.

С другой стороны, правильное решение может иметь большое значение. Например, после землетрясения 2010 года я набрал и руководил 2 000 говорящих на гаитянском крейоле для перевода сообщений о чрезвычайных ситуациях. Работа переводчиков спасла множество жизней. Он также поддерживал исследования машинного обучения для реагирования на стихийные бедствия с использованием данных в общей задаче Мастерская по машинному переводу в 2011 году (WMT11) и как часть многоязычного набора данных по реагированию на стихийные бедствия, который сейчас широко используется.

Любая статья, посвященная языкам с ограниченными ресурсами, может привести аргумент в пользу того, что она будет полезна для реагирования на стихийные бедствия, поскольку она может быть частью фундаментальной технологии, которая позволяет пострадавшему от стихийного бедствия населению более легко общаться и получать доступ к информации и услугам.

2. Управление информацией - самая большая проблема для профессиональных спасателей.

Большая часть работы по реагированию на стихийные бедствия связана с логистикой, и большинство специалистов по реагированию на стихийные бедствия обмениваются информацией с помощью электронных таблиц и неструктурированных документов. Это миф (из слишком большого количества фильмов) о том, что аналитика и машинное обучение во время бедствия в первую очередь сосредоточены на прогнозировании, где будет следующая «горячая точка». Эти варианты использования существуют, но они редки.

Например, руководитель службы реагирования на стихийные бедствия, отвечающий за планирование распределения питьевой воды, может получить сотни отчетов из разных агентств или регионов, в каждом из которых содержится информация, необходимая для оценки общей потребности. Информация должна быть надежно извлечена из каждого из этих отчетов.

Итак, если вы можете разработать системы машинного обучения, которые могут извлекать информацию из полуструктурированных таблиц и форм в электронных таблицах и PDF-документах, то вы работаете над одной из самых важных проблем для поддержки специалистов по реагированию на стихийные бедствия.

Хороший пример 10-летней давности, который все еще актуален, - Разработка адаптивной обратной связи для повышения точности ввода данных Куанг Чена, Джозефа М. Хеллерштейна и Тапана С. Париха. В документе оцениваются технологии с использованием машинного обучения, которые помогают профессиональным клеркам по вводу данных оцифровывать данные о пациентах из клиник в сельских районах Уганды, поддерживая большое количество конголезских беженцев.

3. Не уклоняйтесь от науки.

Вы, наверное, видели в новостях о COVID-19, что специалисты по инфекционным заболеваниям против широкого использования вакцин, которые не прошли соответствующее тестирование. Если вакцины от самой распространенной пандемии в памяти живущих могут подождать, пока наука не появится, ваши исследования в области машинного обучения тоже.

4. Документам о демонстрации системы из исследовательских лабораторий не место в исследованиях реагирования на стихийные бедствия.

Toyota Land Cruisers - клише в мире оказания помощи: они были большинством автомобилей, которые я видел в некоторых ситуациях реагирования.

Land Cruiser - не обязательно лучший автомобиль для оказания помощи, но он самый надежный и предсказуемый. Когда у них действительно возникнут проблемы, найдется много людей, которые знают, как их отремонтировать, и будет доступно много подходящих запасных частей.

Может ли академическая исследовательская лаборатория спроектировать автомобиль, более подходящий для реагирования на стихийные бедствия? Без сомнений. Стоит ли использовать эти машины в критической ситуации? Точно нет. Было бы трудно найти запасные части, и единственными экспертами было бы небольшое количество ученых, которые быстро переключились бы на другую работу и не были бы готовы помочь с механическими проблемами. Таким образом, научные данные из этой лаборатории могут дать информацию о будущих разработках, но они не должны создавать настоящие транспортные средства.

То же самое касается любого программного обеспечения. Прототипы программного обеспечения могут информировать науку и использоваться в контролируемых средах в некритические периоды, особенно если есть компоненты взаимодействия человека с компьютером (HCI), которые важно протестировать. Однако у исследователей машинного обучения нет навыков для создания масштабируемой технологии или способности поддерживать это программное обеспечение в течение многих лет. У агентств по оказанию помощи нет инженерного потенциала, чтобы взять академическую систему и сделать ее масштабируемой и надежной с помощью обширной разработки и тестирования. Просто бесполезны академические демонстрации, авторы которых заявляют, что их технология должна использоваться для реальных критически важных данных.

Даже когда я учился в Стэнфорде, возможно, наиболее специализированном техническом университете, я не работал с коллегами там, когда мне нужно было быстро разработать инструменты для реагирования на стихийные бедствия. Я работал с коммерческими программными решениями, потому что надежность была важнее инноваций, и только после получения ответа я начал исследовать, как машинное обучение может улучшить отклики в будущем.

5. По умолчанию практика конфиденциальности данных.

Во время продолжающейся катастрофы невозможно определить, станут ли данные, которые сегодня кажутся неконфиденциальными, позже конфиденциальными. Поэтому не публикуйте какие-либо личные данные, в том числе уже открытые социальные сети, в составе газеты во время стихийного бедствия. Вместо этого подождите, пока пострадавшее население перестанет подвергаться риску, а затем обратитесь к специалистам по конфиденциальности, чтобы они помогли решить, что можно, а что нельзя делиться.

Даже для данных, которые считаются открытыми, повторная публикация этих данных может стать конфиденциальной, если вы повторно опубликуете их в новом контексте, а агрегированные данные (включая модели машинного обучения) могут стать более конфиденциальными, чем их отдельные точки данных.

Например, во время арабской весны я видел, как много людей писали в Твиттере о своих местных условиях: закрытых дорогах, беженцах и т.д. они не понимали, что сообщение о закрытии дорог также поможет нарисовать картину передвижения войск. В качестве примера того, чего нельзя делать, некоторые из этих твитов были скопированы на контролируемые ООН веб-сайты и повторно опубликованы без какого-либо механизма, позволяющего первоначальным авторам удалить их с сайтов ООН. Многие участники на Ближнем Востоке и в Северной Африке рассматривали ООН как негативное иностранное влияние (или захватчика), и поэтому люди, пишущие в Твиттере, рассматривались как соучастники - им было все равно, собирались ли эти люди делиться информацией только с небольшим количеством последователи.

Итак, вам нужно спросить себя: каков эффект от реконтекстуализации данных или модели, чтобы они теперь были опубликованы мной или моей организацией?

6. Реагирование на стихийные бедствия часто используется как прикрытие нарушений прав человека.

В то время как преступность обычно снижается в целом после стихийных бедствий, небольшое количество хищников и оппортунистов попытаются извлечь выгоду из хаоса. Это особенно верно в отношении деспотических правительств, которые используют бедствия как прикрытие, чтобы выявлять своих критиков и заставлять их замолчать.

Если вы являетесь рецензентом или исследователем, рассматривающим возможность исследования личной информации, включая этническую принадлежность, религию, пол или политические предпочтения, вам следует принять во внимание вариант использования и то, можно ли ее использовать для нарушений прав человека, особенно авторитарными режимами. В качестве ориентира взгляните на Индекс демократии, составленный Economist Intelligence Unit (EIU): https://en.wikipedia.org/wiki/Democracy_Index.

Они ранжируют страны и разделяют их на четыре группы: полные демократии, несовершенные демократии, гибридные режимы и авторитарные режимы. Это важно, потому что: независимые исследовательские институты не могут существовать при авторитарных режимах.

Если есть деликатные варианты использования, такие как выявление людей, которые жалуются на правительство в социальных сетях или выражают политические предпочтения, то исследованиям в этой области нельзя доверять. Это случается очень часто. В своей прошлогодней презентации на KDD я рассказываю о том, как страны использовали последнюю вспышку COVID (SARS-CoV-1) в качестве прикрытия для выявления диссидентов.

Исследователь, работающий на авторитарный режим, не независим от своего правительства точно так же, как исследователь в государственном учреждении в демократическом государстве не зависит от своего правительства. Проблема не в личности или национальности исследователя: проблема в его работодателе или спонсоре. Поэтому исследования, затрагивающие права человека и финансируемые авторитарными режимами, должны быть немедленно отклонены руководителями программ конференций по машинному обучению. Эти исследователи не обладают независимостью, чтобы предотвратить негативные варианты использования, независимо от их личных намерений.

Существует множество вариантов использования, которые могут помочь в реагировании на бедствия, и наиболее важные из них не требуют конфиденциальных данных: общие исследования языков с ограниченными ресурсами и извлечение информации из частично структурированных документов. Итак, ничто не мешает исследователю, рожденному в авторитарном режиме или выбравшему его нанять, участвовать в исследованиях машинного обучения реагирования на стихийные бедствия.

Обратите внимание, что страны с высоким индексом демократии по-прежнему могут нарушать права человека, поэтому это не дает бесплатного доступа к исследованиям в этих странах. Индекс демократии EIU в значительной степени ориентирован на внутренние факторы страны. Хорошим примером серой зоны для любой страны являются военные. Военные в мире также являются крупнейшими организациями по реагированию на стихийные бедствия, поэтому это требует сложных оценок, которые, как правило, приходится исследовать в каждом конкретном случае.

Некоторые случаи однозначно положительные. Например, в 2012 году небольшая группа из нас (невоенных специалистов по реагированию на стихийные бедствия) приняла участие в учениях, организованных Высшей военно-морской школой, где мы стремились найти более эффективные способы оценки ущерба на основе аэрофотоснимков после стихийного бедствия. Мы работали с Гражданским воздушным патрулем (входит в состав вооруженных сил США), которые летают над местами бедствия, чтобы делать снимки, и с FEMA (частью Министерства внутренней безопасности), которое использует оценки ущерба по этим снимкам, чтобы помочь с реагированием. Всего несколько месяцев спустя мы использовали наши новые методы, чтобы помочь отреагировать на ураган Сэнди. Нет никаких сомнений в том, что это было полностью положительно.

Однако, как я сказал в своем отчете о последствиях землетрясения на Гаити в 2010 году, возникла тревожная напряженность, потому что многие люди в Гаити видели в армии США бывших оккупантов. В других случаях, например, работая с ЮНИСЕФ для поддержки материнского здоровья в Западной Африке, мы предпочли не сотрудничать с какой-либо правительственной организацией США, потому что это будет восприниматься как недостаточная независимость при оказании помощи другим странам. Таким образом, независимо от работодателя исследователей, этика участия правительства должна рассматриваться в каждом конкретном случае для каждой статьи, особенно когда бедствие и лица, ответственные за реагирование, принадлежат к разным странам.

7. Не вступайте в партнерские отношения с неоперативными гуманитарными организациями.

Большинство международных организаций по развитию, которые обращаются за помощью к исследовательским учреждениям, на самом деле не занимаются реагированием на стихийные бедствия. Чтобы дать очень общее представление об индустрии помощи, вот диаграмма, показывающая, как многие гуманитарные организации работают в ответ на стихийные бедствия:

Если кто-то просит вас о помощи, как узнать, действительно ли он отвечает? Лучшая организация, которая может помочь, - это та, которая работает на местном уровне. Нужна ли помощь вашей местной больнице или продовольственному центру для беженцев? Начни с них.

Неоперационные организации, как правило, небольшие и используют стихийные бедствия как возможности для финансирования и рекламы. Ищите, чтобы они говорили о «партнерстве» с более крупными организациями, такими как ВОЗ, но нигде не говорили, что они «партнер-исполнитель». Как правило, это код, «не являющийся частью ответа». Если они обратятся к вам, скорее всего, вы являетесь продуктом, и они говорят потенциальным спонсорам что-то вроде «послушайте, у нас есть исследователи из известного университета, которые внедряют инновации для реагирования на стихийные бедствия».

У оперативных организаций, таких как УВКБ ООН, ЮНИСЕФ, Красный Крест, Врачи без границ, есть свои собственные группы технологических инноваций, поэтому нет необходимости сотрудничать с неоперативными организациями. Стимулы нефункциональных организаций не связаны с конфиденциальностью, поскольку они нуждаются в огласке, чтобы продолжать привлекать финансирование. В качестве примера посмотрите, как не действующая организация ООН редактировала видеоинтервью со мной после вспышки Эболы в Уганде в 2011 году: они отредактировали мое заявление о том, что требуется больше конфиденциальности, чтобы вместо этого сказать, что нам нужно less privacy, чтобы они могли получить доступ к этим данным:



Если нет агентств по оказанию оперативной помощи или партнеров-исполнителей, которые нуждаются в вашей помощи, я рекомендую изучить фундаментальные строительные блоки реагирования на стихийные бедствия, такие как поддержка языков с низким уровнем ресурсов и извлечение информации из частично структурированных документов.

Точно так же, как страны, в названии которых есть «Демократическая», как правило, не являются демократиями, аналогичное практическое правило применяется к организациям, имеющим в названии «Бедствие». Операционные организации названы в честь людей, которым они помогают, или услуг, которые они предоставляют: Médecins Sans Frontières, Всемирная организация здравоохранения, Детский фонд Организации Объединенных Наций и т. Д. Если в организации есть слова «Crisis», «Disaster» »Или« Гуманитарный »в своем названии, он, вероятно, не занимается реагированием на стихийные бедствия: никто не хочет получать помощь от организации, имя которой напоминает им об их травме, и эти организации названы так, чтобы максимизировать публичность и финансирование, а не реагировать.

8. Обработка данных в английских социальных сетях бесполезна для спасателей.

В более широком смысле мы знаем, что в НЛП результаты наших моделей только на английском языке редко говорят нам о том, насколько хорошо работают другие языки. Англоязычные страны, как правило, уже имеют наиболее хорошо финансируемые организации по реагированию на стихийные бедствия, так что это одна из областей, где неуместность английского языка усиливается.

Передовой практикой является использование социальных сетей в качестве трансляции для организаций, ответственных за реагирование на стихийные бедствия, для связи с затронутым кризисом населением, а открытые социальные сети не должны использоваться в качестве прямого канала связи. для населения, пострадавшего от стихийных бедствий. Этот вывод был сделан в сообществе по реагированию на стихийные бедствия после инцидентов в Ливии, упомянутых выше, реакции на наводнения в Пакистане в 2010 году, когда публично обсуждаемые лагеря помощи находились под угрозой со стороны террористов, и анализа реакции на Гаити, где было обнаружено, что, несмотря на многие средства массовой информации статьи, хвалящие социальные сети, открытые социальные сети не были существенным фактором в отклике.

Также существует пересекающаяся проблема с английским и авторитарным режимами. Репрессивные режимы часто нацелены на интеллектуалов, которых считают политическими оппонентами. Если говорить по-английски, это часто означает, что кто-то более образован и обращается к международной аудитории. Неспособность отреагировать на бедствие заставляет правительство выглядеть слабым, и это особенно обнажает авторитарного лидера, который ведет за собой, проецируя силу. Например, в 2013 году, когда тайфун Хайян обрушился на Филиппины, небольшое количество англоговорящих людей, критиковавших ответные меры, были расценены как находящиеся под угрозой репрессалий со стороны правительства. Поэтому мы решили, что неэтично когда-либо публиковать англоязычные данные социальных сетей в составе наборов данных о реагировании на стихийные бедствия.

Моя докторская степень продемонстрировала, насколько сложно адаптировать коммуникацию в английских социальных сетях к другим областям стихийных бедствий, что также было резюмировано для международного сообщества разработчиков в статье, написанной в соавторстве с моим научным руководителем Кристофером Мэннингом. Таким образом, нет оправдания тому, чтобы игнорировать это и проводить исследование только на английском языке с утверждением, что это помогает.

Если исследование предназначено не для специалистов по ликвидации последствий стихийных бедствий, а направлено на поддержку соответствующих специалистов, то есть более веский аргумент. Например, есть интересные исследования по использованию машинного обучения, чтобы помочь специалистам в области психического здоровья понять социальные реакции на стихийные бедствия на онлайн-форумах. Однако вы не можете кодировать информацию о здоровье людей непосредственно в Твиттере. Кодирование конфиденциальной информации, в том числе информации о состоянии здоровья, запрещено с 2018 года, и для ученых это также нарушает этический кодекс ACM.

9. Игнорируйте все, что связано с исследованиями «ISCRAM».

В каждом научном подразделе есть место, где отклоненные статьи принимаются псевдоанонимным набором исследователей, принимающих работы друг друга. Для машинного обучения, применяемого для реагирования на стихийные бедствия, это «Информационные системы для реагирования на кризисные ситуации и управления ими» (ISCRAM, произносится как «I-SCAM» теми из нас, кто действительно работает в сфере реагирования на стихийные бедствия).

В 2013 году я написал о «Лучшие конференции НЛП», используя в качестве примера исследования реагирования на стихийные бедствия:



В этой статье я отметил, что ISCRAM публикует статьи о мусорной науке, которые были отклонены ведущими конференциями по НЛП. Каждая опубликованная мною статья о реальных мерах по реагированию на стихийные бедствия была плагиатом примерно через год в ISCRAM в качестве «моделирования» бумажной фабрикой авторитарного режима в рамках их попыток обелить свои системы, которые на самом деле созданы для случаев использования, которые нарушают права человека.

Работам, основанным только на исследованиях, опубликованных ISCRAM, нельзя доверять, и их не следует принимать в основные научные центры.

10. При оценке воздействия применяйте принцип «Не навреди».

При оценке исследований в области машинного обучения следует применять принцип «Не навреди» из кругов медицины и реагирования на стихийные бедствия. Организации не стали бы внедрять вакцину, которая убила бы на 50% меньше людей, чем спасет, если бы убитые люди не умерли бы иначе. То же самое верно для большинства случаев использования личных данных, даже если они уже общедоступны: есть ли варианты использования, которые можно использовать, чтобы нанести вред людям, которым в противном случае не было бы вреда?

Исследователи машинного обучения не должны утверждать, что их исследования приносят чистую выгоду, которую они, вероятно, в любом случае не могут оценить. Если в исследовании есть явный негативный вариант использования, который может негативно повлиять на людей, которые в противном случае не пострадали бы, то эту статью следует отклонить по этическим соображениям.

С чего начать изучение машинного обучения для реагирования на стихийные бедствия?

Если вы хотите помочь в продолжающейся катастрофе и у вас нет опыта, помните, что у людей будет минимум времени на то, чтобы обучить вас во время стихийного бедствия. Не удивляйтесь, если ваш самый ценный навык связан с очисткой данных или другими навыками, которые не приведут к написанию исследовательских работ. Если вы обратились за помощью в больницу без какой-либо медицинской подготовки, не стоит жаловаться, если вам в руки возьмут швабру и ведро. То же относится и к реагированию на стихийные бедствия. См. Мою недавнюю статью KDNuggets для получения дополнительной информации о том, как вы можете помочь и чего избегать: 5 способов, которыми специалисты по данным могут помочь в ответ на COVID-19, и 5 действий, которых следует избегать.

Если у вас нет опыта и вы хотите поработать над чем-то, что можно опубликовать в научных учреждениях, рассмотрите варианты использования, такие как поддержка языков с ограниченными ресурсами и извлечение информации из частично структурированного текста. Эти варианты использования также могут помочь в других областях воздействия, таких как здравоохранение и окружающая среда. Таким образом, существует большое потенциальное воздействие с гораздо меньшей вероятностью непреднамеренного причинения вреда.