Исследователи Нью-Йоркского университета изобретают новую систему анализа данных в реальном времени для гуманитарных агентств

«Слишком много времени тратится на сбор данных, - объясняют докторант Нью-Йоркского университета Кин Фам и Джулиана Фрейре из CDS в своей статье, написанной в соавторстве, - и недостаточно времени тратится на то, чтобы разобраться в этом».

Как мы можем эффективно помочь нуждающимся? Трудная реальность, с которой сталкиваются гуманитарные учреждения, заключается в том, что они не могут немедленно справиться со всеми мировыми кризисами, особенно когда им мешают ограниченные финансовые и людские ресурсы. Вот почему они уделяют приоритетное внимание тому, на какие чрезвычайные ситуации они реагируют. Но процесс определения приоритетов, который включает в себя сбор, систематизацию и анализ огромных объемов вторичных данных, производимых государственными учреждениями, НПО и СМИ о каждом кризисе по всему миру, требует очень много времени и полагается исключительно на ручной человеческий труд.

Новая система адресного поиска информации, однако, направлена на автоматизацию этих задач для гуманитарных работников, чтобы они могли быстрее принимать решения о доставке помощи и реагировании на стихийные бедствия. Изобретено докторантом Нью-Йоркского университета Киеном Фамом и исследовательской группой, состоящей из Джулианы Фрейре, исполнительного директора Мура-Слоана Data Science Environment в Центре данных Нью-Йоркского университета. Science и экспертов из Исследовательского центра Томаса Дж. Ватсона IBM, новая система содержит четыре основных компонента: специализированный поисковый робот, экстрактор метаданных, классификатор контента и механизм обратной связи.

Поисковые роботы обычно стремятся охватить как можно больше страниц, но «специализированный поисковый робот», как объясняют исследователи, «представляет собой веб-сканер, оптимизированный для поиска веб-страниц, имеющих отношение к заранее определенным темам». А поскольку чрезвычайные ситуации имеют тенденцию быстро меняться, исследователи также разработали стратегию повторного сканирования в реальном времени в системе. Используя двоичный классификатор, поисковый робот затем классифицирует, являются ли определенные веб-страницы релевантными или нерелевантными для поисковой темы пользователя, и затем передает веб-страницы в средство извлечения метаданных.

Экстрактор концентрируется на извлечении текстовых данных этих веб-страниц. После выделения заголовка, содержания, даты публикации и упомянутых стран на соответствующих веб-страницах, которые передал сканер, классификатор контента анализирует и маркирует веб-страницы в соответствии с типом кризиса, который они описывают.

Поскольку эффективность системы зависит от точности классификатора контента, исследователи встроили в систему жизненно важный цикл обратной связи, который собирает отзывы пользователей, чтобы классификатор мог со временем улучшаться. «Это особенно увеличивает надежность классификатора страниц, - объясняют исследователи, - а также адаптивность поискового робота».

Недавно исследователи внедрили полностью рабочий прототип своей системы для экспертов по гуманитарным вопросам в рамках проекта Assessments Capacities Project (ACAPS), организации, которая поддерживает кризисных служб, предоставляя оценки и анализ потребностей.

Хотя еще предстоит проделать большую работу, чтобы адаптировать систему к конкретным потребностям предметной области, исследователи надеются, что она не только будет широко внедряться в гуманитарных агентствах в будущем, но также будет включать данные социальных сетей в свои процессы.

Черри Квок

Исследователи Нью-Йоркского университета изобретают новую систему анализа данных в реальном времени для гуманитарных агентств

Вопросы по теме