Социальные сети приносят пользу спутниковым системам оповещения благодаря обработке естественного языка

Представьте себе спутник, вращающийся вокруг земного шара, незаметно делающий снимки земных океанов и городов, чтобы охватить весь мир, часто менее чем за час. Сейчас почти 2000 спутников работают в таком темпе, обеспечивая изображения с более высоким разрешением и большей скоростью, чем когда-либо прежде. По мере того, как данные из космоса становятся все более разнообразными, а спутниковые снимки становятся коммерчески доступными, начинают появляться новые приложения — от 3D-картографирования для предотвращения лесных пожаров до реагирования на стихийные бедствия в реальном времени. Но есть одна проблема. Когда небольшие сбои случаются без предупреждения, как спутник узнает, где искать? Социальные сети имеют к этому какое-то отношение.

На пересечении человеческого языка и передовых технологий находится обработка естественного языка (NLP), подразделение машинного обучения, которое работает с «неструктурированными данными», более известными в данном случае как человеческий язык. Проще говоря, НЛП — это процесс обучения алгоритма понимать текстовые данные — часто поступающие из Твиттера или других новостных потоков — и придавать им смысл.

Обработка естественного языка связана с данными, которые понятны людям, но не машинам. Итак, мы должны начать с человеческого представления этой концепции и перенести ее в математическую вселенную, где она что-то значит для машины. Если два предложения имеют одинаковое значение, но не имеют общего слова, как заставить машину понять, что они означают одно и то же? Другими словами, вы пытаетесь создать пространство, в котором разные предложения с одним и тем же значением кодируются одинаково, — пояснил Data Scientist Vincent Chabot.

В Kayrros специалисты по данным создают алгоритмы НЛП для очистки, категоризации и обнаружения последних новостей в режиме реального времени — часто поступающих из Твиттера — предоставляя спутникам на орбите точку соединения с землей. Самая большая проблема? Алгоритмы обучения для изучения всех языков, на которых говорят в энергетической отрасли… крупнейшей отрасли в мире.

«Возьмем, к примеру, энергетику. По всему миру разбросаны бесчисленные отраслевые активы, заполненные людьми, общающимися на разных языках. При обучении алгоритма, во-первых, возникает языковой барьер. Затем у вас есть синтаксис; даже в рамках одного и того же языка существует множество способов передать одно и то же сообщение», — отметил специалист по обработке и анализу данных Матье Маццолини.

Kayrros использует НЛП для получения ранней информации о возникающих сбоях в поставках и спросе на энергию, отслеживая первоначальные данные, которые могут позволить командам анализировать влияние событий по мере их развития. Прежде чем новости попадают на рынки, первые признаки сбоев — например, взрыв — появляются в лентах социальных сетей, когда люди в окрестностях слышат взрыв или видят дым. Быть первым, кто узнает информацию о мероприятии, позволяет Kayrros предоставлять клиентам информацию о рынке раньше, чем рынок.

«Спутники могут показывать наиболее точную информацию, но только тогда, когда вы знаете, где искать — каналы Twitter подскажут, где искать. Обычно, если взрывается большое промышленное предприятие, кто-то поблизости пишет в Твиттере, что «завод рядом с местом, где я работаю, только что взорвался», и мы можем отследить это в режиме реального времени», — добавил Матье.

Помимо направления объектива спутника, новости, собранные из социальных сетей, также содержат информацию о спутниковых снимках и других количественных или альтернативных данных, которые не были бы очевидны при анализе самих данных.

«Это привносит контекст в данные. Если вы просто видите временную серию спутниковых изображений, вы можете не понять окружающий их контекст. Но если вы разместите это рядом с соответствующими событиями в новостях, вы сможете понять данные, полученные из изображений. Контекст — это то, о чем нельзя догадаться, просто взглянув на количественные данные», — объяснил Матье.

Kayrros продолжает развивать свои запатентованные технологии, используя геопространственные данные для обеспечения прозрачности операций мировой энергетической отрасли, а также используя возможности применения аналогичных методов в других областях. Обработка естественного языка добавляет ценный уровень к мониторингу в реальном времени, связывая технологии, алгоритмы и наблюдение Земли с людьми на земле.