GeoSpark Analytics работает над тем, чтобы предоставлять своим пользователям данные и аналитику еще быстрее, используя Amazon Kinesis Data Analytics. Kinesis Data Analytics — это сервис, предоставляемый Amazon Web Services (AWS), который может непрерывно обрабатывать входящие потоковые данные в режиме реального времени с помощью настраиваемого SQL-запроса. Затем результаты передаются в выходной поток, который может быть прослушан другой службой, чтобы либо сохранить результаты в базе данных, либо запустить функцию Lambda для запуска события на основе результатов. По мере поступления новых данных эти аналитические запросы обновляются, чтобы включить новые данные, и обновленные значения доставляются в службу вывода за доли секунды.

Что такое Activity GRiD?

Hyperion Activity GRiD принимает посты в социальных сетях и источники новостей с геопространственными метками и распределяет их количество по географическим ячейкам. Он подсчитывает эти значения на основе «нормальной» активности в этой области с течением времени и превращает ячейку в КРАСНУЮ, когда в этой области наблюдается аномально высокая активность. Высокая активность часто указывает на значительное событие в этой области. Ознакомьтесь с некоторыми из других наших сообщений в блоге, чтобы убедиться в силе Activity GRiD в действии!

Знай все, что происходит где угодно, как это происходит

Activity GRiD предупреждает об изменении цен на нефть в Колумбии

Насколько Kinesis действительно улучшает Activity GRiD?

Много! Мы уже запускаем этот процесс для нашей GRiD в социальных сетях, поэтому у нас уже была возможность увидеть эти улучшения на практике. До того, как мы начали использовать Kinesis, мы запускали процесс каждые 15 минут. Этот процесс будет извлекать все данные с геотегами, которые мы собрали по всему миру за этот день, и объединять их итоги в более чем 8000 ячеек, а затем отправлять эти результаты в Elasticsearch. Нет необходимости обновлять большинство ячеек через регулярные промежутки времени, потому что они получают только несколько записей в день и не нуждаются в обновлении каждые 15 минут. Некоторые ячейки получают тысячи записей в день, и их нужно обновлять гораздо чаще. Переходя на Kinesis Analytics, мы не только предоставляем аналитику в режиме реального времени, но и обновляем только те ячейки, которые необходимо обновить, экономя время вычислений. Мы планируем очень скоро перевести нашу GRiD новостной активности на этот процесс.

Другие преимущества системы

Использование Kinesis Analytics принесет некоторые другие системные преимущества. Наш предыдущий метод регулярного сбора аналитики для всего мира был не только медленнее, но и вызывал резкие всплески использования памяти для нашего кластера Elasticsearch, за которыми следовал период низкого использования ресурсов. Перенеся часть аналитики в Kinesis, нам нужно обрабатывать более сложные аналитические данные только по нескольким ячейкам за раз. Это создаст гораздо более плавный поток использования в нашем кластере, что позволит нам эффективно масштабировать его в соответствии с нашими требованиями.

Проблемы и ограничения

К сожалению, мы не сможем сделать ВСЕ, что нам нужно для Activity GRiD, с помощью Kinesis Analytics. Есть пара ограничений, которые останавливают нас. Во-первых, Kinesis Analytics может хранить данные только за период до 7 дней, поэтому проведение аналитики по текущим оценкам в сравнении с оценками старше 7 дней невозможно. Чтобы обойти это, нам по-прежнему нужно запускать часть нашей аналитики через другую вычислительную службу с историческими значениями, хранящимися в другом месте. Во-вторых, мы будем ограничены аналитическими функциями, предоставляемыми SQL. В настоящее время это не проблема для нас, но по мере развития наших алгоритмов мы можем обнаружить, что это ограничивает возможности. Но эй, может быть, в будущем будет еще одна запись в блоге об этом испытании!

Каждая секунда на счету

Для наших пользователей на счету каждая секунда, и чем быстрее система сможет предупредить их об аномалиях, тем больше времени у них будет, чтобы отреагировать. GeoSpark Analytics продолжит улучшать Hyperion для предоставления расширенной аналитики, аналитических отчетов и своевременных предупреждений. Kinesis Analytics — это следующий шаг к реализации нашего видения. Для получения дополнительной информации о Hyperion и GRiD отправьте электронное письмо по адресу [email protected] и следите за нами в нашем блоге и LinkedIn, чтобы быть в курсе будущих улучшений!