Авторы: Сяотун Лю, Рама Аккирадж

После улучшений Log Anomaly Detection в предыдущем выпуске Cloud Pak для Watson AIOps (см. подробности здесь) мы еще больше расширили эту функцию, добавив дополнительные функции, описанные ниже.

Улучшение обучения

В IBM Cloud Pak® для Watson AIOps 3.3 мы добавили новую поддержку для пользователей, чтобы они могли выбирать подходящие обучающие данные и исключать данные из любых периодов инцидентов с более тонкой степенью контроля, чем целые дни. Например, теперь модели можно обучать на данных в течение одного дня с одним или несколькими окнами аномалий. Или по данным менее чем за сутки, но охватывающие два дня с окнами аномалий в каждом дне. Или на данных, включая несколько дней, начинающихся и заканчивающихся в определенное время с окнами аномалий в несколько дней. Нормальные или ненормальные окна могут быть указаны с точностью до дней, часов и минут.

Мы также сделали ход обучения более прозрачным, обеспечив обратный вызов состояния во время предварительной проверки, обучения и пост-проверки в серверной части, поэтому остановившиеся задания можно отменить раньше и перезапустить с лучшими критериями.

Уменьшение числа ложных срабатываний

Чтобы избежать шума в ChatOps или веб-консоли, мы улучшили конвейеры журнала аномалий за счет:

  1. Улучшенное изучение функций для моделей естественного языка. «Универсальные шаблоны» были сокращены за счет оптимизированного алгоритма обучения шаблонов Drain для создания более разнообразных шаблонов. Количество неизвестных шаблонов во время обучения модели логарифмической аномалии также было уменьшено за счет улучшенного алгоритма нечеткой кластеризации с сопоставлением нескольких регулярных выражений.
  2. Улучшенная обработка журналов. Добавлена ​​расширенная функция обработки журналов для анализа специальных форматов журналов с гибкими параметрами, такими как сведение объектов JSON в журналах путем удаления открывающих и закрывающих фигурных скобок или извлечения и фильтрации объектов JSON в журналах.
  3. Улучшенное принятие решений по оповещению. Ложные срабатывания, вызванные проблемами с границами, идентифицировались и подавлялись с помощью расширенного ожидаемого диапазона в детекторе логарифмических аномалий.
  4. Настройка статистической модели в реальном времени. Порог достоверности был настроен так, чтобы сделать модель RSM-Embedding менее болтливой, чем в предыдущем выпуске, что помогло уменьшить количество ложных срабатываний при высоких уровнях серьезности.
  5. Человек в петле. Теперь пользователи могут контролировать, что отправляется в качестве инцидента в SRE из предупреждений, обнаруженных конвейером аномалий журнала, с помощью определяемых пользователем политик.

Скоро

Одним из ключевых отличий IBM Cloud Pak® для Watson AIOps являются возможности искусственного интеллекта. Вот несколько направлений, которые мы намерены удвоить в следующих версиях IBM Cloud Pak® для Watson AIOps:

  • Масштабируйте конвейер вывода аномалий журналов для обработки очень больших объемов журналов клиентов.
  • Сделайте оповещения об аномалиях в журналах более объяснимыми, понятными и действенными.
  • Улучшите взаимодействие с пользователем для готовых журналов WebSphere.
  • Оптимизируйте время окупаемости моделей Log Anomaly Detection с помощью автоматического выбора обучающих данных.
  • Включите обнаружение аномалий журнала для большего количества языков.
  • Оптимизируйте наш конвейер для обеспечения высокой доступности, резервного копирования и восстановления.
  • Предоставьте пользователям возможность продвигать оповещения об инцидентах на основе определенной критичности группы ресурсов или приложения.