1. Может ли это устройство Интернета вещей быть безопасным? Прогноз оценки риска для устройств Интернета вещей, использующих GradientBoosting Machines (arXiv)

Автор: Карлос А. Ривера Альварес, Араш Шагаги, Дэвид Д. Нгуен, Салил С. Канхере

Аннотация . Оценка и прогнозирование рисков безопасности имеют решающее значение для организаций, развертывающих устройства Интернета вещей (IoT). Абсолютным минимальным требованием для предприятий является проверка риска безопасности устройств IoT на наличие уязвимостей, о которых сообщают, в Национальной базе данных уязвимостей (NVD). В этой статье предлагается новое прогнозирование риска для устройств IoT на основе общедоступной информации о них. Наше решение предоставляет предприятиям любого размера простое и экономичное решение для прогнозирования рисков безопасности при развертывании новых устройств IoT. После обширного анализа записей NVD за последние восемь лет мы создали уникальный, систематизированный и сбалансированный набор данных для уязвимых устройств IoT, включая ключевые технические характеристики, дополненные функциональными и описательными функциями, доступными из общедоступных ресурсов. Затем мы используем модели классификации машинного обучения, такие как Gradient Boosting Decision Trees (GBDT), для этого набора данных и достигаем точности прогнозирования 71% при классификации степени серьезности оценки уязвимости устройства.

2. Вероятностные машины повышения градиента для крупномасштабной вероятностной регрессии (arXiv)

Автор:Оливье Спрангерс, Себастьян Шелтер, Мартен де Рийке

Вывод:Машины повышения градиента (GBM) очень популярны для решения задач с табличными данными. Однако практиков интересуют не только точечные прогнозы, но и вероятностные прогнозы для количественной оценки неопределенности прогнозов. Создание таких вероятностных прогнозов затруднено с помощью существующих решений на основе GBM: они либо требуют обучения нескольких моделей, либо становятся слишком затратными в вычислительном отношении, чтобы их можно было использовать для крупномасштабных настроек. Мы предлагаем вероятностные машины повышения градиента (PGBM), метод создания вероятностных прогнозов с помощью единого ансамбля деревьев решений эффективным с вычислительной точки зрения способом. PGBM аппроксимирует веса листьев в дереве решений как случайную величину и аппроксимирует среднее значение и дисперсию каждой выборки в наборе данных с помощью уравнений обновления ансамбля стохастических деревьев. Эти изученные моменты позволяют нам впоследствии выбирать образцы из указанного распределения после обучения. Мы эмпирически демонстрируем преимущества PGBM по сравнению с существующими современными методами: (i) PGBM позволяет проводить вероятностные оценки без ущерба для точечной производительности в одной модели, (ii) PGBM изучает вероятностные оценки только с помощью одной модели (и без многопараметрического повышения), и тем самым предлагает ускорение до нескольких порядков по сравнению с существующими современными методами на больших наборах данных, и (iii) PGBM обеспечивает точные вероятностные оценки в задачах со сложными дифференцируемыми функциями потерь. , такие как проблемы с иерархическими временными рядами, где мы наблюдали улучшение эффективности точечного прогнозирования до 10 % и улучшение эффективности вероятностного прогнозирования до 300 %.

3. Машина повышения градиента с частично рандомизированными деревьями решений (arXiv)

Автор : Андрей В. Константинов, Лев В. Уткин

Аннотация:Машина повышения градиента — это мощный метод машинного обучения на основе ансамбля для решения задач регрессии. Однако одной из трудностей его использования является возможный разрыв функции регрессии, который возникает, когда области обучающих данных не плотно покрыты обучающими точками. Чтобы преодолеть эту трудность и уменьшить вычислительную сложность машины повышения градиента, мы предлагаем применять частично рандомизированные деревья, которые можно рассматривать как частный случай чрезвычайно рандомизированных деревьев, применяемых для повышения градиента. Машина повышения градиента с частично рандомизированными деревьями проиллюстрирована множеством числовых примеров с использованием синтетических и реальных данных.

4. Рандомизированная машина повышения градиента (arXiv)

Автор:Хайхао Лу, Рахул Мазумдер

Аннотация:Gradient Boosting Machine (GBM), представленная Фридманом, представляет собой мощный алгоритм обучения с учителем, который очень широко используется на практике — он регулярно выступает в качестве ведущего алгоритма в соревнованиях по машинному обучению, таких как Kaggle и KDDCup. . Несмотря на практическую полезность GBM, наше текущее теоретическое понимание этого метода довольно ограничено. В этой работе мы предлагаем машину рандомизированного повышения градиента (RGBM), которая приводит к существенному выигрышу в вычислительных ресурсах по сравнению с GBM за счет использования схемы рандомизации для сокращения поиска в пространстве слабых учащихся. Мы получаем новые вычислительные гарантии для RGBM. Мы также предоставляем принципиальное руководство по лучшему выбору размера шага в RGBM, который не требует линейного поиска. Предлагаемая нами структура вдохновлена ​​особым вариантом спуска по координатам, который сочетает в себе преимущества случайного спуска по координатам и жадного спуска по координатам; и может представлять самостоятельный интерес как алгоритм оптимизации. Как частный случай, наши результаты для RGBM приводят к превосходным вычислительным гарантиям для GBM. Наши вычислительные гарантии зависят от любопытной геометрической величины, которую мы называем минимальным углом косинуса и которая связана с плотностью слабых учащихся в пространстве предсказаний. В серии численных экспериментов с реальными наборами данных мы демонстрируем эффективность RGBM по сравнению с GBM с точки зрения получения модели с хорошим обучением и / или проверки точности данных с небольшой долей вычислительных затрат.