1. Гибридная модель кригинга-случайного леса для прогнозирования свойств грунта в режиме реального времени при прокладке щитового туннеля с балансировкой давления грунта (arXiv)

Автор: Цзыхэн Гэн, Чао Чжан, Юхао Жэнь, Миньсян Чжу, Жэньпэн Чен, Хунчжан Чэн.

Аннотация: Разработана гибридная модель кригинга и случайного леса для прогнозирования свойств грунта в режиме реального времени перед щитом, сбалансированным по давлению грунта, путем интеграции экстраполяции кригинга и случайного леса, которые могут направлять выбор рабочих параметров щита, тем самым снижая риски строительства. Предлагаемый алгоритм KRF объединяет два типа информации: априорную информацию и информацию в реальном времени. Ранее предсказанные свойства грунта с рабочими параметрами EPB экстраполируются с помощью алгоритма Кригинга, чтобы предоставить предварительную информацию для прогнозирования свойств грунта, извлекаемых в настоящее время. Информация в реальном времени относится к рабочим параметрам экрана EPB в реальном времени, которые вводятся в случайный лес для обеспечения прогнозирования свойств грунта в реальном времени. Интеграция этих двух прогнозов достигается путем присвоения весов каждому прогнозу в соответствии с их неопределенностями, что обеспечивает прогноз KRF с минимальной неопределенностью. Производительность алгоритма KRF оценивается на примере проекта 4-й линии метро в Чанша. Это показывает, что предложенный алгоритм KRF может предсказывать свойства грунта с точностью 93%, превосходя существующие алгоритмы LightGBM, AdaBoost-CART и DNN на 29%, 8% и 12% соответственно. Другой набор данных из проекта Shenzhen Metro Line 13 используется для дальнейшей оценки эффективности обобщения модели, показывая, что модель может передавать полученные знания из одного региона в другой с точностью 89%.

2. Гетерогенный косой двойной случайный лес (arXiv)

Автор: М. А. Ганайе, М. Танвир, И. Бехешти, Н. Ахмад, П. Н. Сугантан

Аннотация: Ансамбли деревьев решений используют одну функцию данных в каждом узле для разделения данных. Однако такое разделение может не отразить геометрические свойства данных. Таким образом, наклонные деревья решений генерируют наклонную гиперплоскость для разделения данных в каждом нелистовом узле. Наклонные деревья решений фиксируют геометрические свойства данных и, следовательно, демонстрируют лучшее обобщение. Производительность наклонных деревьев решений зависит от способа генерации наклонных гиперплоскостей и данных, используемых для генерации этих гиперплоскостей. Недавно в классификаторе гетерогенного случайного леса (RaF) использовалось несколько классификаторов, однако он не может генерировать деревья нужной глубины. Кроме того, двойные исследования RaF показали, что более крупные деревья могут быть созданы путем начальной загрузки данных в каждом нелистовом узле и разделения исходных данных вместо недавно загруженных данных. В исследовании неоднородного RaF отсутствует создание более крупных деревьев, в то время как модель, основанная на двойном RaF, не может учитывать геометрические характеристики данных. Для устранения этих недостатков мы предлагаем гетерогенный косой двойной RaF. Предлагаемая модель использует несколько линейных классификаторов в каждом нелистовом узле загруженных данных и разбивает исходные данные на основе оптимального линейного классификатора. Оптимальная гиперплоскость соответствует моделям, основанным на оптимизированном примесном критерии. Экспериментальный анализ показывает, что производительность введенного гетерогенного двойного случайного леса сравнительно выше, чем у базовых моделей. Чтобы продемонстрировать эффективность предложенного гетерогенного двойного случайного леса, мы использовали его для диагностики болезни шизофрении. Предложенная модель более точно предсказывала заболевание по сравнению с базовыми моделями.