Что такое «нестандартная» выборка в модели случайного леса?

Предположим, в нашем наборе данных есть N примеров (строк). Каждое дерево в нашем случайном лесу содержит выборку начальной загрузки набора данных, что означает набор из N выборок, случайно выбранных (с заменой) из набора данных. С заменой означает, что каждая случайная выборка выбирается из полного набора данных (т.е. перед выбором следующей выборки мы возвращаем только что выбранную выборку).

Теперь вероятность того, что конкретная выборка не будет выбрана в ходе одного случайного отбора из полного набора данных, равна (N − 1) / N. Таким образом, вероятность того, что образец не будет выбран в дереве, которое представляет собой загрузочную выборку, состоящую из N отрисовок, составляет (N − 1) / N) ^ N = (1−1 / N) ^ Н. В пределе больших N это выражение асимптотически приближается к 1 / e≈0,368.

Таким образом, 36,8% выборок в каждом дереве отсутствуют, то есть не включены, и поэтому могут использоваться для прогнозирования.