Типичным показателем разброса в наборе данных является дисперсия/стандартное отклонение (далее мы будем обсуждать только дисперсию, но для наших целей они взаимозаменяемы). Мы также можем сделать что-то вроде межквартильного диапазона.

И один из способов думать о дисперсии состоит в том, чтобы сказать, что при наличии набора данных, если бы мы попытались сделать на нем прогноз, который минимизирует сумму квадратов ошибок, мы бы выбрали среднее значение в качестве нашего ответа, а среднее значение — в качестве нашего ответа. ответ, сумма квадратов ошибок (деленная на количество точек данных) даст нам нашу дисперсию. Таким образом, в некотором смысле использование дисперсии в качестве меры разброса очень связано с суммированием квадратов ошибок и выбором центральной точки сразу без дополнительной информации.

Но во многих приложениях машинного обучения (таких как деревья решений) мы выбираем точку разделения, чтобы минимизировать сумму квадратов ошибок (иначе дисперсию). И здесь я возражаю против того, что мы сейчас делаем. Я думаю, что дисперсия — это хорошая конечная метрика, но я не думаю, что она хороша для промежуточных шагов, потому что она предполагает, что вы собираетесь выбрать точку прямо сейчас, но на промежуточных шагах мы этого не делаем. Обычно мы снова рекурсивно разбиваем это дерево.

Поэтому я предлагаю использовать теоретико-информационные подходы к деревьям регрессии (я знаю, что они используются для деревьев классификации, но я думаю, что мы можем адаптировать их и к регрессии).

Эту идею можно проиллюстрировать двумя распределениями вероятностей ниже. Первый имеет высокую дисперсию и низкую энтропию, а второй — более низкую дисперсию и более высокую энтропию. Так что, если бы это была моя последняя точка, в которой я должен был принять решение, я бы предпочел вторую, потому что я выбрал бы среднюю точку, и я был бы довольно близок к некоторым из них. Но! Если бы я не был на последнем шаге, и я мог бы снова разделить, я бы предпочел первое распределение, потому что я думаю, что было бы более вероятно, что я мог бы точно определить, что происходит с переменными.

Я думаю, что это важная идея, которая может быть мощной. Ключевая проблема, однако, заключается в том, что мы не можем использовать очевидное дискретное распространение энтропии на непрерывные переменные. Это ломает. Поэтому нам нужно найти какой-то другой способ сделать это. Мы могли бы использовать гистограммы или что-то в этом роде, но я не совсем уверен. Это то, что я пытаюсь выяснить, и другие люди делали вещи с непрерывными мерами энтропии распределения, но я не могу найти именно то, что нам нужно.