Функция плотности вероятности (PDF) — это функция плотности, использующая метод оценки плотности ядра, который позволяет нам понять плотность точки данных в определенном диапазоне.

Например: если у нас есть одна переменная в наборе данных и мы должны выполнить одномерный анализ, особенно для числовой переменной, мы используем гистограмму. Гистограмма – это график, на котором мы делим наблюдения на интервалы и вычисляем количество частот в интервалах поверх него. Мы наносим подсчет частоты по оси Y и бины по оси X, как показано на рисунке ниже.

Как показано на рисунке выше, вы можете видеть, что плотность точки выше в центре графика и меньше в хвостовой области.

Теперь давайте рассмотрим сценарий, в котором мы вычисляем длину лепестков из наиболее широко используемого набора данных по радужной оболочке, сохраняя вместе другие переменные, такие как ширина чашелистика, длина чашелистика.

Теперь, если мы хотим написать фрагмент кода, который создает различие между этими тремя цветами (Iris-setosa, Iris-versicolor, Iris-virginica). При использовании гистограммы мы столкнемся с одной проблемой. Давайте посмотрим на это.

Глядя на рисунок выше, можно сделать вывод, что если PL›2, то это Iris-setosa. Для Iris-versicolor и Iris-virginica точки данных перекрываются друг с другом. Поскольку оба цветка находятся в одном регионе, мы не сможем точно рассчитать для этих двух цветов. Эту проблему перекрытия можно решить с помощью Функции распределения вероятностей (PDF).

Здесь PDF поможет вам сделать некоторые обоснованные предположения.

Теперь, если мы посчитаем, что PL› 4 и PL ‹5 — это Iris-versicolor, мы можем ошибиться, так как некоторая часть Iris-virginica также существует в том же регионе. Итак, здесь мы будем рассматривать точку, из которой выше вероятность того, что правая часть будет Iris-virginica, и вероятность левой стороны будет Iris-versicolor. Хотя все же мы можем получить какой-то неточный случай, когда некоторые точки данных iris-virginica лежат под левой боковой областью, но вероятность этого будет очень меньше. Тогда, учитывая PL ‹ 4.7, мы можем сказать, что цветок ирисово-разноцветный, иначе цветок ирисово-виргинский.

Заключение

Используя функцию плотности вероятности, мы получаем более обоснованное предположение, и это увеличивает вероятность получения точных результатов.

Спасибо за прочтение!
Если вам понравилась эта статья, ставьте аплодисменты :)