Термин «метрики расстояния» имеет множество определений среди специалистов по математике, статистике и машинному обучению. В результате эти термины, понятия и их использование вышли далеко за рамки. Метрики расстояния очень важны в машинном обучении для принятия правильного решения на основе данных. Выбор хорошей метрики расстояния важен для признания сходства между содержимым. Этот мой блог посвящен различным типам расстояний и их использованию в машинном обучении.

1. Расстояние Минковского:

Чтобы определить расстояние Минковского, нам нужно выучить некоторые математические термины. К ним относятся следующие:

  • Векторное пространство:оно представляет собой набор объектов, называемых векторами, которые можно складывать вместе и умножать на числа (также называемые скалярами).
  • Норма.Норма – это функция, которая присваивает строго положительную длину каждому вектору в векторном пространстве (единственным исключением является нулевой вектор, длина которого равна нулю). Обычно он представляется как ∥x∥.
  • Нормированное векторное пространство:этовекторное пространство над действительными или комплексными числами, для которых определена норма.

Расстояние Минковского определяется как метрика подобия между двумя точками в нормированном векторном пространстве. Оно представлено формулой

Он также представляет собой обобщенную метрику, включающую евклидово и манхэттенское расстояние. Мы можем манипулировать значением p и вычислять расстояние тремя различными способами, которые также известны как форма Lp.

  • p = 1, манхэттенское расстояние
  • p = 2, евклидово расстояние
  • p = ∞, расстояние Чебычева

Где он используется?

Расстояние Минковского часто используется, когда интересующие переменные измеряются на шкалах отношений с абсолютным нулевым значением.

2. Евклидово расстояние:

Когда мы говорим о расстояниях, мы в основном думаем о них как о более или менее прямой линии. Если мы думаем о перелете из одного города в другой, мы думаем о том, сколько километров мы должны пролететь на самолете. Эти примеры расстояний, которые мы могут придумать примеры евклидова расстояния. По сути, он измеряет длину сегмента, соединяющего две точки.

Помните теорему Пифагора на уроках математики?

Теорема Пифагора дает это расстояние между двумя точками. Мы можем получить уравнение для евклидова расстояния, подставив p=2 в формулу расстояния Минковского. Его также называют нормой L2.

Есть некоторые ситуации, когда евклидово расстояние не может дать нам правильную метрику. В этих случаях нам нужно использовать функции расстояния, упомянутые ниже.

3. Манхэттенское расстояние:

Допустим, мы хотим рассчитать расстояние между двумя кварталами в городе. На этот раз мы рассчитаем расстояние по пути, похожему на сетку, который представляет собой различные кварталы города.

Предположим, мы хотим проехать из блока А в блок Б в городе. Расстояние, пройденное от блока А до блока В, называется манхэттенским расстоянием.

Мы можем получить уравнение для манхэттенского расстояния, если подставим p=1 в формулу расстояния Минковского. Его также называют нормой L1.

Манхэттенское расстояние также известно как геометрия такси, расстояние городского квартала и т. д.

Где используется евклидово и манхэттенское расстояние?

Манхэттенское и евклидово расстояния используются в задачах регрессии и классификации. Но евклидово расстояние плохо работает для данных большой размерности. Это происходит из-за того, что известно как «проклятие размерности». Проклятие размерности относится к различным явлениям, возникающим при анализе и организации данных в многомерных пространствах (часто с сотнями или тысячами измерений), которые не возникают в низкоразмерных условиях, таких как трехмерное физическое пространство повседневного опыта. В многомерных данных предпочтение отдается манхэттенскому расстоянию. Кроме того, если вы вычисляете ошибки, Манхэттенское расстояние полезно, когда вы хотите выделить выбросы из-за его линейного характера.

4. Расстояние Хэмминга:

Расстояние Хэмминга — это метрика для сравнения двух строк двоичных данных. При сравнении двух двоичных строк одинаковой длины расстояние Хэмминга — это количество битовых позиций, в которых два бита различны. Расстояние Хэмминга между двумя строками a и b обозначается как d (a, b).

Вычисление расстояния Хэмминга:

Чтобы вычислить расстояние Хэмминга между двумя строками, мы выполняем их операцию XOR (a ⊕ b), а затем подсчитываем общее количество единиц в результирующей строке.

Предположим, есть две строки 1101 1001 и 1001 1101.

11011001 ⊕ 10011101 = 01000100. Поскольку это число содержит две единицы, расстояние Хэмминга d(11011001, 10011101) = 2.

Использование расстояния Хэмминга:

Расстояние Хэмминга используется для исправления ошибок ближайших соседей. Коррекция ошибок ближайшего соседа включает в себя сначала определяющие кодовые слова, обычно обозначаемые как C, которые известны как источнику, так и приемнику. После идентификации неправильного кодового слова ближайший сосед вычисляет расстояние Хэмминга между ним и каждым кодовым словом, содержащимся в C. Кодовое слово с наименьшим расстоянием Хэмминга имеет наибольшую вероятность быть правильным.

5. Косинусное расстояние и косинусное сходство:

Чтобы определить, насколько похожи два документа или объект любого типа, мы используем косинусное сходство. Чтобы его вычислить, нам нужно измерить косинус угла между двумя векторами. Косинусное расстояние и Косинусное сходство обратно пропорциональны друг другу. Если косинусное расстояние увеличивается, косинусное сходство уменьшается, и наоборот. Следовательно, две точки, расположенные близко друг к другу, обладают такими же свойствами, как и точки, находящиеся далеко друг от друга.

Подобие косинуса =cosθ

Косинусное расстояние =1-cosθ.

На приведенном выше рисунке угол, образованный двумя линиями A и B, равен 45°. Следовательно, косинусное сходство составляет cos 45°, что приблизительно равно 0,53, что означает, что точки похожи на 53 %. косинусное расстояние будет (1–0,53), что равно 0,47. Значение косинусного подобия должно находиться в диапазоне от -1 до +1.

Где используются косинусное расстояние и косинусное сходство?

Косинусное расстояние и косинусное сходство используются в рекомендательных системах.

Давайте рассмотрим систему рекомендаций фильмов. Возьмем жанр «экшн» по оси X и жанр «комедия» по оси Y, возьмем два фильма, таких как «Мстители», которые подпадают под жанр «боевик», а другой, скажем, «Гадкий я», относящийся к жанру «комедия». Таким образом, мы можем нанести точки, учитывая названия фильмов, как (0,1) и (1,0) соответственно. Точка (0,1) означает, что фильм не столько боевик, сколько комедия. Таким образом, сходство двух точек равно 0, что означает cos 90°. Поэтому система рекомендаций по фильмам не порекомендует любителям фильмов жанра «комедия» фильм жанра «боевик».

Точно так же, если мы возьмем такие фильмы, как «Гадкий я» и «История игрушек» по оси Y с координатами (0,0,9) и (0,1), угол между ними равен 0 °, что означает косинусное сходство будет 1 ( cos 0°). Поэтому система порекомендует пользователю посмотреть «Гадкий я», если он уже смотрел «Историю игрушек».

Вывод:

В конце этого блога мы узнали о различных показателях расстояния и их использовании в машинном обучении. Надеюсь, это будет полезно для людей, которые занимаются машинным обучением/наукой о данных.

Спасибо за чтение:)

.