Расстояние может относиться к широкому спектру вещей, но на самом базовом уровне мы знаем по определению, что «Расстояние - это числовое измерение того, насколько далеко друг от друга находятся объекты или точки». В основном это мера расстояния между 2 или более точками. То, как мы измеряем пространство, зависит от нас, и в этом блоге я постараюсь дать общее представление обо всех широко используемых расстояниях в машинном обучении.

В области науки о данных многие из вас, возможно, слышали о печально известном алгоритме KNN. Алгоритм K-ближайшего соседа - очень простой алгоритм, используемый в основном для регрессии и классификации. проблемы. Однако результат алгоритма может сильно измениться в зависимости от используемых параметров расстояния. Алгоритмы KNN используют данные и классифицируют новые точки данных на основе показателей сходства (например, функции расстояния). Поэтому изучение расстояний необходимо для того, чтобы алгоритм работал в полной мере.

ЕВКЛИДОВО РАССТОЯНИЕ

Наиболее распространенное из всех расстояний, с которыми мы имеем дело, - это евклидово расстояние. Согласно определению из учебника, «евклидова метрика - это« обычное »прямолинейное расстояние между двумя точками в евклидовом пространстве. С этим расстоянием евклидово пространство становится метрическим пространством ». Однако давайте попробуем понять это получше. Это кратчайшее расстояние между двумя точками в пространстве, независимо от того, какое расстояние. измерений, выполняется евклидова формула расстояния. Мы используем знаменитую теорему Пифагора для вычисления кратчайшего между двумя точками.

Пример использования евклидова расстояния. Давайте рассмотрим пример схемы полета, когда мы летим из точки A в точку B. Мы выбираем наименьший маршрут между точкой A и точкой B, поскольку там нет движения или полос, и Евклидово расстояние дает наилучший возможный результат для этого.

РАССТОЯНИЕ МАНХЭТТЕНА

Согласно определению манхэттенского расстояния, «расстояние между двумя точками, измеренное по осям под прямым углом». Но, проще говоря, давайте подумаем об этом как о прямом варианте использования GPS. Это расстояние между точкой A и точкой B по осям.

почему MANHATTAN Distance? Это называется манхэттенским расстоянием, потому что это расстояние, на которое автомобиль может проехать в городе (например, Manhattan), где здания расположены квадратными блоками, а прямые улицы пересекаются под прямым углом.

МИНКОВСКОЕ РАССТОЯНИЕ

Расстояние Минковского - это расстояние / сходство между двумя точками в нормированном векторном пространстве (N-мерное реальное пространство ) и является обобщением всех расстояний, это очень полезное, а также интересное обобщение. Обобщение LP-norm полезно при определении расстояния, которое нужно использовать, в зависимости от P-значения. Допустим, при P = 1, то есть L1, мы получаем Манхэттенское расстояние. Снова при P = 2, то есть L2, мы получаем евклидово расстояние. Поэтому это обобщение полезно, чтобы помочь нам обозначить расстояние с изменением значения P в формуле, само расстояние изменяется.

РАССТОЯНИЕ

Расстояние Хэмминга - это показатель для сравнения двух строк двоичных данных. При сравнении двух двоичных строк одинаковой длины расстояние Хэмминга - это количество битовых позиций, в которых эти два бита различаются.

Расстояние Хэмминга между двумя строками a и b обозначается как d (a, b).

Основной вариант использования: он используется для обнаружения ошибок или исправления ошибок при передаче данных по компьютерным сетям.

Косинусное сходство и косинусное расстояние

Косинусное сходство - это мера сходства между двумя ненулевыми векторами внутреннего пространства продукта, измеряющая косинус угла между ними. Таким образом, это суждение о ориентации, а не о величине: два вектора с одинаковой ориентацией имеют косинусное сходство 1, два вектора ориентированы под углом 90 ° относительно друг друга, имеют подобие 0

Когда использовать косинусное сходство. Косинусное сходство обычно используется в качестве метрики для измерения расстояния, когда величина векторов не имеет значения. Это происходит, например, при работе с текстовыми данными, представленными в виде количества слов. Системы рекомендаций также являются хорошим вариантом использования косинусного сходства и расстояний.

ВЫВОД

В общем случае невозможно определить, какое расстояние является наилучшим из возможных. Некоторые меры намного лучше других с точки зрения оптимизации алгоритма, то есть выбор меры зависит от алгоритма, мы не можем сказать заранее, что является лучшим, если мы не выберем алгоритм или конкретный вариант использования для работы. Поэтому знание всех форм расстояний очень важно из-за его гибкости при обучении моделей машинному обучению.