Расстояние является ключевым показателем во многих алгоритмах машинного обучения. Мы используем расстояния как для контролируемых, так и для неконтролируемых техник. Примерами каждого из них являются алгоритмы KNN и K-Means.

В этой статье мы определим, зачем определять расстояние, и перейдем к тому, что такое метрика расстояния для нетехнической аудитории. Я также постараюсь привести достаточно примеров после определения свойств, которыми должна обладать метрика расстояния.

В будущих статьях я подробно расскажу о многих распространенных и некоторых необычных метриках расстояния, оценивая технические аспекты и свойства каждой из метрик.

PS: Это моя первая статья. Мы очень ценим все конструктивные отзывы.

Зачем определять и изучать расстояние?

(В конце концов, это довольно интуитивно, не так ли?)

Если вам даны две точки на одном листе бумаги, вы можете точно рассчитать расстояние, если у вас есть весы, и приблизительно оценить расстояние, если у вас их нет.

Однако, если вас попросят рассчитать расстояние между двумя улицами, вы можете поискать его в Google или дать оценку, что часто бывает ужасно неверным, если только вы не адаптированы к месту.

Идя дальше, если вас попросят найти расстояние между Чикаго и Токио, даже с помощью земного шара в масштабе, возникает вопрос, что означает расстояние? Я спрашиваю о расстоянии на земном шаре? Я спрашиваю расстояние на поверхности планеты? Это расстояние по маршруту самолета? и Т. Д.

Заметьте в последней гипотезе, что мы все еще имеем дело с трехмерным пространством и в конечном итоге запутались между множеством вариантов, которые мы знаем, и бог знает, сколько из них мы не знаем.

Определение расстояния в математических терминах помогает нам ответить на сложные вопросы во многих аспектах жизни и в различных областях науки.

Что такое Расстояние?

Метрика расстояния — это функция со следующими свойствами:

. Рефлексивность

. Неотрицательность

. Симметрия

. Неравенство треугольников

Мы углубимся в то, что это за свойства, в следующем разделе.

Также обратите внимание, что не все метрики расстояния следуют всем вышеперечисленным свойствам.

рефлексивность

Рефлексивность, а также Тождество Неразличимого, проще всего понять, поскольку она наиболее интуитивна. В какой-то момент кажется чрезмерным даже дать ему определение. Но потерпите меня пока. Мы узнаем, почему рефлексивность имеет значение, когда будем иметь дело с отдельными метриками расстояния.

Формально рефлексивность состоит в следующем:

Если две точки одинаковы, то расстояние между ними равно нулю.

и

Если расстояние между двумя точками равно нулю, они являются одной и той же точкой.

Математически это представляется следующим образом:

d(x, y) = 0 <=> x=y

для любых двух точек x и y в пространстве

Неотрицательность

Неотрицательность — это опять-таки интуитивное понятие, требующее формального определения. Однако это не всегда должно быть правдой. Например, во многих задачах по физике мы имеем дело с отрицательным расстоянием в зависимости от того, с чего начинаем отсчет. Или, в банковском деле, кредит — это отрицательная величина для банка в его чистой прибыли.

Для целей этой статьи и последующих статей о расстояниях расстояние рассматривается как расстояние, которое воображаемая точка должна пройти по линии (линиям) независимо от направления, в котором она движется.

Формально неотрицательное свойство выглядит следующим образом:

Любое расстояние между двумя точками не может быть отрицательным значением

Математически говоря, неотрицательным является следующее:

d(x, y) ≥ 0

для любых двух точек x и y в пространстве

Симметрия

Теперь мы входим в свойство, которое на первый взгляд кажется интуитивно понятным, но оно немного сложнее.

Рассмотрим расстояние между 1-м числом месяца и следующим 30-м числом. Это довольно очевидно, верно. 29 дней (если не считать 1-й). Но каково расстояние между 30-м числом месяца и следующим 1-м числом? Смотрите... мы получаем 1, 2 или даже undefined (в случае с февралем). Это случай асимметричного расстояния.

Итак, теперь, когда мы увидели, что не является симметрией, давайте попробуем определить, что же это такое.

Формально свойство симметрии расстояния говорит, что

Расстояние между двумя точками одинаково, независимо от того, как мы начинаем считать.

Математически говоря, то же самое представляется следующим образом:

d(x, y) = d(y, x)

для любых двух точек x и y в пространстве

Треугольник-неравенство

Некоторые из расстояний, которые мы рассмотрим в моих последующих статьях, не будут следовать этому свойству. Тем не менее, мы все равно пройдем через это, поскольку большинство будет следовать этому свойству, и оно кажется достаточно интуитивным, чтобы говорить о нем.

Формально неравенство треугольника утверждает следующее

Сумма расстояний между двумя линиями, проведенными из трех точек, не может быть больше, чем третья линия.

Учтите, что вам нужно рассчитать и оценить «расстояние» между следующими тремя наборами.

Набор 1: {1, 1, 1, 1}

Набор 2: {1, 2, 3, 4}

Набор 3: {0, 0, 0, 0}

Без какого-либо формального определения мы обычно видим, что набор 3 ближе к набору 1, чем к набору 2. Однако, если я определяю метрику расстояния, которая показывает, насколько непохожи числа в одном наборе по сравнению с другим, это становится немного сложнее. Давайте посмотрим, что

Допустим, наше определение расстояния (D) между двумя множествами — это разница в их средних значениях.

Легко заметить, что средние значения наборов равны (1, 2,5 и 0) соответственно.

Расстояние между

D(Набор 1, Набор 2) = 1,5

D(Набор 1, Набор 3) = 1

D(множество 2, множество 3) = 2,5

Здесь мы можем ясно видеть, что метрика расстояния, которую я определил ранее, не следует неравенству треугольника.

Хотя кто-то может возразить, что я намеренно сделал метрику не соответствующей свойству, совершенно очевидно, что, когда мы имеем дело с наборами или распределениями данных, возможно, что многие из используемых нами методов, т. е. усреднение, медиана, не следуйте неравенству треугольника.

Однако многие показатели, которые мы увидим в следующих статьях, следуют свойству неравенства треугольника. Математически говоря, это следующее,

d(x, y) + d(x, z) ≥ d(y, z)

Эти свойства пригодятся при сравнении различных широко используемых показателей расстояния. Кроме того, когда некоторые расстояния не соответствуют одному или нескольким из вышеупомянутых свойств, пользователь должен осознавать выбор и последствия их использования.

В следующей статье я расскажу о наиболее распространенной, известной и, возможно, одной из старейших метрик расстояния — евклидовом расстоянии.