Когда большие данные становятся локальными, небольшие данные становятся большими

В более ранней статье Важность местоположения в недвижимости, погоде и машинном обучении обсуждались различные значения и применения обнаружения на основе местоположения в науке о данных и машинном обучении. Один из описанных здесь алгоритмов - это мощный, но странно названный алгоритм машинного обучения: машина опорных векторов (SVM).

В примечаниях ниже мы суммируем значение и полезность другого мощного, но странно названного алгоритма машинного обучения, который фокусируется на местоположении: Локальное линейное встраивание (LLE). LLE - это конкретный пример из общей категории Алгоритмы обучения многообразию. Самый известный пример многообразного обучения с помощью LLE - это швейцарский рулет с мармеладом (проиллюстрирован выше). Узнайте, как смоделировать этот случай с помощью scikit-learn here.

Общие примечания

Прежде чем мы конкретно рассмотрим LLE, вам может быть интересно, какой процент алгоритмов машинного обучения имеет такие странные имена, и вы были бы удивлены и / или удивлены, обнаружив, что у большинства из них есть такие названия, как быстрое прочтение заголовков статей в Об этом сообщает Journal of Machine Learning Research.

На самом деле, мы не невиновны в этом отношении - наша собственная работа по обнаружению новинок / выбросов / аномалий внесла свой вклад в мир эклектичных алгоритмов: KNN-DD = Распределения данных по K-ближайшим соседям. Вы даже можете найти в Интернете исследовательскую статью, которая сочетает в себе возможности комплексного вложения, развертывания и обнаружения границ LLE плюс SVM: Встраивание распространения: более гладкое многообразие для классификации по нескольким выстрелам.

KNN-DD: Распределения данных K-ближайшего соседа

В нашем алгоритме KNN-DD для обнаружения новизны, который мы предпочитаем называть неожиданным обнаружением, мы определяем неожиданность (или аномалию, или новизну) как точку, поведение которой (т. пространство размерных параметров нашего большого набора данных) неожиданным образом отклоняется от остальной части распределения данных - это удивительное расположение может побудить нас сказать: «Это забавно!» Такие сюрпризы могут быть самыми важными вещами в ваших данных, которые требуют вашего внимания. Как сказал Айзек Азимов: «Самая захватывающая фраза, которую можно услышать в науке, та, которая возвещает новые открытия, - это не« Эврика! "Но" Это смешно ... ".

Наш алгоритм оценивает локальное распределение данных вокруг тестовой точки данных и сравнивает это распределение с распределением данных между точками в пределах окружающей выборки, определяемой K ближайшими соседями этой точки данных (не включая эту точку данных). Поскольку алгоритм KNN-DD фокусируется только на локальных данных (уточненных из более крупного набора данных) в окрестности точки тестовых данных, то этот локальный подход к большим данным по существу дает возможность для больших неожиданных открытий из небольших данных.

LLE: локальное линейное встраивание

Локализация LLE выводит истинную глобальную структуру данных путем анализа локальных сегментов сложного гипермерного пространства данных. В некоторых случаях LLE может быть единственным способом раскрыть действительно сложные взаимозависимости и взаимосвязи в многомерных данных (как показано в примерах, показанных здесь).

LLE помогает нам решить конкретный тип проблемы, которая возникает, когда мы пытаемся построить прогнозные модели - в частности, неловкую ситуацию, в которой мы обнаруживаем, что очевидно один и тот же набор входных данных (независимых переменных) приводит к совершенно разным прогнозируемым выходным значениям зависимых Переменная. Математика называет это многозначной функцией. Чтобы понять, как это могло произойти, уделите некоторое время изучению приведенного ниже рисунка, который разворачивает (разворачивает) рулет из швейцарского желе, таким образом визуализируя решение и разрешая очевидное противоречие, подразумеваемое утверждением в начале этого абзаца.

Когда мы изучаем прогнозную модель f (x, y) из наших данных (например, из значений данных {x, y}), так что модель прогнозирует z = f (x, y), тогда эта модельная функция должна (надеюсь) предсказывать только одно выходное значение для z из одного набора входных {x, y} . Это то, что мы называем однозначной функцией. Однако это неверно в рассмотренных нами ранее примерах LLE. Почему? Поскольку эти распределения данных представляют собой многозначные функции: несколько различных значений z соответствуют одной и той же паре входных значений {x, y}. Это происходит просто потому, что на самом деле существует другая независимая переменная (еще одна особенность, которая может быть еще неизвестна, которая называется скрытой или скрытой переменной), которая соответствует положению вдоль естественной гиперплоскости (криволинейной поверхности или коллектора), которая удерживает точки данных.

LLE - это пример топологического подхода к исследовательскому анализу данных. Другой пример - анализ топологических данных (TDA). TDA используется компанией Ayasdi для анализа геометрически сложных наборов данных. Обнаружение и использование естественной формы распределения данных необходимо для эффективной аналитики и принятия решений на основе данных.

Итак, вкратце, как работает LLE? По сути, он исследует структурное распределение точек данных в очень локализованных регионах, чтобы найти естественные направления, в которых данные просачиваются от этого региона. Путь перколяции будет следовать естественной поверхности распределения данных и не будет перепрыгивать через промежутки (например, в вертикальном направлении на диаграмме LLE, ранее обсуждавшейся выше). (Примечание: Перколяция - это математическая концепция, которая фокусируется на обнаружении связи на больших расстояниях в больших системах, что определяется небольшими шагами через локальную структуру сети.)

Интересным аспектом процесса обучения многообразия (поверхности) (в LLE или TDA) является тот факт, что семантически правильная метрика расстояния между двумя точками данных - это расстояние вдоль многообразия (т.е. геодезическое расстояние вдоль поверхности данных). Правильное расстояние - это не видимое расстояние (евклидово расстояние) в координатном пространстве (x, y, z) измеренных объектов. Как видно на диаграмме ниже, вычисления расстояний и сходства могут быть совершенно неверными, если мы не принимаем во внимание «форму» нашего распределения данных.

Истинные взаимозависимости, ассоциации, тенденции и корреляции в нашем сборе данных прослеживаются с помощью многообразия (поверхности данных), полученного путем многократного обучения (в данном случае LLE). Следовательно, теоретически возможно, что две точки A и B, которые находятся прямо друг над другом в координатном пространстве (x, y, z), могут фактически находиться очень далеко друг от друга на естественной гиперповерхности пространство данных. Это означает, что любая метрика подобия, которая вычисляет сходство между этими двумя точками A и B, должна давать очень низкое значение сходства. Точно так же любая метрика расстояния между A и B должна показывать, что существует большое расстояние между A и B (в скрытом естественном координатном пространстве данных).

Поскольку показатели расстояния и / или сходства требуются практически во всех алгоритмах кластеризации машинного обучения, а также в некоторых алгоритмах классификации (например, K-ближайших соседей), обязательно обнаруживать естественную форму данных. для разработки и применения правильных и значимых показателей расстояния и сходства.

Резюме

В конце концов, сосредоточение внимания на очень маленьких локальных областях массивного гиперпространственного набора данных в конечном итоге позволяет назначить правильные кластеры, сегменты, категоризации и классификации точек данных. Это делает «небольшие данные» очень важными в таком сложном распределении данных.

Итак, когда мы получаем локальные данные с нашими большими данными, концентрируясь на поведении объектов в более мелких локализованных единицах, у нас есть потенциал для важных открытий из этих небольших подмножеств данных. Поэтому не отвлекайтесь на разговоры о масштабах больших данных. Вы можете работать с большими данными локально и получать большие результаты от небольших данных.

Наконец, в качестве дополнительного бонуса важно отметить, что малые данные и широкие данные (гиперпространственные данные) были включены Gartner в их Топ-10 тенденций в области данных и аналитики на 2021 год.

Следуйте за мной в Твиттере на @KirkDBorne

Узнайте больше о моем внештатном консалтинговом / обучающем бизнесе: ООО Data Leadership Group

Посмотрите, что мы делаем в AI-стартапе DataPrime.ai

Когда большие данные становятся локальными, небольшие данные становятся большими

Общие примечания

KNN-DD: Распределения данных K-ближайшего соседа

LLE: локальное линейное встраивание

Резюме

Вопросы по теме