Вы найдете здесь девять интересных тем, которые вы не изучите на уроках в колледже. У большинства из них есть интересные приложения в бизнесе и в других местах. Они не особенно сложные, и я объясняю их простым английским языком. Тем не менее, они не являются частью традиционной учебной программы по статистике, и даже многие специалисты по обработке данных со степенью доктора философии не слышали о некоторых из этих концепций.

В этой статье обсуждаются следующие темы:

  • Случайные блуждания в одном, двух и трех измерениях - с видео
  • Оценка выпуклой оболочки множества точек - Приложение к кластеризации и нефтяной промышленности
  • Ограниченная линейная регрессия в необычных областях - применение в пищевой промышленности
  • Робастные и масштабно-инвариантные дисперсии
  • Распределение времени наступления экстремальных явлений - Применение для прогнозов наводнений
  • Дистрибутивы Tweedie - многочисленные приложения
  • Среднее арифметико-геометрическое - Быстрые вычисления десятичных знаков числа Пи
  • Взвешенная версия алгоритма кластеризации K-NN
  • Многомерное экспоненциальное распределение и моделирование штормов

1. Случайные блуждания в одном, двух и трех измерениях

Это хорошо известная модель, используемая в качестве базового стохастического процесса для моделирования логарифма цен акций, но у нее есть интересные свойства (в зависимости от измерения), о которых мало кто знает. В одном измерении это описывается следующим образом: вы начинаете с 0 (по оси X) и на каждой итерации вы увеличиваете на +1 с вероятностью 0,5 и уменьшаете на +1 с вероятностью 0,5. В одном или двух измерениях вероятность того, что он вернется в любое предыдущее состояние в какой-то момент, равна единице. Но в трех измерениях дело обстоит иначе. Тем не менее, наиболее вероятное количество смен знака (пересечение оси X) во время прогулки равно 0, затем 1, затем 2 и т. Д. Моделируется время, проведенное над или под осью X (до пересечения). По закону арксинуса: пересечение оси X случается редко. Для самокорректирующихся случайных блужданий нажмите здесь. Ниже представлена ​​симуляция двумерного случайного блуждания; Видео снято на R.

2. Оценка выпуклой оболочки набора из n точек

В одном измерении это просто оценка интервала, когда точки равномерно распределены, с использованием минимального и максимального наблюдений и умножения наблюдаемой длины (max - min) на коэффициент (n +1) / нет, чтобы устранить предвзятость. В двух измерениях вычислить выпуклую оболочку легко, и снова вам нужно немного расширить форму, чтобы исправить смещение. Выпуклые оболочки используются в задачах кластеризации, где кластеры моделируются (возможно) перекрывающимися выпуклыми областями: это непараметрическая альтернатива алгоритмам кластеризации, основанным на распределении Гаусса.

Возможное применение - оценка формы нефтяного месторождения при рытье ряда испытательных скважин - некоторые в пределах (неизвестной) границы нефтяного месторождения, некоторые (как можно меньше) за пределами границы. Он также используется для оценки протяженности и формы подземной загрязненной территории: он использовался для определения того, пролились ли ядерные отходы из ядерной резервации Хэнфорд в реку Колумбия, расположенную в нескольких сотнях ярдов оттуда, и стало ли это хуже. время, измеряя уровни хрома в ряде скважин.

Как насчет разработки быстрого алгоритма для вычисления выпуклой оболочки набора точек в любом измерении? Это отличное упражнение для специалиста по данным, но сначала вам нужно проверить литературу о существующих алгоритмах. Я реализовал один, когда работал над диссертацией по вычислительной статистике.

Первый шаг к оценке этой сложной формы - это начать с выпуклой оболочки (щелкните здесь, чтобы узнать подробности)

3. Ограниченная линейная регрессия для необычных областей

Лассо и гребневая регрессия - популярные примеры ограниченной линейной регрессии: на коэффициенты регрессии накладываются ограничения, чтобы сделать ее более стабильной, например, коэффициент между зависимой и независимой переменной должен иметь тот же знак, что и корреляция между двумя переменными. обсуждаемый. Такие ограничения используются, например, в алгоритме HDT, который представляет собой процедуру дерева гибридной регрессии / псевдорешения.

В некоторых случаях ограничения продиктованы самой бизнес-проблемой. Например, если ответ зависит от смеси химических ингредиентов (подумайте о вкусе напитка - нравится он людям или нет), вес или пропорция каждого ингредиента является коэффициентом регрессии: все эти коэффициенты должны быть положительными или равными нулю. , и они должны составлять единицу. Это известно как линейная регрессия в симплексной области. Щелкните здесь, чтобы увидеть другие похожие задачи (регрессия по сфере и т. Д.)

4. Устойчивые и масштабно-инвариантные дисперсии

На традиционную дисперсию влияют ошибочные данные и выбросы, поэтому она не очень надежна. Я предложил новую дисперсию, которая является более устойчивой и всегда положительной, как и стандартная дисперсия. Положительность гарантируется неравенством Дженсена, и с математической точки зрения это показатель между версиями L¹ и L² классической дисперсии (L² дает классическую дисперсию). Подробности см. Здесь.

В настоящее время я работаю над масштабно-инвариантной дисперсией (также описанной в той же статье), и это действительно странный объект, хотя он полезен, когда дисперсия должна оставаться неизменной, независимо от того, измеряется ли ваша метрика в милях или километрах. Следующим шагом является разработка масштабно-инвариантных алгоритмов кластеризации, поскольку масштаб каждой переменной (единицы, используемые для измерения) иногда имеют большее влияние на результирующие кластеры, чем выбор самого алгоритма кластеризации.

"Нажмите здесь чтобы прочитать статью полностью".

Чтобы увидеть похожие статьи от того же автора, щелкните здесь или посетите www.VincentGranville.com. Следуйте за мной в Twitter: @GranvilleDSC или LinkedIn.