Эта статья предназначена для практиков, которые не обязательно являются статистиками или статистически подкованы. Математический уровень максимально упрощен, но я представляю оригинальный, простой подход к тестированию на случайность с интересным приложением для иллюстрации методологии. Этот материал обычно не обсуждается в учебниках или на занятиях (даже для студентов-статистиков), предлагая свежий взгляд и нестандартные инструменты, полезные во многих контекстах, в качестве дополнения или альтернативы традиционным тестам, которые широко распространены. использовал. Эта статья написана как учебник, но в последнем разделе также приводится интересный результат исследования. Пример, использованный в этом руководстве, показывает, как интуиция может быть ошибочной и зачем вам нужна наука о данных.

Главный вопрос, на который мы хотим ответить, заключается в следующем: происходят ли некоторые события случайным образом или существует механизм, благодаря которому события не происходят случайно? Каково распределение разрыва между двумя последовательными событиями одного типа? В непрерывном времени (процесс Пуассона) рассматриваемое распределение моделируется экспоненциальным распределением. В рассматриваемом здесь дискретном случае дискретный пуассоновский процесс оказывается цепью Маркова, и мы имеем дело с геометрическими, а не экспоненциальными распределениями. Проиллюстрируем это примером.

Пример

Считается, что цифры квадратного корня из двух (SQRT(2)) распределяются так, как если бы они встречались случайным образом. Каждая из 10 цифр 0, 1, …, 9 появляется с частотой 10% на основе наблюдений, и в любой позиции десятичной записи SQRT(2) в среднем следующая цифра не зависит от значения предыдущей цифры (короче говоря, ее значение непредсказуемо). Событие в этом контексте определяется, например, как цифра, равная, скажем, 3. Следующим событием является первый раз, когда мы находим последующую цифру также равно 3. Промежуток (или время, прошедшее) между двумя вхождениями одной и той же цифры — основная интересующая нас метрика, и она обозначается как G. Если бы цифры были распределены точно так же, как случайные числа, распределение промежутка G между двумя вхождениями одной и той же цифры было бы геометрическим.

Видите ли вы какую-либо закономерность в цифрах ниже? Прочтите полную статью здесь, чтобы найти ответ и узнать больше о мощном статистическом методе.