«Понимание концепции графиков Q-Q».

В статистике графики Q-Q (квантиль-квантиль) играют очень важную роль для графического анализа и сравнения двух распределений вероятностей путем построения их квантилей относительно друг друга. Если два сравниваемых распределения точно равны, то точки на графике Q-Q будут идеально лежать на прямой y = x.

Нарисуйте график, нарисуйте линию, скажите мне, если вы думаете, что это нормально! - Джош Стармер

Да, это так просто. Будучи специалистом по обработке данных или статистиком в целом, для вас очень важно знать, является ли распределение нормальным или нет, чтобы применять различные статистические меры к данным и интерпретировать их в гораздо более понятной для человека визуализации, и там появляется график QQ. картина. Самый фундаментальный вопрос, на который отвечает график Q-Q:

Нормально ли распределена эта кривая?

Распространяется нормально, но почему?

Графики QQ используются для определения типа распределения для случайной величины, будь то распределение по Гауссу, равномерное распределение, экспоненциальное распределение или даже распределение Парето и т. Д. Тип распределения можно определить, используя сила графика QQ, просто взглянув на график. В общем, мы говорим о нормальных распределениях только потому, что у нас есть очень красивая концепция правила 68–95–99.7, которое идеально вписывается в нормальное распределение. Итак, мы знаем какая часть данных находится в диапазоне первого стандартного отклонения, второго стандартного отклонения и третьего стандартного отклонения от среднего значения. Таким образом, знание того, является ли распределение нормальным, открывает нам новые возможности для легкого экспериментирования с данными. Во-вторых, Нормальное Распределение очень часто встречается в большинстве природных явлений, имеющих обширный диапазон.

Как это работает?

Мы строим теоретические квантили или в основном известные как стандартная нормальная переменная (нормальное распределение со средним значением = 0 и стандартным отклонением = 1) по оси x и упорядоченные значения для случайной величины, которые мы хотим определить, является ли она распределенной по Гауссу. или нет, по оси ординат. Это дает очень красивую и гладкую структуру, напоминающую прямую линию, из каждой точки, нанесенной на график.

Теперь нам нужно сосредоточиться на концах прямой. Если точки на концах кривой, образованной из точек, не падают на прямую линию, а действительно значительно разбросаны по позициям, то мы не можем заключить взаимосвязь между осями x и y, которая ясно означает, что наши упорядоченные значения, которые мы хотели для расчета Нормально не распространяются.

Если все точки, нанесенные на график, идеально лежат на прямой линии, то мы можем четко сказать, что это распределение является нормальным распределением, потому что оно равномерно выровнено со стандартной нормальной вариацией, которая является простой концепцией графика Q-Q.

Искаженные графики Q-Q

Графики Q-Q также используются для определения асимметрии (меры асимметрии) распределения. Когда мы наносим теоретические квантили на ось x, а выборочные квантили, распределение которых мы хотим знать, на оси y, мы видим очень своеобразную форму графика нормально распределенного Q-Q для асимметрии. Если нижний конец графика QQ отклоняется от прямой, а верхний - нет, то мы можем четко сказать, что распределение имеет более длинный хвост слева или просто оно смещено влево ( или отрицательно смещен), но когда мы видим, что верхний конец графика QQ отклоняется от прямой линии, а нижний и следует по прямой линии, тогда кривая имеет более длинную до вправо, и он наклонен вправо (или наклонен положительно).

Хвостатые графики Q-Q

Точно так же мы можем говорить о эксцессе (показателе хвостовости) распределения, просто глядя на его график Q-Q. Распределение с толстым хвостом будет иметь оба конца графика QQ, чтобы отклоняться от прямой линии, а его центр следует за прямой линией, тогда как распределение с тонким хвостом будет формировать график QQ с очень меньшим или незначительным отклонением на концах. что делает его идеальным для нормального распределения.

Сколько данных нам нужно?

Обратите внимание, что когда точки данных намного меньше, график QQ не работает очень точно и не дает окончательного ответа, но когда у нас есть достаточное количество точек данных, а затем мы строим график QQ с использованием большого набора данных, он дает нам важен результат, чтобы сделать вывод о типе распределения.

Реализация графиков Q-Q на Python

Вот простая реализация построения графика Q-Q на Python.

Еще одна реализация графика Q-Q с использованием библиотеки Scipy.

Узнайте больше о графиках Q-Q

Я определенно рекомендую вам пойти и проверить страницу Википедия с графиком Q-Q, где есть очень красивое объяснение всей концепции математики, лежащей в основе этого, что было бы довольно ошеломляющим в этой вводной статье. Также посмотрите видео на YouTube от Josh Starmer, которое демонстрирует концепцию в хорошей наглядной манере.

Еще статьи о Data Science от Парас Варшней:







Надеюсь, вы узнали что-то новое из этого чтения!

Эта статья изначально была опубликована на Medium 15 апреля 2020 г.

Загрузите Блокнот Jupyter реализации сюжета Q-Q.

Я веду блоги на темы Data Science и Machine Learning. Если хотите выпить со мной кофе, подпишитесь на меня на Medium и подключите меня к LinkedIn.

Спасибо!