ML: Проверка гипотез

Как специалисты по данным, мы должны знать, как правильно строить гипотезы и проверять их с помощью инструментов, которые мы изучаем. Этот пост поможет вам создать правильную и твердую гипотезу.

Минимальная длина описания (MDL)

Это простая концепция. Это означает, что если вы хотите построить точную модель, она будет иметь небольшие ошибки, но она также будет иметь сложность модели. Если вы хотите построить простую модель, она будет иметь высокие ошибки. Всегда сложность модели и точность модели являются компромиссом, потому что для построения точной модели требуется больше битов, а большее количество бит означает сложную модель. Наша цель - построить модель с небольшими ошибками, а не большую сложную модель. Это связано с бритвой Оккама.

Формирование гипотезы и доверительный интервал

Давайте подумаем о примере, когда мы пытаемся измерить рост учеников в двух разных средних школах, и мы знаем результат: средние значения составляют 175 см для школы A и 177 см для школы B. образец из каждой школы. Можете ли вы сказать, что ученики школы B выше учеников школы A? Нет. Мы не знаем. Как специалист по данным правильно отвечает на такие вопросы? Теперь я объясню, как мы ответим на него, шаг за шагом.

Самое первое, что нам нужно сделать, это построить нулевую гипотезу и альтернативную гипотезу. Нулевая гипотеза будет информацией, которую мы уже знаем или предыдущей теорией, а альтернативной гипотезой будет новая теория или информация, которую мы пытаемся узнать. Весь процесс предполагает, что нулевая гипотеза верна, и если мы находим крайний случай, который имеет действительно низкую вероятность и представляет альтернативную гипотезу, то мы отклоняем нулевую гипотезу и принимаем альтернативную гипотезу. Насколько экстремально нужно отвергнуть нулевую гипотезу? Статистики решают назвать это p-значением или вне доверительного интервала. Если статистика находится в доверительном интервале, значит, это может произойти при нулевой гипотезе. Следовательно, нам нужно сохранить нулевую гипотезу. Если нет, то мы отвергаем нулевую гипотезу.

Итак, нам нужно определиться с гипотезой и доверительным интервалом до экспериментов. Это очень важно, потому что вы можете заранее сделать вывод о своем результате и соответствовать своим данным, пожалуйста, не делайте этого. Обычно люди просят доверительный интервал 99%.

Эксперименты по сбору данных

Теперь у нас есть гипотеза и доверительный интервал. Мы должны разработать эксперимент, чтобы получить данные. Есть два типа экспериментов: эксперименты с манипуляциями и эксперименты по наблюдению. Эксперименты с манипуляциями - это типичные научные эксперименты для управления экспериментами и сравнения групп. Эксперименты по наблюдению обнаруживают связь между данными, и мы не контролируем эти данные или субъектов. Большая часть больших данных состоит из данных наблюдений, потому что их трудно контролировать.

Нам нужно решить, какая функция или показатель будет зависимой переменной, которая нас интересует. В первом примере это будет рост учащихся. Зависимой переменной может быть несколько. Нам также нужно определить независимую переменную, это может быть что угодно, связанное с нашими интересами. В нашем примере это может быть питание или генетическая информация учащихся. Существует третий тип переменных, посторонние переменные. Это влияет на зависимую переменную, но нас это не интересует. Следовательно, нам нужно это контролировать. В нашем случае это может быть время, потому что утром люди выше, чем вечером. Так что нам нужно установить время. Вам следует позаботиться об эффектах потолка, эффектах порядка и смещении выборки.

Предостережения: в большинстве случаев мы пропускаем эксперименты, потому что получили данные только от клиентов или другого репозитория.

Исследовательский анализ данных

Мы закончили эксперименты и получили данные. Прежде чем строить модель, нам нужно проанализировать сами данные, чтобы выяснить больше деталей в данных.

Кластеризация показывает, как данные группируются.
Биннинг и гистограмма, чтобы посмотреть, как распределяются данные.
Простая регрессия подходит для определения линейности.
Корреляционный анализ для исключения или изменения функций избыточности

Постройте модель и проверьте метрические или зависимые функции.

Эта часть действительно зависит от ваших экспериментов и EDA. Какую модель вы выберете, зависит от вас, и вы должны понимать, каков алгоритм внутри нее и его ограничения.

Проверка гипотез и оценка параметров

Цель состоит в том, чтобы проверить гипотезу, чтобы сделать вывод о производительности алгоритма на генеральной совокупности с помощью теста на выборочных данных. Правда в численности населения, но то, что мы получили, - это всего лишь образец из экспериментов. Тест на образце даст вам статистику, а у населения есть параметр. Нам нужно вывести параметр со статистикой с ошибкой прогноза. Среднее против среднего - это наиболее известный пример статистики и параметра. Какие факторы могут повлиять на эту ошибку прогноза:

Размер выборки, под моим контролем
Дисперсия основного распределения вне моего контроля

Мы можем провести сравнение показателей или характеристик тестирования алгоритмов, существует множество методов тестирования с доверительным интервалом, который мы уже определили выше. = ›Проверка гипотез
Мы можем оценить параметр с интервалом, представляющим степень уверенности в моей статистике. Истинный параметр будет лежать в этом интервале. = ›Оценка параметров

Пример

Сформулируйте нулевую гипотезу, H0: A = B, H1: A ‹B | A - это рост ученика в школе A, B - это рост ученика в школе B. Мы предполагаем, что мы знаем истинное значение B для простого объяснения. В = 176
Выполните выборку размера от N до A. Измерьте рост ученика в школе A и получите среднее значение A.
Предположите, что нулевая гипотеза (H0) верна, и оцените распределение среднего значения выборки.
Рассчитайте вероятность получения выборочного среднего при заданном H0.
P (среднее значение выборки | H0)
Если P (среднее значение выборки | H0) слишком низкое, отклоните H0 в пользу H1.

В следующем посте речь пойдет о конкретных методах тестирования.

Этот пост опубликован 8.09.2020