Статистические тесты для более глубокого понимания данных
О сериале
Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.
Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.
В нашем предыдущем блоге Day5 мы сосредоточились на описательной статистике; в этом блоге мы увидим различные вопросы для интервью, связанные с концепциями логической статистики. С точки зрения интервью этот блог действительно важен, поскольку все концепции, подпадающие под логическую статистику, сложны.
Логическая статистика использует статистические модели, чтобы помочь вам сравнить данные вашей выборки с другими выборками или предыдущими исследованиями. В большинстве исследований используются статистические модели, называемые обобщенной линейной моделью, и они включают t-критерий Стьюдента, ANOVA (дисперсионный анализ), регрессионный анализ и различные другие модели, которые приводят к прямолинейным («линейным») вероятностям и результатам.
Вопрос 1. Когда использовать t-распределение и когда z-распределение?
Следующие условия должны быть выполнены для использования Z-распределения
- Дисперсия населения известна.
- Размер выборки › 30
В противном случае мы должны использовать t-распределение, т.е.
- Дисперсия населения неизвестна.
- Размер выборки ‹ 30
Вопрос 2. Что вы подразумеваете под степенью свободы?
DF определяется как количество вариантов, которые у нас есть
DF используется с t-распределением, а не с Z-распределением.
Для серии DF = n-1 (где n - количество наблюдений в серии)
Вопрос 3. Как влияет ширина доверительного интервала?
- Доверительный интервал используется для принятия решений
- По мере увеличения уровня достоверности ширина доверительного интервала также увеличивается.
- По мере увеличения ширины доверительного интервала мы также получаем бесполезную информацию.
- Бесполезная информация — широкий CI
- Высокий риск — узкий ДИ
Вопрос 4. В чем разница между уровнем достоверности 95 % и уровнем достоверности 99 %?
Доверительный интервал увеличивается по мере того, как я перехожу от уровня достоверности 95% к уровню достоверности 99%.
Вопрос 5.Что такое H0 и H1? Что такое H0 и H1 для двустороннего теста?
H0 известен как нулевая гипотеза. Это обычный случай/случай по умолчанию.
- Для одного хвостового теста x ‹= µ
- Для двустороннего теста x = µ
H1 известна как альтернативная гипотеза. Это другой случай.
- Для одного хвостового теста x › µ
- Для двустороннего теста x ‹› µ
Вопрос 6.Что такое p-значение при проверке гипотез?
Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0
- Если p-значение = 0,015 (критическое значение = 0,05) — убедительные доказательства
- Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства
Если p-значение меньше критического значения, то мы отвергаем H0
- Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства
- Если p-значение = 0,005 (критическое значение = 0,05) — убедительные доказательства
Вопрос 7. Что мы подразумеваем под принятием решения на основе сравнения p-значения с уровнем значимости?
- Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0
- Если p-значение меньше критического значения, то мы отвергаем H0
Вопрос 8. В чем разница между проверкой гипотез с одним и двумя хвостами?
2-хвостовой тест: критическая область находится по обе стороны распределения
- H0: x = µ
- H1: x <> µ
1-хвостовой тест: критическая область находится на одной стороне распределения
- H1: x <= µ
- H1: x > µ
Вопрос 9. Почему t-значение одинаково для 90 % двухвершинного и 95 % одновершинного тестов?
- P-значение 1-хвостого = P-значение 2-хвостого / 2
- Это потому, что в двух хвостах есть 2 критические области.
Вопрос 10. В чем разница между стандартным отклонением выборки и стандартным отклонением генеральной совокупности?
«Когда дела идут плохо, трудные идут вперед»
Вопрос 11. Какие бывают типы проверки гипотез?
Различают следующие виды проверки гипотез:
- Т-критерий:Т-критерий используется, когда стандартное отклонение неизвестно, а размер выборки сравнительно мал (размер выборки ‹ 30).
- Z-тест:Z-тест используется, когда известно стандартное отклонение и размер выборки большой (размер выборки>30).
- Тест хи-квадрат на независимость. Эти тесты используются для определения значимости связи между категориальными переменными в выборке населения.
- Дисперсионный анализ (ANOVA). Этот тип проверки гипотез используется для анализа различий между средними значениями в различных группах. Этот тест часто используется аналогично Т-тесту, но используется более чем для двух групп.
Примечание. И Т-критерий, и Z-критерий используются для проверки вопроса «Какова вероятность того, что две выборки взяты из одной и той же совокупности?».
Z-распределение (известная дисперсия и больший размер выборки)
t-распределение (неизвестная дисперсия и меньший размер выборки)
Вопрос 12. Что такое p-значение?
p-значение используется при проверке гипотез, чтобы помочь вам поддержать или отклонить нулевую гипотезу. p-значение — это свидетельство против нулевой гипотезы. Чем меньше p-значение, тем убедительнее доказательство того, что вам следует отвергнуть нулевую гипотезу.
Вопрос 13. Вы предоставили следующие данные о зарплате специалиста по обработке и анализу данных.
+--+------------------+ | | scientist salary | +--+------------------+ | | set | | | 17,313 | | | 04,002 | | | 13,038 | | | 01,936 | | | 4,560 | | | 13,136 | | | 0,740 | | | 00,536 | | | 05,052 | | | 7,201 | | | 1,986 | | | 4,868 | | | 0,745 | | | 02,848 | | | 5,927 | | | 12,276 | | | 08,637 | | | 6,818 | | | 2,307 | | | 14,564 | | | 09,714 | | | 08,833 | | | 15,295 | | | 9,279 | | | 1,720 | | | 9,344 | | | 14,426 | | | 0,410 | | | 5,118 | | | 13,382 | +--+------------------+
С информацией
- Образец в среднем $ 100 200
- Население стандартное $ 15,000
Найдите доверительный интервал для уровня значимости 95%.
Решение: для полного решения проверьте следующий лист
Вопрос 14. Вы предоставили следующие данные
+-------------+ | Dataset | +-------------+ | $ 78,000 | | $ 90,000 | | $ 75,000 | | $ 117,000 | | $ 105,000 | | $ 96,000 | | $ 89,500 | | $ 102,300 | | $ 80,000 | +-------------+
- В среднем $ 92 533
- Св. отклонение $ 13 932
Найдите доверительный интервал для уровня значимости 95%.
Решение. Чтобы найти полное решение, обратитесь к следующему листу помощи.
Вопрос 15. Объясните критерий хи-квадрат?
Критерий хи-квадрат используется для определения вероятности наблюдаемой частоты событий при заданной ожидаемой частоте.
Например: если мы подбрасываем монету 18 раз и наблюдаем, что она выпадает орлом 12 раз, можем ли мы сказать, что это происходит случайно, или мы предположили, что наша монета необъективна.
Просто можно выразить как:
Проще говоря, критерий хи-квадрат на соответствие используется для проверки того, отличается ли наблюдаемое частотное распределение от теоретического распределения или нет.
Вопрос 16.Производитель автомобилей считает, что из каждых 100 проданных автомобилей в среднем 25 белых, 20 серебристых, 15 черных и 40 других цветов, таких как синий, красный и зеленый. Чтобы проверить свое предположение, они собирают данные о 100 недавних продажах. Выполните тест хи-квадрат, чтобы определить, соответствуют ли наблюдаемые продажи ожиданиям производителя с уровнем достоверности 95%.
альфа=0,05, какой вывод можно сделать?
Вопрос 17:В игре "Камень-ножницы-бумага" Абхи рассчитывает выиграть, сравнять счет и проиграть с одинаковой частотой. Абхи часто играет R-P-S, но он подозревал, что его собственные игры не следуют этой схеме, поэтому он взял случайную выборку из 24 игр и записал их результаты. Вот его результаты.
# +============================+ # | Outcome | Win | Loss | Tie | # +============================+ # | Games | 4 | 13 | 7 | # +----------------------------+
Он хочет использовать эти результаты для проведения теста хи-квадрат (доброты соответствия), чтобы определить распределение его результатов.
Выберите правильный вариант
(a) χ2=5.24 and 0.05 <p-value<0.01 | (b) χ2=21.875 and p-value <0.0005 (c) χ2=5.25 and 0.15 <p-value<0.2 | (d) χ2=21.875 and 0.0005 <p-value < 0.001
Решение:
Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.