Статистические тесты для более глубокого понимания данных

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

В нашем предыдущем блоге Day5 мы сосредоточились на описательной статистике; в этом блоге мы увидим различные вопросы для интервью, связанные с концепциями логической статистики. С точки зрения интервью этот блог действительно важен, поскольку все концепции, подпадающие под логическую статистику, сложны.

Логическая статистика использует статистические модели, чтобы помочь вам сравнить данные вашей выборки с другими выборками или предыдущими исследованиями. В большинстве исследований используются статистические модели, называемые обобщенной линейной моделью, и они включают t-критерий Стьюдента, ANOVA (дисперсионный анализ), регрессионный анализ и различные другие модели, которые приводят к прямолинейным («линейным») вероятностям и результатам.

Вопрос 1. Когда использовать t-распределение и когда z-распределение?

Следующие условия должны быть выполнены для использования Z-распределения

  • Дисперсия населения известна.
  • Размер выборки › 30

В противном случае мы должны использовать t-распределение, т.е.

  • Дисперсия населения неизвестна.
  • Размер выборки ‹ 30

Вопрос 2. Что вы подразумеваете под степенью свободы?

DF определяется как количество вариантов, которые у нас есть

DF используется с t-распределением, а не с Z-распределением.

Для серии DF = n-1 (где n - количество наблюдений в серии)

Вопрос 3. Как влияет ширина доверительного интервала?

  • Доверительный интервал используется для принятия решений
  • По мере увеличения уровня достоверности ширина доверительного интервала также увеличивается.
  • По мере увеличения ширины доверительного интервала мы также получаем бесполезную информацию.
  • Бесполезная информация — широкий CI
  • Высокий риск — узкий ДИ

Вопрос 4. В чем разница между уровнем достоверности 95 % и уровнем достоверности 99 %?

Доверительный интервал увеличивается по мере того, как я перехожу от уровня достоверности 95% к уровню достоверности 99%.

Вопрос 5.Что такое H0 и H1? Что такое H0 и H1 для двустороннего теста?

H0 известен как нулевая гипотеза. Это обычный случай/случай по умолчанию.

  • Для одного хвостового теста x ‹= µ
  • Для двустороннего теста x = µ

H1 известна как альтернативная гипотеза. Это другой случай.

  • Для одного хвостового теста x › µ
  • Для двустороннего теста x ‹› µ

Вопрос 6.Что такое p-значение при проверке гипотез?

Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0

  • Если p-значение = 0,015 (критическое значение = 0,05) — убедительные доказательства
  • Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства

Если p-значение меньше критического значения, то мы отвергаем H0

  • Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства
  • Если p-значение = 0,005 (критическое значение = 0,05) — убедительные доказательства

Вопрос 7. Что мы подразумеваем под принятием решения на основе сравнения p-значения с уровнем значимости?

  • Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0
  • Если p-значение меньше критического значения, то мы отвергаем H0

Вопрос 8. В чем разница между проверкой гипотез с одним и двумя хвостами?

2-хвостовой тест: критическая область находится по обе стороны распределения

  • H0: x = µ
  • H1: x <> µ

1-хвостовой тест: критическая область находится на одной стороне распределения

  • H1: x <= µ
  • H1: x > µ

Вопрос 9. Почему t-значение одинаково для 90 % двухвершинного и 95 % одновершинного тестов?

  • P-значение 1-хвостого = P-значение 2-хвостого / 2
  • Это потому, что в двух хвостах есть 2 критические области.

Вопрос 10. В чем разница между стандартным отклонением выборки и стандартным отклонением генеральной совокупности?

«Когда дела идут плохо, трудные идут вперед»

Вопрос 11. Какие бывают типы проверки гипотез?

Различают следующие виды проверки гипотез:

  • Т-критерий:Т-критерий используется, когда стандартное отклонение неизвестно, а размер выборки сравнительно мал (размер выборки ‹ 30).
  • Z-тест:Z-тест используется, когда известно стандартное отклонение и размер выборки большой (размер выборки>30).
  • Тест хи-квадрат на независимость. Эти тесты используются для определения значимости связи между категориальными переменными в выборке населения.
  • Дисперсионный анализ (ANOVA). Этот тип проверки гипотез используется для анализа различий между средними значениями в различных группах. Этот тест часто используется аналогично Т-тесту, но используется более чем для двух групп.

Примечание. И Т-критерий, и Z-критерий используются для проверки вопроса «Какова вероятность того, что две выборки взяты из одной и той же совокупности?».

Z-распределение (известная дисперсия и больший размер выборки)

t-распределение (неизвестная дисперсия и меньший размер выборки)

Вопрос 12. Что такое p-значение?

p-значение используется при проверке гипотез, чтобы помочь вам поддержать или отклонить нулевую гипотезу. p-значение — это свидетельство против нулевой гипотезы. Чем меньше p-значение, тем убедительнее доказательство того, что вам следует отвергнуть нулевую гипотезу.

Вопрос 13. Вы предоставили следующие данные о зарплате специалиста по обработке и анализу данных.

+--+------------------+
 |  | scientist salary |
 +--+------------------+
 |  | set              |
 |  | 17,313           | 
 |  | 04,002           |
 |  | 13,038           |
 |  | 01,936           |
 |  | 4,560            |
 |  | 13,136           |
 |  | 0,740            |
 |  | 00,536           |
 |  | 05,052           |
 |  | 7,201            |
 |  | 1,986            |
 |  | 4,868            |
 |  | 0,745            |
 |  | 02,848           |
 |  | 5,927            |
 |  | 12,276           |
 |  | 08,637           |
 |  | 6,818            |
 |  | 2,307            |
 |  | 14,564           |
 |  | 09,714           |
 |  | 08,833           |
 |  | 15,295           |
 |  | 9,279            |
 |  | 1,720            |
 |  | 9,344            |
 |  | 14,426           |
 |  | 0,410            |
 |  | 5,118            |
 |  | 13,382           |
 +--+------------------+

С информацией

  • Образец в среднем $ 100 200
  • Население стандартное $ 15,000

Найдите доверительный интервал для уровня значимости 95%.

Решение: для полного решения проверьте следующий лист

Вопрос 14. Вы предоставили следующие данные

 +-------------+
 |   Dataset   |
 +-------------+
 |  $ 78,000   |
 |  $ 90,000   |
 |  $ 75,000   |
 |  $ 117,000  |
 |  $ 105,000  |
 |  $ 96,000   |
 |  $ 89,500   |
 |  $ 102,300  |
 |  $ 80,000   |
 +-------------+
  • В среднем $ 92 533
  • Св. отклонение $ 13 932

Найдите доверительный интервал для уровня значимости 95%.

Решение. Чтобы найти полное решение, обратитесь к следующему листу помощи.

Вопрос 15. Объясните критерий хи-квадрат?

Критерий хи-квадрат используется для определения вероятности наблюдаемой частоты событий при заданной ожидаемой частоте.

Например: если мы подбрасываем монету 18 раз и наблюдаем, что она выпадает орлом 12 раз, можем ли мы сказать, что это происходит случайно, или мы предположили, что наша монета необъективна.

Просто можно выразить как:

Проще говоря, критерий хи-квадрат на соответствие используется для проверки того, отличается ли наблюдаемое частотное распределение от теоретического распределения или нет.

Вопрос 16.Производитель автомобилей считает, что из каждых 100 проданных автомобилей в среднем 25 белых, 20 серебристых, 15 черных и 40 других цветов, таких как синий, красный и зеленый. Чтобы проверить свое предположение, они собирают данные о 100 недавних продажах. Выполните тест хи-квадрат, чтобы определить, соответствуют ли наблюдаемые продажи ожиданиям производителя с уровнем достоверности 95%.

альфа=0,05, какой вывод можно сделать?

Вопрос 17:В игре "Камень-ножницы-бумага" Абхи рассчитывает выиграть, сравнять счет и проиграть с одинаковой частотой. Абхи часто играет R-P-S, но он подозревал, что его собственные игры не следуют этой схеме, поэтому он взял случайную выборку из 24 игр и записал их результаты. Вот его результаты.

# +============================+
# | Outcome | Win | Loss | Tie |
# +============================+
# | Games   |  4  |  13  | 7   |
# +----------------------------+

Он хочет использовать эти результаты для проведения теста хи-квадрат (доброты соответствия), чтобы определить распределение его результатов.

Выберите правильный вариант

(a) χ2=5.24 and 0.05 <p-value<0.01 | (b) χ2=21.875 and p-value <0.0005  
(c) χ2=5.25 and 0.15 <p-value<0.2  | (d) χ2=21.875 and 0.0005 <p-value < 0.001 

Решение:

Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

Проверьте, что в День1, День2, День3, День4, День5