3-недельное руководство для начинающих по Ace Data Science Interview: #Day 6

Статистические тесты для более глубокого понимания данных

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

В нашем предыдущем блоге Day5 мы сосредоточились на описательной статистике; в этом блоге мы увидим различные вопросы для интервью, связанные с концепциями логической статистики. С точки зрения интервью этот блог действительно важен, поскольку все концепции, подпадающие под логическую статистику, сложны.

Логическая статистика использует статистические модели, чтобы помочь вам сравнить данные вашей выборки с другими выборками или предыдущими исследованиями. В большинстве исследований используются статистические модели, называемые обобщенной линейной моделью, и они включают t-критерий Стьюдента, ANOVA (дисперсионный анализ), регрессионный анализ и различные другие модели, которые приводят к прямолинейным («линейным») вероятностям и результатам.

Вопрос 1. Когда использовать t-распределение и когда z-распределение?

Следующие условия должны быть выполнены для использования Z-распределения

Дисперсия населения известна.
Размер выборки › 30

В противном случае мы должны использовать t-распределение, т.е.

Дисперсия населения неизвестна.
Размер выборки ‹ 30

Вопрос 2. Что вы подразумеваете под степенью свободы?

DF определяется как количество вариантов, которые у нас есть

DF используется с t-распределением, а не с Z-распределением.

Для серии DF = n-1 (где n - количество наблюдений в серии)

Вопрос 3. Как влияет ширина доверительного интервала?

Доверительный интервал используется для принятия решений
По мере увеличения уровня достоверности ширина доверительного интервала также увеличивается.
По мере увеличения ширины доверительного интервала мы также получаем бесполезную информацию.
Бесполезная информация — широкий CI
Высокий риск — узкий ДИ

Вопрос 4. В чем разница между уровнем достоверности 95 % и уровнем достоверности 99 %?

Доверительный интервал увеличивается по мере того, как я перехожу от уровня достоверности 95% к уровню достоверности 99%.

Вопрос 5.Что такое H0 и H1? Что такое H0 и H1 для двустороннего теста?

H0 известен как нулевая гипотеза. Это обычный случай/случай по умолчанию.

Для одного хвостового теста x ‹= µ
Для двустороннего теста x = µ

H1 известна как альтернативная гипотеза. Это другой случай.

Для одного хвостового теста x › µ
Для двустороннего теста x ‹› µ

Вопрос 6.Что такое p-значение при проверке гипотез?

Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0

Если p-значение = 0,015 (критическое значение = 0,05) — убедительные доказательства
Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства

Если p-значение меньше критического значения, то мы отвергаем H0

Если p-значение = 0,055 (критическое значение = 0,05) — слабые доказательства
Если p-значение = 0,005 (критическое значение = 0,05) — убедительные доказательства

Вопрос 7. Что мы подразумеваем под принятием решения на основе сравнения p-значения с уровнем значимости?

Если p-значение больше, чем тогдашнее критическое значение, то мы не можем отклонить H0
Если p-значение меньше критического значения, то мы отвергаем H0

Вопрос 8. В чем разница между проверкой гипотез с одним и двумя хвостами?

2-хвостовой тест: критическая область находится по обе стороны распределения

H0: x = µ
H1: x <> µ

1-хвостовой тест: критическая область находится на одной стороне распределения

H1: x <= µ
H1: x > µ

Вопрос 9. Почему t-значение одинаково для 90 % двухвершинного и 95 % одновершинного тестов?

P-значение 1-хвостого = P-значение 2-хвостого / 2
Это потому, что в двух хвостах есть 2 критические области.

Вопрос 10. В чем разница между стандартным отклонением выборки и стандартным отклонением генеральной совокупности?

«Когда дела идут плохо, трудные идут вперед»

Вопрос 11. Какие бывают типы проверки гипотез?

Различают следующие виды проверки гипотез:

Т-критерий:Т-критерий используется, когда стандартное отклонение неизвестно, а размер выборки сравнительно мал (размер выборки ‹ 30).
Z-тест:Z-тест используется, когда известно стандартное отклонение и размер выборки большой (размер выборки>30).
Тест хи-квадрат на независимость. Эти тесты используются для определения значимости связи между категориальными переменными в выборке населения.
Дисперсионный анализ (ANOVA). Этот тип проверки гипотез используется для анализа различий между средними значениями в различных группах. Этот тест часто используется аналогично Т-тесту, но используется более чем для двух групп.

Примечание. И Т-критерий, и Z-критерий используются для проверки вопроса «Какова вероятность того, что две выборки взяты из одной и той же совокупности?».

Z-распределение (известная дисперсия и больший размер выборки)

t-распределение (неизвестная дисперсия и меньший размер выборки)

Вопрос 12. Что такое p-значение?

p-значение используется при проверке гипотез, чтобы помочь вам поддержать или отклонить нулевую гипотезу. p-значение — это свидетельство против нулевой гипотезы. Чем меньше p-значение, тем убедительнее доказательство того, что вам следует отвергнуть нулевую гипотезу.

Вопрос 13. Вы предоставили следующие данные о зарплате специалиста по обработке и анализу данных.

+--+------------------+
 |  | scientist salary |
 +--+------------------+
 |  | set              |
 |  | 17,313           | 
 |  | 04,002           |
 |  | 13,038           |
 |  | 01,936           |
 |  | 4,560            |
 |  | 13,136           |
 |  | 0,740            |
 |  | 00,536           |
 |  | 05,052           |
 |  | 7,201            |
 |  | 1,986            |
 |  | 4,868            |
 |  | 0,745            |
 |  | 02,848           |
 |  | 5,927            |
 |  | 12,276           |
 |  | 08,637           |
 |  | 6,818            |
 |  | 2,307            |
 |  | 14,564           |
 |  | 09,714           |
 |  | 08,833           |
 |  | 15,295           |
 |  | 9,279            |
 |  | 1,720            |
 |  | 9,344            |
 |  | 14,426           |
 |  | 0,410            |
 |  | 5,118            |
 |  | 13,382           |
 +--+------------------+

С информацией

Образец в среднем $ 100 200
Население стандартное $ 15,000

Найдите доверительный интервал для уровня значимости 95%.

Решение: для полного решения проверьте следующий лист

Вопрос 14. Вы предоставили следующие данные

 +-------------+
 |   Dataset   |
 +-------------+
 |  $ 78,000   |
 |  $ 90,000   |
 |  $ 75,000   |
 |  $ 117,000  |
 |  $ 105,000  |
 |  $ 96,000   |
 |  $ 89,500   |
 |  $ 102,300  |
 |  $ 80,000   |
 +-------------+

В среднем $ 92 533
Св. отклонение $ 13 932

Найдите доверительный интервал для уровня значимости 95%.

Решение. Чтобы найти полное решение, обратитесь к следующему листу помощи.

Вопрос 15. Объясните критерий хи-квадрат?

Критерий хи-квадрат используется для определения вероятности наблюдаемой частоты событий при заданной ожидаемой частоте.

Например: если мы подбрасываем монету 18 раз и наблюдаем, что она выпадает орлом 12 раз, можем ли мы сказать, что это происходит случайно, или мы предположили, что наша монета необъективна.

Просто можно выразить как:

Проще говоря, критерий хи-квадрат на соответствие используется для проверки того, отличается ли наблюдаемое частотное распределение от теоретического распределения или нет.

Вопрос 16.Производитель автомобилей считает, что из каждых 100 проданных автомобилей в среднем 25 белых, 20 серебристых, 15 черных и 40 других цветов, таких как синий, красный и зеленый. Чтобы проверить свое предположение, они собирают данные о 100 недавних продажах. Выполните тест хи-квадрат, чтобы определить, соответствуют ли наблюдаемые продажи ожиданиям производителя с уровнем достоверности 95%.

альфа=0,05, какой вывод можно сделать?

Вопрос 17:В игре "Камень-ножницы-бумага" Абхи рассчитывает выиграть, сравнять счет и проиграть с одинаковой частотой. Абхи часто играет R-P-S, но он подозревал, что его собственные игры не следуют этой схеме, поэтому он взял случайную выборку из 24 игр и записал их результаты. Вот его результаты.

# +============================+
# | Outcome | Win | Loss | Tie |
# +============================+
# | Games   |  4  |  13  | 7   |
# +----------------------------+

Он хочет использовать эти результаты для проведения теста хи-квадрат (доброты соответствия), чтобы определить распределение его результатов.

Выберите правильный вариант

(a) χ2=5.24 and 0.05 <p-value<0.01 | (b) χ2=21.875 and p-value <0.0005  
(c) χ2=5.25 and 0.15 <p-value<0.2  | (d) χ2=21.875 and 0.0005 <p-value < 0.001

Решение:

Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

Проверьте, что в День1, День2, День3, День4, День5

3-недельное руководство для начинающих по Ace Data Science Interview: #Day 6

Статистические тесты для более глубокого понимания данных

Вопросы по теме