Распространенные заблуждения в области науки о данных: разоблачение мифов

В постоянно развивающейся области науки о данных дезинформация и заблуждения могут легко затуманить наше понимание фундаментальных концепций. Хотя платформы социальных сетей, такие как LinkedIn и YouTube, предлагают отличное пространство для обмена идеями, крайне важно обеспечить точность и достоверность распространяемой информации. В этом сообщении блога мы рассматриваем некоторые распространенные заблуждения в науке о данных, проливая свет на их неточности и предлагая более четкую точку зрения.

1. Заблуждения о P-значении

Заблуждение: «значение p – это вероятность того, что нулевая гипотеза окажется верной», «низкое значение p означает хорошую воспроизводимость результатов», «низкое значение p означает, что что-то важно», «низкое значение p означает, что что-то важно». p означает, что эффект велик».

Объяснение. Эти заблуждения связаны с неправильной интерпретацией значений p, которые широко используются при проверке гипотез.

1. P-значение и нулевая гипотеза. P-значение — это вероятность наблюдения данных, столь же экстремальных, как наблюдаемые данные, или более экстремальных, чем наблюдаемые данные, при предположении, что нулевая гипотеза верна. Он не обеспечивает вероятность того, что нулевая гипотеза окажется истинной или ложной. Он количественно определяет силу доказательств против нулевой гипотезы, но не указывает напрямую на истинность или ложность самой нулевой гипотезы.

2. Воспроизводимость и важность. Низкое значение p по своей сути не означает, что результаты воспроизводимы или что результаты важны. Воспроизводимость зависит от факторов, выходящих за рамки статистической значимости, таких как дизайн исследования, размер выборки и качество измерений. Точно так же важность определяется размером эффекта и практической значимостью, а не только значением p.

3. Размер эффекта. P-значения не несут информации о величине эффекта. Низкое значение p может указывать на статистическую значимость, но оно не дает представления о том, насколько существенным или практически значимым является наблюдаемый эффект.

2. Уточнение центральной предельной теоремы (ЦПТ).

Заблуждение: «CLT утверждает, что чем больше у вас данных, тем больше обычно распределяются ваши выборочные данные».

Объяснение. Центральная предельная теорема – это фундаментальная концепция статистики, которая касается распределения выборочных средних или сумм.

CLT и распределение выборки: CLT не утверждает, что отдельные наблюдения становятся нормально распределенными по мере увеличения размера выборки. Вместо этого он утверждает, что распределение выборочных средних или сумм генеральной совокупности имеет тенденцию следовать нормальному распределению, независимо от первоначального распределения генеральной совокупности. Этот принцип справедлив при выполнении определенных допущений, включая случайную выборку и конечную дисперсию.
Неправильное понимание цели. Неправильное представление неверно интерпретирует роль CLT. Он не преобразует распределения данных в нормальные распределения; скорее, это объясняет, почему распределение средних значений выборки имеет тенденцию быть нормальным, что имеет практические последствия для статистики, основанной на выводах.

3. Неверное понимание Т-теста

Заблуждение: «выберите t-критерий, если CLT верен».

Объяснение: Это заблуждение возникает из-за неправильного понимания проверки гипотез и роли центральной предельной теоремы.

Проверка гипотез. Выбор t-критерия зависит от характера данных и вопроса исследования, а не только от CLT. CLT — это основополагающая статистическая концепция, которая гарантирует, что t-распределение приближается к нормальному распределению по мере увеличения размера выборки. Однако выбор t-теста предполагает оценку характеристик данных, предположений и целей исследования.
Предположения и пригодность: CLT всегда верен, если его предположения выполняются. Тем не менее, допущения t-критерия выходят за рамки CLT и включают независимость, нормальность и однородность дисперсий. Оценка этих предположений необходима для получения достоверных статистических выводов.

4. Деконструкция логистической регрессии

Заблуждение: «логистическая регрессия – это не регрессия».

Объяснение: Это заблуждение возникает из-за неправильного понимания терминологии и универсального характера логистической регрессии.

Регрессия против классификации. Логистическая регрессия — это метод регрессии. Несмотря на свое название, он используется для моделирования взаимосвязей между переменными-предикторами и логарифмическими шансами двоичного результата. Это делает его методом регрессии, хотя он обычно используется для задач классификации.
Обобщенные линейные модели (GLM): Логистическая регрессия — это тип GLM, который включает в себя различные методы регрессии, включая линейную регрессию, регрессию Пуассона и логистическую регрессию. GLM расширяют традиционные модели регрессии для обработки различных типов переменных ответа и распределений.

5. Рассмотрение предположений в линейной регрессии и за ее пределами

Заблуждение. Неправильная интерпретация допущений в линейной регрессии, смешанных моделях и базовых тестах.

Пояснение. Неправильное понимание предположений модели может привести к ошибочному анализу и интерпретации.

Предположения и достоверность модели. Предположения модели не являются произвольными; они имеют решающее значение для обоснованных интерпретаций и выводов. Линейная регрессия, смешанные модели и базовые тесты имеют определенные предположения, которые должны быть выполнены, чтобы результаты были надежными.
Аналогия с древними богами Рима. Упоминание о сохранении неправильных убеждений подчеркивает важность развенчания заблуждений. Постоянное игнорирование или неправильное понимание предположений может подорвать целостность анализа и результатов исследований.

В сфере науки о данных исправление этих заблуждений жизненно важно для обеспечения точного понимания и принятия обоснованных решений. Разъясняя эти концепции, мы можем внести свой вклад в создание более точного и эффективного сообщества специалистов по обработке и анализу данных.

** **

Удачи!

Свяжитесь со мной в LinkedIn по адресу Рагху Мадхав Тивари — если вы хотите обсудить это дальше! Оставьте аплодисменты и оставьте комментарий ниже, чтобы поддержать блог! Следите за новостями.

Теперь я также на Topmate, чтобы помогать претендентам на науку о данных — https://topmate.io/raghu_tiwari