Первые принципы мышления в науке о данных.

Мышление из первых принципов определяется как «сведение проблем к их наиболее фундаментальным истинам».

Итак, когда дело доходит до науки о данных, каковы первые принципы?

На мой взгляд они:

Показатели центральной тенденции — среднее, медиана, мода.
Показатели дисперсии — дисперсия, стандартное отклонение, межквартильный диапазон.

Большинство тем в науке о данных так или иначе сводятся к центральной тенденции или дисперсии. Позвольте мне объяснить на нескольких примерах:

Линейная регрессия:
Как правило, моделируется ожидаемое значение (среднее), а не необработанное значение зависимой переменной.
Пожалуйста, обратите внимание, что в линейной регрессии можно моделировать любой квантиль.
Распределения вероятностей:
Знаменитое нормальное распределение характеризуется параметрами местоположения (среднее значение) и параметрами масштаба (стандартное отклонение).
Точно так же и другие распределения характеризуются параметрами местоположения и масштаба.
Машинное обучение:
Дрейф модели. Когда мы говорим, что модель дрейфовала, это на самом деле означает, что существующая модель отклонилась от реальной модели с точки зрения местоположения или параметра масштаба или того и другого.
Показатели точности. Показатели точности, такие как F1, представляют собой не что иное, как среднее гармоническое.
Обнаружение выбросов или обнаружение аномалий: мы классифицируем что-либо как выброс, если какая-либо точка данных имеет 2SD, 3SD или даже 6SD.
Прогнозирование временных рядов :
Одной из ключевых концепций прогнозирования временных рядов является стационарность. Стационарный временной ряд — это ряд, свойства которого, такие как среднее значение, дисперсия и структура автокорреляции, остаются постоянными во времени. Стационарность важна, потому что легче и точнее оценивать параметры ряда, свойства которого не меняются во времени. Если среднее значение и дисперсия ряда продолжают меняться с течением времени, точность оценок будет меняться с течением времени.
Проверка гипотез:
У нас есть проверка гипотез о среднем и разнице в средних. Например, t-тест и дисперсионный анализ.
Теория информации.
Многие алгоритмы, такие как деревья решений, методы сравнения моделей, такие как AIC, основаны на теории информации. Даже в методах сравнения распределения вероятности KL Divergence использует концепции теории информации, такие как энтропия, прирост информации и т. д. Что ж, энтропия снова является ожидаемым значением (средним) собственной информации переменной
или
энтропия является наименьшей возможный средний размер кодирования без потерь сообщений, отправляемых от источника к получателю.

Для консалтинга и решений в области науки о данных;

Свяжитесь с нами по адресу:

Сайт: https://www.arymalabs.com/

Linkedin: http://www.linkedin.com/in/venkat-raman-Analytics

Первые принципы мышления в науке о данных.

Вопросы по теме