Мышление из первых принципов определяется как «сведение проблем к их наиболее фундаментальным истинам».

Итак, когда дело доходит до науки о данных, каковы первые принципы?

На мой взгляд они:

  • Показатели центральной тенденции — среднее, медиана, мода.
  • Показатели дисперсии — дисперсия, стандартное отклонение, межквартильный диапазон.

Большинство тем в науке о данных так или иначе сводятся к центральной тенденции или дисперсии. Позвольте мне объяснить на нескольких примерах:

  1. Линейная регрессия:
    Как правило, моделируется ожидаемое значение (среднее), а не необработанное значение зависимой переменной.
    Пожалуйста, обратите внимание, что в линейной регрессии можно моделировать любой квантиль.
  2. Распределения вероятностей:
    Знаменитое нормальное распределение характеризуется параметрами местоположения (среднее значение) и параметрами масштаба (стандартное отклонение).
    Точно так же и другие распределения характеризуются параметрами местоположения и масштаба.
  3. Машинное обучение:
    Дрейф модели. Когда мы говорим, что модель дрейфовала, это на самом деле означает, что существующая модель отклонилась от реальной модели с точки зрения местоположения или параметра масштаба или того и другого.
  4. Показатели точности. Показатели точности, такие как F1, представляют собой не что иное, как среднее гармоническое.
  5. Обнаружение выбросов или обнаружение аномалий: мы классифицируем что-либо как выброс, если какая-либо точка данных имеет 2SD, 3SD или даже 6SD.
  6. Прогнозирование временных рядов :
    Одной из ключевых концепций прогнозирования временных рядов является стационарность. Стационарный временной ряд — это ряд, свойства которого, такие как среднее значение, дисперсия и структура автокорреляции, остаются постоянными во времени. Стационарность важна, потому что легче и точнее оценивать параметры ряда, свойства которого не меняются во времени. Если среднее значение и дисперсия ряда продолжают меняться с течением времени, точность оценок будет меняться с течением времени.
  7. Проверка гипотез:
    У нас есть проверка гипотез о среднем и разнице в средних. Например, t-тест и дисперсионный анализ.
  8. Теория информации.
    Многие алгоритмы, такие как деревья решений, методы сравнения моделей, такие как AIC, основаны на теории информации. Даже в методах сравнения распределения вероятности KL Divergence использует концепции теории информации, такие как энтропия, прирост информации и т. д. Что ж, энтропия снова является ожидаемым значением (средним) собственной информации переменной
    или
    энтропия является наименьшей возможный средний размер кодирования без потерь сообщений, отправляемых от источника к получателю.

Для консалтинга и решений в области науки о данных;

Свяжитесь с нами по адресу:

Сайт: https://www.arymalabs.com/

Linkedin: http://www.linkedin.com/in/venkat-raman-Analytics