Изучите науку о данных и приложения в НЛП: сообщение 003

Регрессионное моделирование. Продвижение понимания

Двигаясь вперед от предыдущего поста, наш интерес состоит в том, чтобы смоделировать желаемый результат «t» как функцию входных параметров (x). Мы предположили, что целевая переменная 't' задается детерминированной функциейy(x, w),где'w'относится к веса ( коэффициенты полиномиальной функции ). Математическимы можем смоделировать следующим образом:t = y(x, w) + E, где 'E' — это нулевое среднее Гауссова случайная величина [ E нормально распределяется около 0 ].

Нам нужно очень тщательно проанализировать математическое уравнение. Давайте обсудим, что это значит. Если мы знаем значение x и знаем коэффициенты функции, мы можем вычислить значение цели (output). Обратите внимание: наша гипотеза состоит в том, что нет другой переменной 'x', о которой мы знаем и которая может добавить информационную ценность. чтобы лучше предсказать 't'.

Давайте рассмотрим пример.

Предположим из предыдущего поста, что цены на дома действительно являются функцией размера дома, и мы использовали данные для определения функциональной зависимости как: house_price (t) = a*(house_size) + b , где (a,b) — коэффициенты , также называемые «w». Далее предположим, что мы можем вычислить значения коэффициентов (a,b) с помощью «регрессионного анализа». Это означает, что теперь мы можем прогнозировать house_price, если знаем значение переменной house_size (x). В общем, наш прогноз не будет соответствовать действительности. Если наше уравнение предсказывает цену дома 120 000 долларов США для дома площадью 419 кв. футов, в действительности цены на дома подобного размера могут различаться (немногие будут больше дорого, мало дешевле)

Конкретным предположением регрессионного анализа является то, что ошибка E, измеренная как Фактическая_цена_дома минус (-) Прогнозируемая_цена_дома, нормально распределяется вокруг «0». Это означает, что у нас нет оснований полагать, что цены на дома площадью 419 кв. футов будут систематически выше или систематически ниже прогнозируемого значения.

Если подумать о предыдущем утверждении , это означает, что мы придерживаемся гипотезы, что цены на жилье зависят только от размеров дома, и любой ошибкатермин является случайным, нормальнораспределенным, нулевымсредним, непредсказуемымшумом.

Нет никакой дополнительной информации, которую мы можем собрать для улучшения нашего прогноза,кроме значения house_size. >(x) переменная.

Пища для размышлений:

Давайте измерим «E»: Фактическая_цена_дома минус (-) Прогнозируемая_цена_дома для различных прогнозируемых и фактических цен на жилье. После измерения мы наносим «E» и понимаем, что «E» не распределяется нормально вокруг «0». Что это означает для регрессионного моделирования?

Изучите науку о данных и приложения в НЛП: сообщение 003

Регрессионное моделирование. Продвижение понимания

Вопросы по теме