Демон Лапласа: уникальный взгляд на модели машинного обучения

Если интеллекту предоставлено положение и импульс каждого атома во Вселенной, интеллект мог бы просто «вычислить будущие состояния Вселенной». Интеллект здесь упоминается как Демон Лапласа. о концепции https://en.wikipedia.org/wiki/Laplace%27s_demon

Демон — это Машина или сущность, способная обрабатывать огромное количество информации, чтобы буквально вычислять будущее. Сущность, подобная Демону, может существовать только в том случае, если Вселенная детерминирована. Более или менее доказано, что Вселенная недетерминирована (второй закон термодинамики, квантовая неотразимость и т.д.).

Хотя Совершенный Демон Лапласа не может быть создан, Несовершенные Демоны все же возможны.

Что такое несовершенные демоны? Мы вернемся к этому чуть позже.

Давайте сформулируем исходный Демон Лапласа.

Пусть st будет состоянием Вселенной в момент времени t (st должно быть невероятно большим, чтобы охватить всю информацию о Вселенной!).

s0 -> s1 -> s2 -> ….. s(t-2) -> s(t-1) -> st -> s(t+1) -> ….

Состояния из цепочки событий, где состояние s может зависеть или не зависеть от всех предыдущих состояний.

s можно рассматривать как случайную величину, значения которой определяются в соответствии с частично детерминированным и стационарным распределением (предположение Маркова).

Если U = {st : 0‹t‹T}, U — множество всех предыдущих состояний Вселенной, а D — функция, выполняемая Демоном, то

s(t+1) = D(U)

Но мы не знаем, что такое Д?

Если мы не знаем, что такое функция, и хотим аппроксимировать функцию, что мы делаем?

Добавьте к этому нейронную сеть! Глубокий.

Подходящей моделью для D здесь будет RNN (LSTM или другие) или CNN.

Давайте немного уточним ситуацию. Вместо того, чтобы D была функцией ВСЕХ предыдущих состояний, предположим, что будущее состояние s(t+1) зависит только от предыдущего состояния. Это предположение очень сильное и важное, известное как предположение Маркова.

Теперь Демон должен изучить более простую функцию, чем раньше, и будет работать значительно быстрее, но пострадает ли от этого производительность? В большинстве случаев Да.

И так,

s(t+1) = D(st),

где D — нейронная сеть с прямой связью.

Но что, если меня не волнует предсказание состояния всей Вселенной, а я хочу предсказать что-то более низкое измерение, например, положение автомобиля через какое-то время.

Пусть прогнозируемый набор переменных равен y’, тогда

y’ = D(st)

Но действительно ли стоит принимать информацию о всей Вселенной в качестве входных данных для модели? Конечно, модель все равно будет обучаться, и веса большинства функций будут близки к 0. С другой стороны, мы не сильно потеряем в производительности модели, если выберем входные функции, которые, по нашему мнению, влияют на прогнозы, такие как предыдущее местоположение автомобиля. (GPS), это скорость, структура дорог, информация о другом близлежащем транспорте.

Поскольку мы выбираем входные функции, мы выбираем архитектуру модели, мы выбираем алгоритм обучения и т. Д., Демон Лапласа кажется слишком тупым 🤣

У живых существ есть прогностическая «модель» как раз для оценки того, какие действия приводят к изменениям в окружающей среде, что помогает им выживать в дикой природе.

Мы все маленькие демоны природы, создающие искусственных демонов.

Специальные кредиты - SuryaKant Sahu

Демон Лапласа: уникальный взгляд на модели машинного обучения

Вопросы по теме