Машина Больцмана была впервые изобретена в 1985 году Джеффри Хинтоном, профессором Университета Торонто. Он является ведущей фигурой в сообществе глубокого обучения, и некоторые называют его крестным отцом глубокого обучения.

  • Машина Больцмана - это генерирующая неконтролируемая модель, которая включает изучение распределения вероятностей из исходного набора данных и его использование для вывода о ранее не использованных данных.
  • Машина Больцмана имеет входной слой (также называемый видимым слоем) и один или несколько скрытых слоев (также называемых скрытым слоем ).

  • Машина Больцмана использует нейронные сети с нейронами, которые связаны не только с другими нейронами в других слоях, но и с нейронами внутри того же слоя.
  • Все связано со всем. Связи являются двунаправленными, видимые нейроны связаны друг с другом, а скрытые нейроны также связаны друг с другом.
  • Машина Больцмана не ожидает ввода данных, она генерирует данные. Нейроны генерируют информацию независимо от того, скрыты они или видимы.
  • Для машины Больцмана все n евронов одинаковы, она не делает различий между скрытыми и видимыми n евронами. Для Машины Больцмана все вещи - это система и ее генерирующее состояние системы.

Лучше всего подумать об этом на примере атомной электростанции.

  • Предположим, например, что у нас есть атомная электростанция, и есть определенные вещи, которые мы можем измерить на атомной электростанции, такие как температура в защитной оболочке, скорость вращения турбины, давление внутри насоса и т. Д.
  • Мы не измеряем многие вещи, такие как скорость ветра, влажность почвы в данном конкретном месте, солнечный или дождливый день и т. Д.
  • Все эти параметры вместе образуют систему, все они работают вместе. Все эти параметры являются двоичными. Таким образом, мы получаем целую кучу двоичных чисел, которые что-то говорят нам о состоянии электростанции.
  • Что мы хотели бы сделать, так это то, что мы хотим заметить это, когда он перейдет в необычное состояние. Состояние, которое не похоже на нормальные состояния, которые мы видели раньше. И мы не хотим использовать для этого обучение с учителем. Потому что мы не хотим приводить примеры состояний, которые вызывают его взрыв.
  • Мы бы предпочли обнаружить это, когда он переходит в такое состояние, даже не наблюдая раньше такого состояния. И мы могли бы сделать это, построив модель нормального состояния и заметив, что это состояние отличается от нормальных состояний.
  • Это то, что представляет собой Машина Больцмана.
  • Как работает эта система, мы используем наши обучающие данные и вводим их в машину Больцмана в качестве входных данных, чтобы помочь системе скорректировать свои веса. Она похожа на нашу систему, а не на атомную электростанцию ​​в мире.
  • Он узнает на основе ввода, каковы возможные связи между всеми этими параметрами, как они влияют друг на друга, и поэтому он становится машиной, которая представляет нашу систему.
  • Мы можем использовать эту машину Больцмана для мониторинга нашей системы
  • Машина Больцмана узнает, как система работает в нормальном состоянии, на хорошем примере.

Машина Больцмана состоит из нейронной сети с входным слоем и одним или несколькими скрытыми слоями. Нейроны в нейронной сети принимают стохастические решения о том, включать или выключать их, на основе данных, которые мы вводим во время обучения, и функции стоимости, которую машина Больцмана пытается минимизировать.

Таким образом, машина Больцмана обнаруживает интересные особенности данных, которые помогают моделировать сложные взаимосвязи и закономерности, присутствующие в данных.

Эти машины Больцмана используют нейронные сети с нейронами, которые связаны не только с другими нейронами в других слоях, но и с нейронами внутри того же слоя. Это делает обучение неограниченной машины Больцмана очень неэффективным, а машина Больцмана имела очень небольшой коммерческий успех.

Заключение

Машина Больцмана - это очень типичная двунаправленная сеть связанных нейронов. Например, нейроны внутри данного слоя связаны между собой, добавляя дополнительное измерение к математическому представлению тензоров сети. Следовательно, процесс обучения такой сетевой архитектуре требует больших вычислительных ресурсов и труден для интерпретации.

Я надеюсь, что эта статья помогла вам получить интуитивное понимание машины Больцмана. Думаю, это, по крайней мере, дает хорошее объяснение и архитектуру высокого уровня.