Понимание градиентно-изолированного изучения представлений и интуиции для жадных…

С тех пор, как я начал заниматься наукой о данных и машинным обучением, меня всегда интересовало огромное количество данных, генерируемых людьми, и наша неспособность эффективно использовать их в сложных алгоритмах, доступных в нашем распоряжении. Единственный недостаток всех наших идей по применению глубокого обучения и спасению мира (для этого слишком поздно) - это усилия и время, затрачиваемые на предварительную обработку данных, а не сами данные, которых у нас в изобилии. Чтобы понять это, мы ежедневно генерируем около 3 квинтиллионов байтов (10¹⁸) данных! Это количество энергии, которое ежедневно попадает на поверхность земли от Солнца (в джоулях). Это включает в себя диапазон информации от данных от простого щелчка по поиску Google до всех данных, полученных с камер, погодных мониторов и социальных сетей. Итак, если бы мы могли изучить и разобраться в этих данных, не слишком полагаясь на маркировку или аннотацию, это могло бы стать следующей революционной технологией. Эта статья, на которую я случайно наткнулся в новом бумажном радаре, пытается изучить представления больших данных неконтролируемым образом. Я попытался уловить основные концепции этой исследовательской работы (ссылка) Синди Лёве, Питер О'Коннор, Бастиан С. Вилинг в их статье под названием Положить конец до конца. : Градиентно-изолированное изучение представлений », не вдаваясь в математический аспект.

Интуиция в подходе

В статье представлен их подход, отмечены недостатки, связанные с традиционным сквозным обучением, и его биологическая неправдоподобность, поскольку доказано, что наш мозг не обрабатывает и не усваивает информацию, как это происходит при традиционном обратном распространении. Несмотря на некоторые доказательства наличия нисходящих связей в мозгу, похоже, не существует глобальной цели, которая оптимизировалась бы с помощью сигналов об ошибках в мозге. В этом документе представлен новый метод эффективного обучения немаркированных наборов данных и захвата представлений без необходимости использования контролируемого метода обучения и выполнения последующих задач.

Основным элементом, который позволяет использовать этот подход, являются существующие медленные функции в данных, используемые типичными последующими задачами.

медленные функции относится к внутреннему сходству, которое элементы карты функций данных демонстрируют с соседними элементами. Объекты имеют свойства, аналогичные свойствам, находящимся поблизости, по сравнению с любыми случайными частями представления объекта.

Чтобы представить это в перспективе, все пиксели, относящиеся к одному конкретному объекту на изображении, демонстрируют локальное сходство с точки зрения текстуры, цвета, освещения и градиентов. Точно так же в аудиоданных, если есть несколько динамиков, данные, связанные с одним человеком на одном непрерывном фрагменте звука, будут аналогичными с точки зрения высоты тона, частоты, тона и т. Д. Метод использует последовательное упорядочение, присутствующее в данных. кодировать и представлять его в компактном виде, не подвергая модель сквозной оптимизации потерь. Данные представлены в виде нескольких составных модулей. Каждый модуль независимо изучает и представляет временное сходство, присутствующее в предыдущем модуле. Модель также самооптимизируется внутри модуля без необходимости обратной связи от модулей, которые следуют за ней, и, следовательно, также устраняет проблему исчезающего градиента.

Алгоритм

Этот подход к непрерывному обучению с самоконтролем извлекает полезные представления из последовательных входных данных, максимизируя взаимную информацию между извлеченными представлениями соседних во времени участков.

Главный принцип алгоритма состоит в том, чтобы изучить сходство в следующей последовательности в патче данных, при условии, что это представление текущего патча. Итак, алгоритм работает следующим образом. Представим себе, что последовательные данные (например, образец речи) разделены на «n» единых единиц времени.
Первый шаг заключается в том, что образец данных (x) до момента времени «t» кодируется с использованием модели глубокого кодирования (E). Кроме того, другое представление C (t), которое объединяет информацию обо всех патчах до временного шага «t», создается с использованием авторегрессионной модели как G (ar) [0: t] = C (t). Модель авторегрессии, как и рекуррентная нейронная сеть, передает информацию из предыдущего состояния в следующее. Но он отличается от RNN тем, что не использует скрытые состояния, а вместо этого напрямую предоставляет входные данные для следующего состояния.

Теперь у нас есть начальное представление, цель состоит в том, чтобы максимизировать взаимную информацию между данными до отметки времени «t» и следующего соседнего патча, скажем (t + k). Это выполняется путем извлечения кодирования входных представлений E (t + k) до временных меток t + k (где k - это следующая единица данных, которая находится на k временных меток от t) и обучения, чтобы максимизировать обмен информацией между C ( t) и E (t + k) ближайших во времени пятен с использованием специально разработанной глобальной вероятностной потери.

Тренировка и потеря

Упомянутые выше потери являются производными принципами контрастной оценки шума (NCE) [Gutmann and Hyvärinen, 2010]. Идея здесь аналогична тому, что мы поняли в последнем абзаце, мы берем текущее представление E (t) и C (t) и пытаемся оптимизировать сходство между C (t) и E (t + k) для всех возможных значений. k и выберите значение с наибольшим сходством. Это делается путем принятия пакета входных данных как

X = [E (t + k), E (n1), E (n2), E (n3)…], где E (t + k) - положительное кодирование, которое на k раз опережает t, а все остальные кодирования случайным образом взяты из данных, которые не имеют корреляции с E (t).

Используемая здесь функция потерь принимает попарные входные данные для C (t) и E (ni). Каждая пара кодировок (ni, Ct) оценивается с использованием функции для прогнозирования вероятности того, что данное кодирование ni является положительной выборкой E (t + k) с использованием лог-билинейных потерь (связь). Эта потеря используется для оптимизации как модели кодирования E, так и модели авторегрессии G (ar) для извлечения функций, которые согласованы с соседними фрагментами, но которые расходятся между случайными парами фрагментов. В то же время скоринговая модель учится использовать эти особенности для правильной классификации совпадающей пары.

Жадный InfoMax

Интуиция

Теория состоит в том, что мозг учится обрабатывать свои восприятия, максимально сохраняя информацию о входных действиях на каждом уровне. Вдобавок к этому нейробиология предполагает, что мозг предсказывает свои будущие входы и учится, минимизируя эту ошибку предсказания, то есть его сюрприз [Friston, 2010]. Эмпирические данные показывают, что клетки сетчатки несут значительную взаимную информацию между текущим и будущим состоянием их собственной активности, и этот процесс может происходить на каждом слое мозга. Этот метод черпает мотивацию из этих теорий, что приводит к методу, который учится сохранять информацию между входом и выходом каждого уровня путем изучения представлений, которые предсказывают будущие входные данные.

Давайте посмотрим на другой аспект реализации подхода, задачу эффективной оптимизации взаимной информации между представлениями на каждом уровне модели изолированно, пользуясь множеством практических преимуществ, которые дает жадное обучение (изолированное, изолированное обучение частей модели). Чтобы сделать то же самое, взята обычная архитектура глубокого обучения и разделена на стек из М. модулей. Это разделение может происходить на уровне отдельного уровня или, например, на уровне блоков, обнаруженных в остаточных сетях [He et al., 2016b]. Вместо непрерывного обучения этой модели это предотвращает перетекание градиентов между модулями и вместо этого использует локальные самоконтролируемые потери, дополнительно уменьшая проблему исчезающих градиентов.

Правая половина изображения выше отображает все кодировки от временных меток «t» до «t + k» до «j». Все кодировки сравниваются с функцией оценки 'f' и, наконец, передаются в функцию потерь L (n).
Левая половина показывает, как данные делятся на модули, каждый модуль кодирования G (enc) в архитектуре отображает вывод предыдущего модуля в кодировку Z (mt), вычисленную с использованием вывода предыдущего модуля. Между модулями нет градиентов, что обеспечивается с помощью оператора блокировки градиента. Следовательно, каждый модуль G (enc) обучается с использованием функции потерь, описанной в предыдущем разделе, и функции оценки «f», которая сравнивает попарные кодировки.

Результаты и резюме

Алгоритм применялся как к наборам данных аудио, так и к изображениям. В обеих настройках модель извлечения признаков разделена по глубине на модули и обучается без меток с использованием этого подхода. Представления, созданные последним модулем, затем используются в качестве входных данных для линейного классификатора. Результаты в обоих разделах были близки к их современным контролируемым аналогам и, следовательно, доказывают применимость этого алгоритма.

Ключевые приложения этого подхода, перечисленные в документе, следующие:

Применяя GIM к входам большой размерности, каждый модуль можно оптимизировать последовательно, чтобы уменьшить затраты памяти во время обучения. В сценарии с наиболее ограниченным объемом памяти отдельные модули могут быть обучены, заморожены, а их выходные данные сохранены в виде набора данных для следующего модуля, что эффективно устраняет глубину сети как фактор сложности памяти.

Кроме того, GIM позволяет обучать модели на входных данных, размер которых превышает размер памяти, с архитектурой, которая в противном случае превышала бы ограничения памяти.

И последнее, но не менее важное: GIM предоставляет очень гибкую структуру для обучения нейронных сетей. Это позволяет обучать отдельные части архитектуры с различной частотой обновления. Когда требуется более высокий уровень абстракции, GIM позволяет добавлять новые модули поверх в любой момент процесса оптимизации без необходимости уточнять предыдущие результаты.

На этом я хотел бы завершить эту статью, поблагодарив авторов оригинальных статей Sindy Löwe, Peter O’Connor, Bastiaan S. Veeling за эту блестящую работу! Вся заслуга в информации, представленной в этой статье, принадлежит авторам статьи под названием

Положить конец сквозному: изучение представлений с использованием градиентной изоляции

Ссылка на оригинал статьи