ICML - это огромная конференция, в которой участвуют более 6000 исследователей и студентов, и несколько направлений одновременно. После конференции в пятницу и субботу была проведена серия семинаров, которые были, если не лучше, организованы так же хорошо, как и конференция.

Вот некоторые основные моменты, связанные с нашим исследованием в Numenta:

Непрерывное обучение

Наталья Диас-Родригес, представляющая ContinualAI, сделала интересный доклад о проблемах в непрерывном обучении. Я рад слышать, что они работают над опросом о непрерывном обучении, который будет выпущен примерно через 2 недели в arXiv, я рад его прочитать! (править: теперь доступно в arXiv). Марта Уайт из Университета Альберты также представила увлекательное исследование непрерывного обучения и разреженных репрезентаций.

Было много других многообещающих лекций и плакатов по непрерывному обучению, в том числе однодневный семинар по непрерывному обучению и еще один по многозадачному обучению. Было здорово увидеть последние статьи группы Беркли о неконтролируемом метаобучении и обучении с подкреплением без явных функций вознаграждения.

Надежность

Создание моделей, устойчивых к шуму и состязательным атакам, является горячей темой в ML, и у ICML было несколько интересных статей. В ходе бесед были рассмотрены как теоретические, так и эмпирические оценки состязательных атак и методов защиты, а также устойчивости к шуму и коррупции.

Ахмад и Шейнкман из Numenta показали, как сочетание разреженных соединений и функции разреженной активации (k-победителей) способствует высокому уровню разреженности и может привести к созданию сетей, которые одновременно являются энергоэффективными и устойчивыми к шумам. В настоящее время мы работаем над расширением разреженных нейронных сетей структурной пластичностью и расширяем их применение для более крупных и сложных моделей и наборов данных.

Интересный набор данных под названием ImageNet-P был недавно выпущен Хендриксом и Диттерихом в ICLR. Он содержит изображения, дополненные 15 типами алгоритмически сгенерированных искажений, направленных на имитацию зашумленных данных, часто встречающихся в реальных сценариях. Версия MNIST этого набора данных, названная MNIST-C, была представлена ​​на семинаре ICML по неопределенности и устойчивости.

Редкие представления

Наш мозг невероятно разрежен, и это ключ к тому, как мы учимся. Ахмад уже показал в предыдущей статье, как разреженные представления могут привести к семантическим представлениям, более подходящим для построения надежных систем.

Сокращение также может способствовать структурной разреженности после обучения и вести к меньшим сетям, которые могут быть встроены в устройства меньшего размера и, как правило, более быстрые и энергоэффективные. Две недавние статьи по сокращению, опубликованные в ICLR, Гипотеза лотерейного билета (LT) и Переосмысление ценности сокращения сети, намекают, что некоторые характеристики модели можно отнести к изучению структуры сети, а не к изучению весов. .

В более поздней статье, представленной на семинаре по теории глубокого обучения ICML, под названием Разбор гипотезы о лотерейных билетах сделан шаг вперед в этом направлении. Чжоу и др. расширяет статью LT и показывает, что сокращенная нейронная сеть с весами, инициализированными постоянными значениями с тем же знаком, что и веса исходной сети, может достичь точности до 87% в MNIST без обучения.

Конференция и семинары также включали несколько интересных бесед и дискуссий о естественно возникающей разреженности и неявной разреженности в нейронных сетях, обученных с регуляризацией или без нее.

Структурная пластичность

Ключевой характеристикой нашего мозга является то, насколько он изменяется в течение нашей жизни или даже в гораздо более короткие периоды. Всего за несколько дней до 30% наших синапсов можно заменить, что является признаком того, насколько адаптируется наш мозг.

Обнуление весов или активаций - распространенная стратегия во время тренировок (отсев и варианты) и мощный метод регуляризации. Но можем ли мы построить модели, которые также могут быть разреженными во время вывода, сохраняя при этом преимущества регуляризации? Это интересная идея, которая годами обсуждается в сообществе с помощью таких заставляющих задуматься статей, как Louizos et al.

Недавняя статья, которая привлекла мой интерес, - это Разреженное эволюционное обучение (SET). В модели SET начальные веса распределены редко на уровне разреженности около 4%. Соединения удаляются во время обучения в зависимости от величины, и такое же количество случайных соединений повторно инициализируется, что способствует поиску структуры во время обучения.

Два последующих документа по SET были представлены на ICML. Идея динамической разреженной репараметризации дополнительно исследуется в Мостафе и Ванге с улучшенной эвристикой, которая перераспределяет больше соединений между уровнями с более высокими потерями при обучении, чем случайное перераспределение. Авторы SET также представляют последующую работу, в которой предлагается отсечь все входящие и исходящие соединения нейрона, демонстрируя улучшенные результаты.

Другое

Обучение по учебной программе - это распространенный метод обучения с подкреплением, который заключается в том, чтобы предлагать вашему агенту все более сложные задачи. Это особенно полезно в средах, где награда редка и ее трудно получить.

В статье Мангалам и Прабху из UnifyID сравнивается, какие примеры быстрее усваиваются глубокими нейронными сетями и неглубокими классификаторами, и делается вывод, что качество примера является атрибутом образца, а не модели. Это указывает на интересное направление исследований - использовать неглубокие классификаторы, чтобы отличать простые для изучения примеры от сложных и применять их для изучения учебных программ в более сложных моделях.

Я также увидел увлекательную работу над моделями обучения с самоконтролем, в которых используется контрастное прогнозирующее кодирование для предварительного обучения нейронных сетей, что позволяет им учиться быстрее или с менее размеченными выборками. Особенно привлекла мое внимание статья Löwe et al. Из Амстердамского университета, в которой предлагается новый метод глубокого обучения, не требующий ярлыков или сквозного обратного распространения. Это, безусловно, интересное направление исследований для моделей обучения, вдохновленных биологией.

Подведение итогов

У меня есть еще как минимум дюжина основных моментов, которые не подходят для публикации! В целом, я отлично провел время в ICML и надеюсь, что в следующем году приеду туда для еще одного раунда новаторских исследований.