Глубокое обучение продолжило свое движение вперед в 2019 году, благодаря достижениям во многих интересных областях исследований, таких как генеративные состязательные сети (GAN), автокодировщики и обучение с подкреплением. Что касается развертываний, глубокое обучение является любимым элементом многих современных прикладных областей, таких как компьютерное зрение, распознавание изображений, распознавание речи, обработка естественного языка, машинный перевод, автономные транспортные средства и многие другие.

[Статья по теме: Лучшее исследование машинного обучения 2019 года]

Ранее в этом году мы увидели, как Google AI Language произвел революцию в сегменте глубокого обучения НЛП с новой моделью представления языка под названием BERT, что означает двунаправленные представления кодировщика от Transformers. Уже плодотворная статья была опубликована на arXiv 24 мая. Это привело к бурю результатов последующих исследований. Это всего лишь одна конкретная область глубокого обучения, и многие другие продвигаются вперед так же быстро.

Хотя глубокое обучение официально является подмножеством машинного обучения, его творческое использование искусственных нейронных сетей точно настроено на определенные предметные области большой размерности. Для типичных бизнес-задач традиционные алгоритмы машинного обучения (градиентное усиление - в высшей степени) часто работают лучше.

В этой статье я помогу вам начать ваши усилия, чтобы идти в ногу с этой насыщенной исследованиями областью, перейдя из текущего большого пула исследований, опубликованного в 2019 году на arXiv.org, до управляемого короткого списка моих фаворитов, который следует ниже. Наслаждаться!

Комплексное исследование графических нейронных сетей

За последние годы глубокое обучение произвело революцию во многих задачах машинного обучения, от классификации изображений и обработки видео до распознавания речи и понимания естественного языка. Данные в этих задачах обычно представлены в евклидовом пространстве. Однако растет число приложений, в которых данные генерируются из неевклидовых областей и представлены в виде графиков со сложными отношениями и взаимозависимостью между объектами. Сложность графических данных поставила серьезные задачи перед существующими алгоритмами машинного обучения. В последнее время появилось много исследований по расширению подходов к глубокому обучению для графических данных. Этот обзор, на котором основана данная статья, предоставляет всесторонний обзор графовых нейронных сетей (GNN) в областях интеллектуального анализа данных и машинного обучения. Исследователи предлагают новую таксономию, чтобы разделить современные нейронные сети с графами на четыре категории, а именно нейронные сети с рекуррентными графами, нейронные сети со сверточными графами, автокодировщики графов и нейронные сети с пространственно-временными графами. Включено обсуждение приложений графовых нейронных сетей в различных областях и резюмируются открытые исходные коды, наборы контрольных данных и оценка модели графовых нейронных сетей. В заключение в статье предлагаются потенциальные направления исследований в этой быстро развивающейся области.

EfficientNet: переосмысление масштабирования модели для сверточных нейронных сетей

Сверточные нейронные сети (ConvNets) обычно разрабатываются при фиксированном бюджете ресурсов, а затем масштабируются для большей точности, если доступно больше ресурсов. В этом документе Google Research систематически изучается масштабирование модели и указывается, что тщательный баланс глубины, ширины и разрешения сети может привести к повышению производительности. На основе этого наблюдения предлагается новый метод масштабирования, который равномерно масштабирует все измерения глубины / ширины / разрешения с использованием простого, но очень эффективного составного коэффициента. В документе демонстрируется эффективность этого метода для масштабирования MobileNets и ResNet. Чтобы пойти еще дальше, поиск нейронной архитектуры используется для разработки новой базовой сети и ее масштабирования для получения семейства моделей, называемых EfficientNets, которые обеспечивают гораздо лучшую точность и эффективность, чем предыдущие ConvNets. Исходный код доступен на GitHub.

Глубокое обучение для обнаружения аномалий: исследование

Обнаружение аномалий - важная проблема, которая хорошо изучена в различных областях исследований и прикладных областях. Целью этого обзора является двоякая цель: во-первых, представить структурированный и всесторонний обзор методов исследования в области обнаружения аномалий на основе глубокого обучения, а также дополнительно рассмотреть применение этих методов для выявления аномалий в различных областях приложений и оценить их эффективность. В статье современные методы исследования сгруппированы по различным категориям на основе исходных допущений и принятого подхода. В рамках каждой категории в документе описывается базовый метод обнаружения аномалий, а также его варианты и представлены ключевые предположения, позволяющие различать нормальное и аномальное поведение. Для каждой категории в документе также представлены преимущества и ограничения и обсуждается вычислительная сложность методов в реальных прикладных областях. Наконец, в документе излагаются открытые проблемы в исследованиях и проблемы, с которыми пришлось столкнуться при внедрении этих методов.

Глубокое изучение символической математики

Нейронные сети имеют репутацию лучше при решении статистических или приближенных задач, чем при выполнении вычислений или работе с символьными данными. Эта статья от Facebook AI Research показывает, что они могут быть на удивление хороши в более сложных математических задачах, таких как символьное интегрирование и решение дифференциальных уравнений. В документе предлагается синтаксис для представления математических задач и методы создания больших наборов данных, которые можно использовать для обучения моделей от последовательности к последовательности. Достигнутые результаты превосходят коммерческие системы компьютерной алгебры, такие как Matlab или Mathematica.

Зеленый AI

Вычисления, необходимые для исследования глубокого обучения, удваиваются каждые несколько месяцев, что, по оценкам, привело к увеличению в 300000 раз с 2012 по 2018 год. Эти вычисления имеют удивительно большой углеродный след. По иронии судьбы глубокое обучение было вдохновлено человеческим мозгом, который чрезвычайно энергоэффективен. Более того, финансовые затраты на вычисления могут затруднить участие ученых, студентов и исследователей, особенно из стран с развивающейся экономикой, в исследованиях глубокого обучения. В этом документе с изложением позиции предлагается практическое решение, в котором эффективность является критерием оценки исследования наряду с точностью и соответствующими показателями. Кроме того, в документе предлагается сообщать о финансовых затратах или «ценах» на разработку, обучение и запуск моделей, чтобы предоставить исходные данные для исследования все более эффективных методов. Цель состоит в том, чтобы сделать ИИ более экологичным и инклюзивным, позволяя любому вдохновленному студенту с ноутбуком писать высококачественные исследовательские работы.

Революция глубокого обучения и ее последствия для компьютерной архитектуры и дизайна микросхем

За последнее десятилетие произошел ряд замечательных достижений в области машинного обучения и, в частности, подходов к глубокому обучению, основанных на искусственных нейронных сетях, чтобы улучшить наши возможности по созданию более точных систем в широком диапазоне областей, включая компьютерное зрение, распознавание речи, язык. перевод и понимание естественного языка. В этой статье Джеффри Дина из Google Research обсуждаются некоторые достижения в области машинного обучения и их влияние на типы вычислительных устройств, которые нам необходимо создавать, особенно в эпоху закона Мура. В нем также обсуждаются некоторые способы, которыми машинное обучение может помочь в некоторых аспектах процесса проектирования схем. Наконец, он дает набросок по крайней мере одного интересного направления к гораздо более крупномасштабным многозадачным моделям, которые редко активируются и используют гораздо более динамическую маршрутизацию на основе примеров и задач, чем современные модели машинного обучения.

Уровень нормализации отклика фильтра: устранение пакетной зависимости при обучении глубоких нейронных сетей

Пакетная нормализация (BN) - очень успешный и широко используемый метод пакетно-зависимого обучения. Использование статистики мини-пакета для нормализации активаций вводит зависимость между выборками, что может повредить обучению, если размер мини-партии слишком мал или если выборки коррелированы. Для решения этих проблем было предложено несколько альтернатив, таких как пакетная ренормализация и групповая нормализация (GN). Однако они либо не соответствуют производительности BN для больших партий, либо по-прежнему демонстрируют снижение производительности для небольших партий, либо вводят искусственные ограничения на архитектуру модели. В этом документе Google Research предлагается слой Нормализация отклика фильтра (FRN), новая комбинация нормализации и функции активации, которую можно использовать в качестве замены для других нормализации и активации. Новый метод работает с каждой картой активации каждого образца партии независимо, устраняя зависимость от других образцов партии или каналов того же образца. Этот метод превосходит BN и все альтернативы по множеству настроек для всех размеров партии.

Имитация случайного нейронного леса

В этой статье представлена ​​Имитация случайного нейронного леса - - новый подход к преобразованию случайных лесов в нейронные сети. Существующие методы создают очень неэффективные архитектуры и не масштабируются. Новый метод предназначен для генерации данных из случайного леса и обучения нейронной сети, которая его имитирует. Без каких-либо дополнительных обучающих данных это преобразование создает очень эффективные нейронные сети, которые изучают границы принятия решений случайного леса. Сгенерированная модель полностью дифференцируема и может быть объединена с извлечением признаков в едином конвейере, обеспечивая дальнейшую сквозную обработку. Эксперименты с несколькими наборами реальных эталонных данных демонстрируют выдающуюся производительность с точки зрения масштабируемости, точности и обучения с очень небольшим количеством обучающих примеров. По сравнению с современными сопоставлениями этот метод значительно уменьшает размер сети, обеспечивая при этом такую ​​же или даже улучшенную точность за счет лучшего обобщения.

Когда помогает сглаживание меток?

Скорость обобщения и обучения нейронной сети с несколькими классами часто можно значительно улучшить, используя мягкие цели, которые представляют собой средневзвешенное значение жестких целей и равномерное распределение по меткам. Такое сглаживание меток предотвращает чрезмерную уверенность сети, а сглаживание меток используется во многих современных моделях, включая классификацию изображений, языковой перевод и распознавание речи. Несмотря на широкое распространение, сглаживание этикеток все еще плохо изучено. Эта статья из Google Brain Toronto эмпирически показывает, что помимо улучшения обобщения, сглаживание меток улучшает калибровку модели, что может значительно улучшить поиск луча. Исследователи, в том числе Джеффри Хинтон, также отмечают, что если сеть учителей обучена сглаживанию ярлыков, распространение знаний в сеть учеников будет гораздо менее эффективным. Чтобы объяснить эти наблюдения, в документе показано, как сглаживание меток изменяет представления, полученные на предпоследнем уровне сети. В документе показано, что сглаживание меток поощряет представление обучающих примеров из одного класса в группы в тесные кластеры. Это приводит к потере в логитах информации о сходстве между экземплярами разных классов, что необходимо для дистилляции, но не мешает обобщению или калибровке прогнозов модели.

О динамике обучения глубоких нейронных сетей

Несмотря на то, что за последние годы был достигнут значительный прогресс, динамика обучения в глубоких нелинейных нейронных сетях до сих пор остается в значительной степени неправильно понятой. В этой статье Microsoft Research исследуется случай бинарной классификации и доказываются различные свойства обучения в таких сетях при строгих предположениях, таких как линейная разделимость данных. Расширяя существующие результаты для линейного случая, статья подтверждает эмпирические наблюдения, доказывая, что ошибка классификации также следует сигмоидальной форме в нелинейных архитектурах. В статье показано, что при правильной инициализации обучение описывает параллельные независимые режимы и что определенные области пространства параметров могут привести к неудачному обучению. В документе также показано, что входная норма и частота функций в наборе данных приводят к определенным скоростям сходимости, которые могут пролить некоторый свет на возможности обобщения глубоких нейронных сетей. Включено сравнение между динамикой обучения с кросс-энтропией и потерями шарнира, которое может оказаться полезным для понимания недавнего прогресса в обучении генеративных враждебных сетей. Наконец, в статье описывается явление, получившее название «градиентного голодания», когда наиболее часто встречающиеся функции в наборе данных препятствуют изучению других менее частых, но столь же информативных функций.

[Статья по теме: Лучшее исследование глубокого обучения с подкреплением за 2019 год]

Хотите узнать больше об этих новых методах глубокого обучения и выводах от людей, которые над ними работают? Посетите ODSC East 2020 в Бостоне 13–17 апреля и учитесь напрямую!