Еще десять статей об ИИ, которые стоит прочитать в 2020 году

Обновленные предложения по чтению, чтобы держать вас в курсе последних классических достижений в области искусственного интеллекта и науки о данных

Пару недель назад я выпустил статью с документами по искусственному интеллекту (ИИ), которые стоит прочитать в 2020 году. Если вы посчитаете все предложения по дополнительному чтению, то в сумме получится 27 статей. Однако этот список далеко не полный. Многие драгоценные камни были упущены или были упомянуты лишь кратко. В этой статье, для вашего удовольствия от чтения, я перечисляю еще десять предложений (и несколько других рекомендаций по дальнейшему чтению) статей по ИИ, которые стоит прочитать в этом году.

В этом списке я сосредоточен на статьях, которые продвигают новейшие разработки, не предлагая новых архитектур. Речь идет не о последних вариантах YOLO или ResNet. Вместо этого в нем освещаются недавние достижения в формулировке потерь, теоретические открытия, обновленные оптимизаторы и т. Д.

Что касается предыдущего списка, я сосредоточусь на компьютерном зрении и НЛП, так как это темы, с которыми я больше всего знаком, и начну с одного или двух классических. Для каждой статьи я привожу краткое изложение ее основных вкладов и список причин для ее прочтения. Наконец, я заканчиваю каждую статью конкретными предложениями по чтению по теме, связывая их с другими недавними достижениями или подобными идеями.

On we go :)

# 1 перчатки (2014)

Пеннингтон, Джеффри, Ричард Сочер и Кристофер Д. Мэннинг. « Перчатка: глобальные векторы для представления слов .» Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). 2014 г.

В то время как современное сообщество уделяет большое внимание нейронным сетям, большая часть первых результатов была получена с помощью гораздо более простой математики. Начинающий этот список с классического алгоритма, GloVe представляет собой модель встраивания слов, основанную на уменьшении размерности матрицы совместной встречаемости слов. В отличие от предыдущих подходов, GloVe использует неявную формулировку, которая позволяет масштабировать его для массивных текстовых корпусов.

Причина №1. Если вы начинаете с обработки естественного языка (НЛП), это отличное чтение, чтобы получить основы встраивания слов и их значение.

Причина №2: Когда-то не все было основано на Трансформерах. Чтение более ранних работ - отличный способ найти ту забытую идею, которая может немного продвинуть современное состояние дел.

Причина №3:  Многие концепции, упомянутые / предложенные в этой статье, были позже расширены многими другими авторами. Вложения слов сегодня являются основным продуктом в литературе по обработке естественного языка (NLP).

Дополнительная информация: Примерно в то же время Google выпустила Word2Vec, еще одну хорошо известную модель для генерации семантических векторов. Вскоре после этого эти идеи были приняты биологическим сообществом как способы обозначения больших последовательностей белков и генов. Сегодня BERT является доминирующей фигурой для представления слов и смыслового понимания.

# 2 AdaBoost (1997)

Фройнд, Йоав; Шапир, Роберт Э (1997). « Теоретико-решающее обобщение онлайн-обучения и приложение для повышения квалификации ».

Классические модели машинного обучения были отнюдь не гибкими. Большинство формулировок имели разительные ограничения, которые не позволяли масштабировать их для решения все более сложных задач. Одним из первых решений этой проблемы было объединение лучших доступных моделей в демократическое голосование. В 1997 году Freund и Schapire предложили алгоритм AdaBoost, метаэвристический обучающийся метод, способный превратить многие «слабые» модели в «сильный» классификатор.

Проще говоря, алгоритм основан на итеративном обучении большего количества классификаторов и повторном взвешивании каждой обучающей выборки как «легкой» или «сложной». По мере обучения ансамбль развивается, уделяя больше внимания более сложным для классификации выборкам. Алгоритм настолько эффективен, что склонен к переоснащению даже сложных задач.

Причина №1. Можно утверждать, что нейронные сети представляют собой совокупность слабых классификаторов (нейронов / слоев). Однако литература о нейронных сетях развивалась независимо от ансамблей. Чтение статьи по этой теме может дать некоторое представление о том, почему нейронные сети работают так хорошо.

Причина №2. Многие новички считают классические подходы машинного обучения устаревшими и «слабыми», отдавая предпочтение нейронным сетям практически во всем. AdaBoost - отличный пример того, что классическое машинное обучение далеко не слабое место. И, в отличие от сетей, эти модели легко интерпретируемы.

Причина № 3: Сколько статей начинается с рассказа об игроке, который разочарован тем, что неоднократно проигрывает своим друзьям в играх на лошадях? Хотел бы я начать такую газету.

Дополнительная информация: Другими популярными ансамблевыми методами являются классификатор Случайный лес, метод Повышение градиента и широко известный пакет XGBoost, известный победой в нескольких соревнованиях по машинному обучению, будучи относительно простым в использовании. и настроиться. Самым последним дополнением к семейству является LightGBM от Microsoft, ориентированный на массово распространяемые наборы данных.

# 3 Капсульные сети (2017)

Сабур, Сара, Николас Фросст и Джеффри Э. Хинтон. « Динамическая маршрутизация между капсулами .» Достижения в системах обработки нейронной информации. 2017 г.

Литература по нейронным сетям началась с модели персептрона и дошла до сверточных нейронных сетей (CNN). Следующий большой скачок - это очень обсуждаемая тема. Одним из таких предложений является Capsule Network, предложенная Сарой Сабур, Николасом Фросстом и лауреатом премии Тьюринга Джеффри Хинтоном.

Простой способ понять капсульные сети - заменить слово «капсула» на «детектор объектов». Каждый слой «детекторов объектов» пытается идентифицировать соответствующие особенности изображения вместе с его позой (ориентация, масштаб, перекос и т. Д.). Сложив детекторы друг на друга, можно получить надежные представления объектов. По сути, капсулы не агрегируют локальную информацию для высокоуровневых функций, как это делают CNN. Вместо этого они обнаруживают части объекта и составляют их иерархически, чтобы идентифицировать более крупные структуры и взаимосвязи.

Причина №1. Как ученые, мы все должны стремиться к следующему важному достижению. Хотя мы не можем сказать, что Capsule Networks станет следующей рок-звездой, мы можем сказать, что проблема, которую они пытаются решить, актуальна. А по всем актуальным вопросам в конце концов кто-то ответит.

Причина №2: Эта статья напоминает нам, что CNN несовершенны. Они не инвариантны к поворотам и масштабированию. Хотя мы используем увеличение данных, чтобы облегчить это, ни один пластырь никогда не излечивал человека.

Причина №3:  До того, как глубокое обучение стало широко распространенным, многие методы обнаружения объектов основывались на выявлении легко обнаруживаемых частей объекта и выполнении сопоставления с образцом для баз данных / онтологий. Хинтон и его команда модернизируют этот ранний подход. Вот почему мы все должны время от времени читать классику. Многое можно было обновить.

Дополнительная информация: В прошлом году все большее внимание уделяется механизму внимания. Хотя он не пытается заменить или дополнить свертки, он предоставляет возможность для глобальных рассуждений, что является одной из многих пяток Aquiles в современных сетях.

# 4 Индуктивные предубеждения в отношениях (2018)

Батталья, Питер В. и др. « Реляционные индуктивные предубеждения, глубокое обучение и сети на графах .» препринт arXiv arXiv: 1806.01261  (2018).

Частично позиционный документ, частично обзор и частично объединение, эта статья суммирует то, что команда Deep Mind считает следующим большим достижением в глубоком обучении: графовые нейронные сети (GNN). По словам авторов:

(…). Мы утверждаем, что комбинаторное обобщение должно быть главным приоритетом для ИИ для достижения человеческих способностей, и что структурированные представления и вычисления являются ключом к реализации этой цели. Подобно тому, как биология совместно использует природу и воспитание, мы отвергаем ложный выбор между «ручной инженерией» и «сквозным» обучением и вместо этого выступаем за подход, который извлекает выгоду из их взаимодополняющих сильных сторон. Мы исследуем, как использование реляционных индуктивных предубеждений в архитектурах глубокого обучения может облегчить изучение сущностей, отношений и правил их создания. (…)

Примечание. Индуктивные смещения - это все предположения, которые алгоритм обучения делает в отношении данных. Например, линейные модели предполагают, что данные являются линейными. Если модель предполагает, что данные имеют определенную взаимосвязь, она имеет индуктивное смещение по отношению к отношениям. Таким образом, графики - это полезное представление.

Причина №1. Текущие модели CNN являются «сквозными», то есть они работают с необработанными, в основном необработанными данными. Функции не «разрабатываются» людьми, а автоматически «изучаются» алгоритмом. Многих из нас учили, что изучение функций лучше. В этой статье авторы высказывают противоположную точку зрения.

Причина №2: Большая часть ранней литературы по ИИ была посвящена вычислительным рассуждениям. Однако вычислительная интуиция преобладала. NN не размышляют над входами; они генерируют достаточно точную математическую «догадку». Графики могут быть способом преодолеть этот пробел на пути к интуитивному мышлению.

Причина №3. Комбинаторные проблемы, возможно, являются наиболее важными проблемами в информатике. Большинство из них находятся на грани (или за пределами) того, что мы считаем выполнимым или возможным. Тем не менее, мы, люди, рассуждаем естественно и без усилий. Могут ли графические нейронные сети быть ответом?

Дополнительная информация: GNN - это захватывающая и развивающаяся область. Из теории графов мы знаем, что почти все можно смоделировать в виде графа. Сергей Иванов составил отличный список новых тенденций в GNN с множеством бумажных ссылок с предстоящей конференции ICLR 2020 года.

Основные тенденции графического машинного обучения в 2020 году
2020 год только начался, но мы уже можем видеть тенденции графического машинного обучения (GML) в последних исследованиях… todatascience.com

# 5 Учебная партия Norm и Only BatchNorm (2020)

Франкл, Джонатан, Дэвид Дж. Шваб и Ари С. Моркос. « Обучение BatchNorm и только BatchNorm: о выразительной силе случайных функций в CNN .» препринт arXiv arXiv: 2003.00152 (2020).

Вы поверите, что только слои пакетной нормализации ResNet-151 могут достичь + 60% точности на CIFAR-10? Другими словами, если вы заблокируете все остальные слои на их случайных начальных весах и обучите сеть примерно пятидесяти эпохам, она будет работать лучше, чем случайная. Мне пришлось воспроизвести газету, чтобы убедиться в этом сам. «Магия» проистекает из часто забываемых параметров γ и β Batch Norm:

Причина №1. Это достаточно безумная идея, чтобы ее прочитать. Всегда приветствуются нестандартные идеи.

Причина №2: вы можете спросить себя, как слои пакетных норм могут вообще чему-либо научиться, и вы также можете задаться вопросом, зачем кому-то это нужно. Что касается многих вещей в науке о данных, мы принимаем пакетные нормы как должное. Мы считаем, что это только ускорение тренировок. Судя по всему, он может намного больше.

Причина №3. Этот документ может вызвать у вас некоторый интерес, поскольку вы узнаете, какие параметры и гиперпараметры имеют все общие слои.

Дополнительная информация: в большинстве курсов учат, что уровни пакетных норм действуют против так называемой проблемы внутреннего ковариационного сдвига. Последние данные показывают, что это не так. Вместо этого авторы утверждают, что слои BN делают общий ландшафт потерь более гладким. Другой гениальной идеей является Гипотеза лотерейного билета, которую также предложили Франкл и др..

# 6 Спектральная норма (2018)

Миято, Такеру и др. « Спектральная нормализация для генеративных состязательных сетей .» препринт arXiv arXiv: 1802.05957 (2018).

В литературе по GAN потеря Вассерштейна решает несколько ключевых проблем, связанных с обучением GAN. Однако он требует, чтобы градиенты имели норму, меньшую или равную единице (1-липшицев). Первоначальные авторы потери предложили просто обрезать веса до [-0,01, 0,01], чтобы усилить небольшие градиенты. Хакерство на жаргоне информатики. В ответ спектральная норма была предложена как плавная альтернатива ограничению весовых матриц для создания не более унитарных градиентов. Гораздо более чистое решение.

Причина №1. Нормализация - это гораздо более серьезная тема, чем думает большинство людей. Многие особые свойства могут быть реализованы с помощью специальной нормализации и тщательного проектирования функций активации.

Причина №2: это не только норма, но и регуляризация, о которой часто забывают при проектировании нейронных сетей. Приятно читать успешную статью по этому поводу, помимо отсева.

Дополнительная информация: Другими недавними достижениями в методах нормализации являются методы Групповая нормализация и Адаптивная нормализация экземпляров. В первом случае устранены некоторые недостатки, связанные с нормой партии, с небольшими размерами партий, в то время как второй является одним из важнейших достижений в передаче произвольного стиля.

# 7 Потери восприятия (2016)

Джонсон, Джастин, Александр Алахи и Ли Фей-Фей. « Потери восприятия для передачи стиля в реальном времени и сверхвысокого разрешения .» Европейская конференция по компьютерному зрению. Спрингер, Чам, 2016.

Движущей силой большинства нейронных сетей является функция потерь. Чем лучше потеря описывает, что хорошо, а что плохо, тем быстрее мы приходим к полезным моделям. В литературе большинство потерь относительно просты и могут измерять только низкоуровневые свойства. Помимо этого, очень сложно уловить семантику высокого уровня.

В статье Perceptual Loss вместо ручной разработки сложной функции потерь утверждается, что для измерения семантического сходства можно использовать предварительно обученные сети. На практике сгенерированные и наземные результаты передаются через предварительно обученную сеть VGG, и сравниваются активации определенных уровней. Подобные изображения должны иметь похожие активации. Ранние слои отражают общие черты, в то время как более поздние слои фиксируют более тонкие детали.

Причина №1. Потери - один из самых важных аспектов обучения хороших моделей. Ни один процесс оптимизации никогда не сойдется без надлежащего сигнала обратной связи. Это роль хорошего учителя: давать обратную связь.

Причина №2. Успешные новые убытки часто становятся знаковыми. Качество, достигаемое GAN, резко возросло после того, как была изобретена потеря восприятия. Понимание этой работы необходимо для понимания большей части более поздней литературы.

Причина №3. Эти нейронные потери столь же загадочны, сколь и полезны. Хотя авторы дают разумные объяснения работы этих моделей, многие из их аспектов все еще остаются открытыми, как и большинство вещей в нейронных сетях.

Дополнительная информация. Интересным аспектом нейронных сетей является возможность их комбинирования. В этой работе нейронные сети используются для решения задач нейронных сетей. Документ о топологических потерях распространяет эту идею на проблему сегментации изображений. В литературе Поиск нейронной архитектуры (NAS) нейронные сети используются для поиска новых нейронных сетей. Что касается других потерь в компьютерном зрении, то вот подробное руководство. Спасибо Sowmya Yellapragada за составление этого замечательного списка :)

Понимание функций потерь в компьютерном зрении!
Выбор правильной функции потерь может оптимизировать сходимость модели, а также помочь сосредоточиться на правильном наборе функций в… среде .com

# 8 Надам (2016)

Дозат, Тимофей. Включение импульса нестерова в адам (2016).

Большинство из нас знакомы с такими терминами, как SGD, Adam и RMSprop. Некоторым также известны менее знакомые имена, такие как AdaGrad, AdaDelta и AdaMax. Однако немногие из них посвятили некоторое время тому, чтобы понять, что означают эти имена и почему в настоящее время по умолчанию используется Адам. Tensorflow включает в себя Nadam, который улучшает Адама, но большинство пользователей об этом не подозревают.

Причина №1. В этом техническом отчете дается исчерпывающее и прямое объяснение большинства оптимизаторов нейронных сетей. Каждый из них представлен как прямое улучшение по сравнению с другими. Редко встречаются статьи, которые могут охватить такую тяжелую математическую тему на двух с половиной страницах.

Причина №2. Мы все воспринимаем оптимизаторы как должное. Понимание их обоснования может быть очень полезным для улучшения нейронных сетей. Вот почему мы заменяем Adam на RMSprop, когда он не сходится, а позже на SGD.

Для дальнейшего чтения. С 2016 года было предложено множество других улучшений оптимизаторов. Некоторые из них в какой-то момент будут объединены в основные библиотеки. Посмотрите Радам, Взгляд вперед и Рейнджер, чтобы узнать о новых идеях.

# 9 Гипотеза двойного спуска (2019)

Наккиран, Притум и др. « Глубокий двойной спуск: где большие модели и больше данных вредны .» препринт arXiv arXiv: 1912.02292 (2019).

Принято считать, что маленькие модели не подходят, а большие - больше. Тем не менее, где-то над радугой, очень высоко, все еще сияют более крупные модели.

В этой статье Наккиран и др. демонстрируют доказательства того, что некоторые модели демонстрируют феномен «двойного спуска» по мере увеличения их размеров. Точность теста снижается, затем увеличивается, затем снова снижается. Кроме того, они утверждают, что точка перегиба находится на «пороге интерполяции»: точка, в которой модель достаточно велика, чтобы интерполировать данные. Другими словами, когда модель обучается сверх всего, что советуют в данной области, она начинает улучшаться.

Причина №1. В большинстве курсов учитывается компромисс между смещением и дисперсией. Видимо, этот принцип применим лишь в определенной степени - пора пересмотреть основы.

Причина №2: если увеличение количества эпох также пересекает точку интерполяции, мы все должны отказаться от ранней остановки и посмотреть, что произойдет. Все вместе мы можем заниматься наукой.

Причина №3. Это и №5 являются хорошим напоминанием о том, что мы еще многого не знаем. Не все, что мы узнали, верно и не все, что интуитивно понятно.

Дополнительная информация: гораздо легче читать статью Набор хитростей для классификации изображений. В нем вы найдете несколько простых и действенных советов, как избавиться от лишнего падения производительности ваших моделей.

# 10 Об измерении интеллекта (2019)

Франсуа, Шоле. « Об измерении интеллекта .» препринт arXiv arXiv: 1911.01547 (2019).

Большинство из них стараются изо всех сил, Франсуа Шоле стремится к Луне.

В этом списке все упомянутые статьи немного продвинули практическое и теоретическое состояние дел. Некоторые из них получили широкое распространение, некоторые выступают за ту или иную технологию, а другие вносят существенные улучшения в конвергенцию. Тем не менее, слон в комнате, интеллект, остается загадочной и ускользающей темой, если не сказать загадочной или мистической.

По сей день прогресс в области ИИ в направлении общего интеллекта приблизительно измеряется только «достижениями». Время от времени алгоритм побеждает людей в сложных задачах, таких как шахматы, Dota 2 или го. Когда это происходит, мы говорим, что на шаг ближе. Однако это не позволяет измерить компонент интеллекта, связанный с эффективностью приобретения навыков.

В этой (длинной) статье Чолле утверждает: Чтобы сознательно продвигаться к более интеллектуальным и более похожим на человека искусственным системам, мы должны следовать соответствующему сигналу обратной связи. Другими словами, нам нужен правильный тест машинного интеллекта. Своего рода тест на IQ. Таким образом, автором был предложен Корпус абстракций и рассуждений (ARC):

«ARC можно рассматривать как общий тест искусственного интеллекта, тест синтеза программ или тест психометрического интеллекта. Он нацелен как на людей, так и на системы с искусственным интеллектом, которые стремятся имитировать человеческую форму общего гибкого интеллекта ».

Причина №1. Хотя наука о данных - это круто и модно, искусственный интеллект - это реальная вещь. Без искусственного интеллекта не было бы науки о данных. И его конечная цель не в том, чтобы исследовать данные, а в том, чтобы создать машины, которые могут иметь собственные идеи. Найдите время, чтобы поразмышлять над фундаментальными вопросами: что такое интеллект и как его измерить? Эта статья - хорошее начало.

Причина №2: В последние десятилетия в сообществе ИА доминировали идеи математической логики и дедуктивного мышления. Тем не менее, SVM и нейронные сети продвинули эту область гораздо дальше, чем логические методы, без каких-либо явных аргументов. Сможет ли ARC вызвать возрождение классических техник?

Причина № 3: Если Шолле прав, нам еще далеко до создания алгоритмов, которые могут решить набор данных ARC. Если вы ищете набор данных, с которым можно поиграть в свободное время, вот тот, который вас займет :)

Дополнительная информация: в 2018 году Джеффри Хинтон, Йоша Бенджио и Ян ЛеКун получили премию Тьюринга за свою новаторскую работу по основам глубокого обучения. В этом году на конференции AAAI они поделились своим мнением о том, каким будет будущее ИИ. Посмотреть его можно на Youtube:

Я хотел бы завершить эту статью цитатой Джеффри Хинтона, которая, как мне кажется, резюмирует все это:

«Будущее зависит от какого-нибудь аспиранта, который с большим подозрением относится ко всему, что я сказал».

GloVe покорила матрицу совместной встречаемости, сделав это неявно. AdaBoost сделал сотни слабых классификаторов самыми современными. Капсульные сети бросают вызов CNN, в то время как графические нейронные сети могут заменить их все. Ключевой прогресс может быть достигнут за счет нормализации, потерь и оптимизаторов, в то время как мы все еще находим место, чтобы подвергнуть сомнению нормы партии и обучить чрезмерно параметризованные модели.

Интересно, сколько еще предстоит узнать о выпадении из школы и ReLU.

Надеюсь, это чтение было захватывающим для вас, как и для меня. Пожалуйста, дайте мне знать о других документах, которые, по вашему мнению, подходят для этого списка. Буду рад прочитать и рассмотреть для будущих списков 😃

Изменить: после написания этого списка я составил третью из десяти статей GAN, которые нужно прочитать в 2020 году. Если вам понравилось читать этот (и предыдущий) список, возможно, вам понравится и третье:

Документы GAN, которые стоит прочитать в 2020 году
Чтение предложений по генерирующим состязательным сетям. todatascience.com

Не стесняйтесь комментировать или связаться со мной. Если вы новичок в Medium, настоятельно рекомендую подписаться. Статьи среднего размера - идеальная пара со StackOverflow для специалистов в области данных и ИТ, а тем более для новичков. Пожалуйста, подумайте об использовании моей партнерской ссылки при регистрации.

Спасибо за прочтение :)