Возможности глубокого обучения

Хотя цикл ажиотажа Garter считает, что мы достигли пика глубокого обучения в 2019 году, я считаю, что глубокое обучение находится на ранней стадии, и впереди нас ждет множество чрезвычайно ценных возможностей. Вот некоторые из возможностей, которые я вижу в следующем десятилетии.

1. Глубокое обучение в реальном мире

Ключевой сдвиг, который произойдет в этом десятилетии, — это перемещение глубокого обучения из Интернета в реальный мир. В то время как основным моментом глубокого обучения в 2010-х годах была классификация видео о кошках на YouTube, в этом десятилетии будут доминировать автономные транспортные средства, дополненная реальность и другие приложения реального мира.

В то время как предыдущее поколение моделей глубокого обучения располагалось на большом сервере в облаке, следующее поколение будет модели на устройствах (например, телефонах, автомобилях и, возможно, даже людях). Сеть и ее алгоритмы ранжирования сами выбирают канонические представления вещей с низкой сложностью, в то время как реальный мир неумолим в своей бесконечной сложности и имеет непреложные последствия. По мере того, как глубокие сети перемещаются в реальный мир, важно, чтобы мы понимали это правильно.

Следите за нашей следующей публикацией о выводе на рынок более безопасных беспилотных автомобилей, где мы расскажем об этом более подробно.

2. Автоматизация создания наборов данных

Чем больше данных, тем лучше — большинство исследователей и инженеров уже знают это интуитивно, но исследования также это подтверждают. При нынешнем состоянии глубокого обучения ограничивающим фактором является доступ к данным. Большинство людей считают, что для создания больших размеченных наборов данных требуется огромное количество человеческих ресурсов, что требует больших финансовых затрат и времени.

Однако я считаю, что большая часть ручной маркировки данных не нужна и в ближайшем будущем устареет. Как только правило адекватно выражено посредством маркировки человеком, алгоритм может изучить правило и применить его к большинству случаев — людям нужно только обработать длинный хвост. Для этого уже существует несколько известных методов, включая классическое обучение без учителя, обучение с самоконтролем и дистилляцию/активное обучение. Однако эти подходы — лишь верхушка айсберга, и предстоит провести много исследований.

3. Переработка старых моделей

В наши дни на конференциях по глубокому обучению ходит шутка. Обычно есть 2 семинара под названием «Эффективное глубокое обучение» и «Энергоэффективное глубокое обучение». Первая группа сжигает тонны вычислений, пытаясь разработать передовые модели, которые работают на устройствах с ограниченными ресурсами, в то время как вторая проповедует о безрассудстве первой и внедряет методы обучения моделей экологически устойчивым способом. Я заметил, что организаторы всегда планируют их одновременно в разных комнатах, возможно, не зря.

Хотя я думаю, что оба варианта одинаково важны, не секрет, что углеродный след обучения глубокому обучению со временем увеличивается. По некоторым оценкам, это в 5 раз хуже, чем иметь машину.

Некоторым это может показаться удивительным, но я думаю, что переработка старых моделей открывает огромные возможности. Исследователи в академических кругах и промышленности обычно отказываются от старых моделей всякий раз, когда появляется лучшая, фактически выбрасывая кучу вычислений и ресурсов. Есть момент, когда окупаемость новой модели становится равной объему вычислений, используемых для обучения старых моделей, и со временем мы получаем чистый убыток (при условии, что рост в какой-то момент насыщается). Если мы сможем научиться использовать ранее обученные модели для улучшения системы, а не выбрасывать их, мы сможем значительно улучшить рост и производительность.

Мы подумали об этом и разработали несколько способов повышения устойчивости наших моделей в NuronLabs, но это все еще очень малоизученная возможность.

4. Воспроизводимость исследований глубокого обучения

Продуктивность исследований напрямую связана с производительностью труда в глубоком обучении, потому что путь от исследования к производству уникально короток по сравнению с большинством других областей. Мы должны использовать это намного больше, сохраняя целостность исследований.

Дело в том, что большая часть текущих исследований глубокого обучения невоспроизводима. Давление публиковать или погибнуть привело к тому, что сообщество сообщает о результатах независимо от того, действительно ли они продвигают область вперед или нет.

Этому способствуют такие вещи, как отказ от публикации кода, предварительный выбор случайных начальных значений, сообщение о максимальном достигнутом результате вместо среднего/дисперсии и отбор визуальных результатов.

Есть и другие важные проблемы с текущим состоянием глубокого обучения, такие как использование спуска аспиранта для повышения результатов или использование большого количества ресурсов, которые я буду обсуждать в другом посте, но это то, что может быть решено в ближайшее время.

Ознакомьтесь с этим сообщением в блоге, в котором описывается потенциальное решение этой проблемы.

5. Электроинструменты ИИ

Глубокое обучение сегодня чрезвычайно повторяющееся и избыточное. У наиболее продуктивных исследователей и инженеров в области машинного обучения есть собственная версия шаблонного кода для таких задач, как визуализация результатов, обучение модели, подготовка данных и т. д. тонн обслуживания всякий раз, когда выполняется обновление пакета.

Многие люди уже знают об этом и пытаются решить эту проблему, вводя большие абстракции в код (например, PyTorch Ignite, Keras, fast.ai, PyTorch Lightning). Это значительное улучшение по сравнению с предыдущими инструментами и значительно повышает производительность.

Однако эти инструменты больше напоминают ПК, а не Mac. Я думаю, что есть прекрасная возможность представить набор хорошо разработанных, вертикально интегрированных инструментов, которые являются мощными, но элегантными.

6. Использование человеческих фильтров для творчества ИИ

ИИ явно способен на новизну. Однако многое из этого новшества представляется несколько случайным или спорадическим. Люди действительно хорошо умеют делать интуитивные суждения о красоте, некоторые из которых можно даже измерить с помощью биологических маркеров, таких как реакция отвращения. Мы могли бы представить себе систему, в которой люди подвергаются воздействию нескольких экземпляров искусства, созданного искусственным интеллектом, и фиксируется их истинная эстетическая реакция на представленное изображение. Это позволит обучающему циклу с учителем изучить красоту изображения.

Я считаю, что существует неотъемлемый набор эстетических аксиом, которые распространены среди людей. Задача состоит в том, чтобы понять эти мотивы. Интеграция биологических петель обратной связи, которые мы развивали на протяжении тысячелетий, с современными петлями обратной связи глубокого обучения может быть чрезвычайно эффективной.