Дайджест масштабного ИИ по машинному обучению

Введение

Команда ML Team at Scale еженедельно проводит группы чтения, участники которых выбирают документы из широкого сообщества AI/ML и обсуждают их, начиная от тем компьютерного зрения и заканчивая НЛП и активным обучением. Здесь мы опишем краткое изложение некоторых идей, которые мы получили из различных статей, и то, как мы стремимся использовать некоторые из этих знаний в будущих исследовательских проектах и приложениях для масштабирования бизнеса ИИ.

Обнаружение полезных представлений предложений в больших предварительно обученных языковых моделях
Докладчик: Нишант Субрамани

Это первая исследовательская работа Scale, и мы написали пост в блоге с кратким изложением статьи. В этой статье основное внимание уделяется тому, можем ли мы адаптировать готовые предварительно обученные языковые модели в качестве универсальных декодеров. Чтобы считаться универсальным, декодер должен иметь неявное представление для любого целевого предложения, чтобы он мог восстановить это предложение точно при условии его представления. Мы исследовали, существуют ли такие представления и легко ли их обнаружить. Эксперименты показывают, что эти репрезентации существуют не только для предложений самых разных жанров, но также и то, что наши методы могут почти идеально восстанавливать эти предложения без какой-либо точной настройки лежащей в их основе языковой модели.

Масштабируемый поиск ближайшего соседа для оптимального транспорта
Докладчик: Анастасия Алохина

Авторы этой статьи рассматривают задачу поиска ближайшего соседа по отношению к расстоянию Вассерштейна. Поскольку расстояние Вассерштейна стало популярным в средах и доменах данных с высоким уровнем ресурсов (изображения, текст и т. д.), поиск стал чрезмерно медленным. В связи с этим большое значение имеют приближенные методы. Авторы представляют вариант Quadtree, называемый Flowtree, который формально демонстрирует лучшую асимптотическую точность и эмпирически показывает, что он превосходит существующие методы на множестве различных наборов данных реального мира как по времени выполнения, так и по точности.

Flowtree — это быстрый алгоритм поиска ближайшего соседа для оптимального транспорта (расстояние Вассерштейна-1), который имеет линейное время работы и повышает производительность SOTA до 7 раз. Они делают это, оценивая оптимальный поток дерева в исходном метрическом пространстве.

В Scale AI мы работаем с большим количеством многомерных данных, таких как документы и изображения, для различных задач. Для этого нам часто нужно найти хорошие пространства представления для этих точек данных, чтобы мы могли выполнять быстрый и очень точный поиск подобия, чтобы найти выбросы в наборах данных, чтобы найти ошибки в маркировке и найти примеры для маркировки, чтобы улучшить наши модели, используя активное изучение. Мы думаем, что метод дерева потока может быть бесценным, поскольку дает нам возможность использовать другое расстояние для этой цели, и это то, что мы будем изучать в будущем.

Возвращение к структуре из движения
Докладчик: Хунбо Тянь

Structure-from-Motion (SfM) — это область методов компьютерного зрения, целью которых является воссоздание полных трехмерных сцен только из серии изображений. Точный алгоритм SfM может воспроизводить цветные облака точек, подобные LiDAR. Авторы этой статьи вместе с тезисом Шёнбергера представили надежный вычислительный конвейер для точной плотной 3D-реконструкции. Авторы также представили COLMAP — программное обеспечение с открытым исходным кодом, ускоренное CUDA, для воспроизведения результатов.

В Scale AI наш конвейер маркировки не подвергается тем же онлайн-вычислительным ограничениям, что и наши клиенты. Это позволяет нам применять пакетные методы для обогащения нашего набора 2D-данных, позволяя нашим маркировщикам-людям захватывать 3D-контексты только из изображений.

Обучение репрезентациям для извлечения информации из документов, похожих на формы
Докладчик: Нишант Субрамани

Авторы стремятся извлекать структурированную информацию из формообразных документов. Они заметили, что формы имеют поля, которые часто соответствуют хорошо понятным типам и часто связаны с определенной ключевой фразой, которая имеет с ней визуальную связь. Они также отмечают, что ключевые фразы в документах взяты из небольшого словарного запаса. Благодаря этим наблюдениям авторы строят систему, состоящую из двух частей: генерация кандидатов и оценка и назначение.

На этапе генерации кандидатов каждый тип поля связывается с генератором кандидатов на основе облачной службы извлечения сущностей. Затем обнаруживаются пролеты. В счете несколько дат. Каждая дата в счете-фактуре становится кандидатом для каждого поля даты в целевой схеме. Этот процесс повторяется для каждого целевого поля.

На этапе оценки и назначения цель состоит в том, чтобы найти правильного кандидата на извлечение для каждого поля. Для этого баллы вычисляются для каждого кандидата независимо с использованием нейронной модели. Затем для каждого поля назначается наиболее вероятный кандидат. Этот процесс дает независимое изученное представление, основанное только на соседстве кандидатов (это совершенно не зависит от других полей-кандидатов). Модель нейронной оценки представлена ниже.

Наши основные выводы заключаются в том, что структурированное извлечение не очень хорошо изучено академическим сообществом, но относительно просто. Представленная система извлечения обладает многообещающей точностью и хорошо обобщается на различные области. Представления также имеют некоторую интерпретируемость. В конечном счете, некоторые выводы из этой статьи могут повлиять на нашу работу над Масштабным документом.

Big Transfer (BiT): общее обучение визуальному представлению
Докладчик: Феликс Лау

В этой статье основное внимание уделяется тому, как перенести предварительно обученные представления на другие задачи в визуальном пространстве. Они предлагают рецепт под названием Big Transfer (BiT) и достигают очень высоких результатов по ILSVRC-2012 (87,5% точности первого уровня), CIFAR-10 (99,4%) и тесту адаптации визуальных задач (VTAB; 76,3%).

BiT имеет две фазы: восходящую и нисходящую. В предварительном обучении восходящего потока авторы сначала исследуют масштаб вычислительного бюджета и то, как это влияет на производительность. Во-вторых, они смотрят на нормализацию земли и стандартизацию веса, что значительно помогает при тренировках как с небольшими, так и с большими партиями. При нисходящей передаче авторы предлагают дешевую методологию точной настройки с использованием BiT-HyperRule для выбора наиболее важных гиперпараметров для настройки в зависимости от собственного разрешения изображения задачи и количества точек данных. Гиперпараметрами, которые они считали важными, были продолжительность графика обучения, разрешение и необходимость использования регуляризации MixUp.

Есть несколько выводов из этого метода, которые нам показались интересными. Очень важно сбалансировать вычислительный бюджет и упростить экспериментальный конвейер, когда это необходимо. BiT-HyperRule, фокусирующийся только на нескольких гиперпараметрах, был просветляющим. Нас интересовала динамика того, как взаимодействуют большие партии, групповая нормализация и стандартизация по весу, и мы были удивлены тем, насколько плохо работала нормализация по партиям по сравнению с нормализацией по группам и стандартизацией по весу для больших партий. Эмпирическая сила групповой нормализации и стандартизации веса также удивила нас, и мы начнем изучать эти методы в некоторых из наших моделей компьютерного зрения с большим количеством доступных данных. Однако наиболее впечатляющей частью была эмпирическая эффективность обучения за несколько попыток по сравнению с базовым уровнем. Мы пытаемся создавать модели, которые быстро адаптируются к новым клиентам и доменам и часто испытывают трудности с тонкой настройкой, поэтому эти идеи очень актуальны.

Learning Loss for Active Learning
Докладчик: Ришаб Гоял

Авторы представляют метод активного обучения, который не зависит от задачи, путем подключения модуля прогнозирования потерь к целевой сети и обучения его способности прогнозировать целевые потери немаркированных входных данных. Затем модуль может предоставить информацию о данных, которые модель может предсказать неправильно, и, таким образом, улучшить общую модель, выбирая только те примеры, которые нужно взять и пометить.

Их общий процесс заключается в том, что для каждого помеченного примера вы прогнозируете цель и прогнозируете потерю для своего прогноза. Затем вы берете немаркированный пул и пропускаете его через модель, чтобы получить прогнозируемые потери. Наконец, вы аннотируете первые k точек данных и добавляете их в помеченный обучающий набор. Модуль прогнозирования потерь использует ранжирование потерь.

Как компания, занимающаяся маркировкой данных, мы очень заинтересованы в активном обучении и в том, как мы можем использовать наши сильные стороны для лучшего построения моделей машинного обучения. Нам очень понравился этот подход, потому что он широко применим, но мы были обеспокоены тем, что может быть много вырожденных случаев. Мы не были уверены, что модуль прогнозирования убытков будет достаточно сильным, чтобы предложить значительные улучшения по сравнению с методами, основанными на неопределенности или охвате, такими как методы на основе энтропии, запросов по комитетам и базового набора.

LayoutLM: предварительная подготовка текста и макета для понимания изображения документа
Докладчик: Малкольм Гривз

Авторы пытаются решить проблему автоматизированного понимания из отсканированных деловых документов. Они используют как компьютерное зрение, так и методы обработки естественного языка с помощью текстовой и визуальной информации о макете для предварительного обучения своей системы. Их система достигает SOTA в ряде задач анализа макета, понимания квитанций и классификации изображений документов. Они утверждают, что их эмпирические характеристики основаны на их новых функциях потерь: потери в модели визуального языка с маской (MVLM) и потери в классификации документов с несколькими метками (MDC).

MVLM расширяет потерю модели маскированного языка от BERT, случайным образом выбирая некоторые слова для маскировки. Затем они сохраняют двухмерное позиционное встраивание замаскированного токена и заставляют модель предсказывать текст слова. MVLM заставляет модель понимать языковой контекст и двухмерные отношения между словами в документе. MDC предполагает, что документы могут иметь несколько меток, и это стандартная потеря перекрестной энтропии. Это необязательно и, похоже, помогает в задачах классификации изображений документов.

Мы нашли эту статью интересной, но требовательной к вычислительным ресурсам: наряду с их функциями потерь, ключевым вкладом этой статьи является их предварительная подготовка. Без значительного предварительного обучения эти модели не работают должным образом. Эта работа требует готового OCR и рассматривает его как настоящую правду, что упрощает работу, но делает ее менее практичной для специалистов по анализу документов. Для задач бизнес-документов, которые берет на себя наша команда машинного обучения, нам часто нравится иметь больший контроль над задачей OCR. Иногда полезно иметь возможность настроить OCR, чтобы обеспечить лучшие результаты, зависящие от последующих задач. Мы проводим большой анализ документов в Scale, но не можем запутать или объяснить компонент OCR, который действительно вызывает некоторые ошибки (например, с почерком). Хотя этот подход требует аннотаций на уровне слов, Scale имеет уникальную возможность получать большое количество этих трудоемких меток, используя нашу платформу маркировки.

Упрощение моделей с помощью немаркированных выходных данных
Докладчик: Александр Маттон

В этой статье основное внимание уделяется задачам, результаты которых должны подчиняться некоторым ограничениям. Это происходит в псевдокоде, например, для кодирования транскрипции. В конечном итоге нам нужен код, который компилируется и работает без ошибок. Обычный способ решения этих задач — построить единую сквозную модель и надеяться, что она изучит сопоставление ввода-вывода и поймет ограничения вывода. Авторы предлагают новый способ решения этих задач, заменив исходную модель двумя подмоделями: базовым предиктором и шумоподавителем. Цель базового предиктора — узнать соответствие между входом и выходом. Цель шумоподавителя — изучить ограничения выходного пространства, чтобы зафиксировать вывод базового предиктора.

Есть причина, по которой это разложение работает хорошо. Поскольку шумоподавитель упрощает работу базового предиктора, теперь можно повысить регуляризацию базового предиктора, не влияя на общую производительность модели. Это, в свою очередь, приводит к решениям, которые лучше обобщают невидимые данные. Большим преимуществом этой архитектуры является то, что шумоподавитель можно обучать на немаркированных выходных данных, которых часто бывает много (например, на github имеется огромное количество компилируемых фрагментов кода).

Большое количество задач фактически накладывает ограничения на вывод (например, генерация молекул или перевод с одного языка на другой). В Scale наша команда машинного обучения также решает такие проблемы. В этой статье представлен очень общий способ увеличить наши последующие оценки по ним.

Присоединяйтесь к нашей команде
Если вы хотите присоединиться к нашей растущей команде инженеров, загляните на нашу страницу вакансий для поиска вакансий.

Дайджест масштабного ИИ по машинному обучению — 3 квартал 2020 г.

Вопросы по теме