Модели в глубоком обучении требуют большого количества размеченных данных, чтобы повысить точность и производительность по сравнению с другими подходами. Однако доступность такого большого количества размеченных данных является узким местом для различных доменов. Одним из новых подходов, который ранее демонстрировался для получения более точных результатов, является подход под названием Tri-training [6], в котором 3 отдельные модели были обучены с частичными обучающими данными для создания прокси-меток на неконтролируемых данных.

После этого были применены несколько стратегий опроса (см. Разделы ниже) для выборки данных на основе сгенерированных прогнозов, и три модели были циклически переобучены на расширенных разбиениях данных и, следовательно, называются активным обучением. Наша цель состоит в том, чтобы итеративно настроить модели глубокого обучения с использованием полуконтролируемого обучения для повышения производительности модели и проанализировать результаты стратегий в разных областях, чтобы получить общее направление и исключения из правила.

Улучшение в основном сосредоточено на том, что было бы наилучшей стратегией для уменьшения потребности в больших наборах аннотированных данных при сохранении почти эквивалентной или лучшей производительности, чем у модели с аналогичным размером выборок данных.

Мотивация:

Мы можем повысить точность модели машинного обучения, обученной на большом наборе данных, путем точной настройки ее на относительно меньшем наборе данных. Существует большое количество неконтролируемых данных, которые можно использовать для увеличения размера обучающих данных. Это может привести к повышению производительности на тестовых данных и может адаптировать модель для хорошей работы с невидимыми данными. Ручная маркировка неконтролируемых данных — громоздкий процесс, и поэтому мы хотели протестировать тройное обучение [6] для создания прокси-меток из неконтролируемых данных в неисследованных ранее доменах, таких как мультимодальные домены, такие как VQA. Tri-обучение было охарактеризовано как независимый от модели подход к маркировке прокси для неконтролируемой адаптации домена. Мы также хотели проверить, можно ли использовать тройное обучение для выявления важных примеров из неконтролируемых наборов данных. Этот процесс можно многократно повторять для повышения точности модели (активное обучение).

Связанная работа:

В трехуровневом учебном документе [1] три классификатора, обученные на наборах данных UCI, использовались для получения прогнозов по немаркированным данным, а затем с использованием стратегии опроса согласия большинства между моделями, чтобы решить, следует ли увеличивать данные обратно до исходных разделений данных. Однако здесь выборочные данные были добавлены к разделению данных, которое принадлежало несогласной модели. В другом учебном документе [2] две обученные модели использовались в наборе данных Amazon Reviews для опроса неразмеченных данных, а третья модель использовалась для совместного обучения на исходных и расширенных разбиениях.

Они также провели те же эксперименты с наборами данных изображений MNIST, SVHN, SYN Digits и SYN Signs и заметили значительное повышение точности по сравнению с исходным уровнем. В другой статье [9] такие стратегии, как максимизация прироста информации при обучении и целевых доменах, использовались для интеллектуальной выборки данных и добавления обратно к разделению обучения. Мы обнаружили, что подход [1] приводил к относительно худшей производительности, когда прогнозы возвращались, когда все три модели согласовывались, в отличие от двух моделей в базовом пробном запуске.

Таким образом, мы решили принять три модели соглашения для наших стратегий. Мы вносим дополнительный вклад в идею, использованную в [2]. Мы принимаем идею циклического обучения из [9], хотя следует отметить, что они не используют три модели принятия решений и полагаются исключительно на стратегию.

Методология:

Модели, используемые для всех различных областей, являются относительно классическими, поскольку цель здесь состоит не в том, чтобы придумать новую модель для улучшения существующей базовой линии, а в том, чтобы найти способы улучшить производительность модели за счет использования неконтролируемых данных. Кроме того, базовые модели, выбранные для каждой области для реализации нашего метода, были выбраны с учетом вычислительных ограничений, и, следовательно, модель может не дать S.O.T.A. результаты для этого конкретного набора данных.

Активное обучение — это особый случай машинного обучения, в котором алгоритм обучения может интерактивно запрашивать пользователя (или какой-либо другой источник информации) для получения желаемых результатов в новых точках данных. Бывают ситуации, когда неразмеченных данных достаточно, и их можно использовать для улучшения существующих моделей. В таком сценарии алгоритмы обучения могут активно запрашивать у пользователя/учителя метки. Этот тип итеративного обучения называется активным обучением. Поскольку учащийся выбирает примеры, количество примеров для изучения концепции часто может быть намного меньше, чем количество, необходимое при обычном обучении с учителем.

Мы использовали тройное обучение для аннотирования неразмеченных данных. Tri-training — один из самых известных методов обучения с несколькими представлениями, который использует соглашение трех независимо обученных моделей для уменьшения смещения прогнозов на неразмеченных данных. Главное требование к тритренингу — разнообразие исходных моделей. Этого можно достичь, используя одну треть наших входных данных для каждой из трех моделей. Затем выполняется стратегия опроса, чтобы дополнить примеры из неконтролируемого набора данных обратно в наш входной набор данных.

В соответствии с приведенным ниже алгоритмом мы обучаем 3 модели исходных обучающих данных, используя бутстреп-выборку. Затем на этих образцах обучаются три модели m1, m2 и m3. Немаркированная точка данных добавляется к обучающему набору модели в зависимости от того, как 3 модели согласуются с ее меткой. Этот процесс повторяется в течение 3 итераций в наших экспериментах.

Стратегии выборки (опроса):

Стратегия формирования выборки 1. Любые две модели согласуются в выборке. Замените их предсказания меткой наземной истины.

Стратегия выборки 2. Все три модели предсказывают один и тот же ярлык на выборке. Замените их прогнозы меткой истинности (даже если прогнозы разные).

Стратегия формирования выборки 3. Все три модели предсказывают один и тот же ярлык для выборки. Используйте их прогнозы в качестве меток для выборки.

Домены и наборы данных:

Мы провели наши эксперименты в следующих областях, используя следующие модели:

  1. Визуальный ответ на вопрос: набор данных VQA 2.0 с использованием «Neural VQA» [3]
  2. Ответы на вопросы: Стэнфордский набор данных для ответов на вопросы (SQuAD) 2.0 [12] с использованием «двунаправленного потока внимания» [8]
  3. Классификация аудио: набор данных о городских звуках с использованием «расширенной CNN»
  4. Классификация изображений: CIFAR10 с использованием «VGG16».
  5. Классификация изображений: CIFAR100 с использованием «VGG16».

Процедура:

  1. Обучите 100% обучающего набора данных для соответствующего домена. Оцените набор данных проверки и задокументируйте точность. Мы называем эту модель «Оракул».
  2. Разделите входной обучающий набор данных на соотношение 70% — 30%. Разделение на 30% — это наш неконтролируемый набор данных.
  3. Обучите модель для n эпох, используя все 70% обучающих данных. Оцените набор данных для проверки и задокументируйте точность и размер набора данных для обучения. Эта модель, обученная с использованием 70% данных, в наших результатах упоминается как «базовый уровень».
  4. Используйте 3 стратегии, описанные выше, для обучения моделей:

а. Использование прогнозов, в которых все 3 модели согласованы.

б. Использование прогнозов, в которых согласованы все 3 модели. Замените все прогнозы на правду, добавьте их в набор обучающих данных.

в. Использование прогнозов, в которых согласуются две модели. Замените все прогнозы на правду, добавьте их в набор обучающих данных.

5. Повторите приведенные ниже шаги для 3 итераций активного обучения для каждого из 3 описанных выше случаев стратегии выборки:

а. Разделите базовый набор данных на 3 подмножества.

б. Обучите 3 модели на основе каждого разделения данных 1/3.

в. Создайте прогнозы для оставшихся примеров из нашего неконтролируемого набора данных, используя все 3 модели.

д. Добавить результаты (на основе текущего метода агрегирования) к обучающим данным для всех трех случаев.

е. Обучите новую модель, используя исходные 70% данных + недавно добавленные данные для n эпох. Оцените производительность проверочного набора данных и задокументируйте точность и текущий размер обучающего набора данных.

6. Наконец, обучите новую модель со случайно выбранными данными, количество выборок которых равно числу в итерации 3. Сделайте прогнозы по этой модели. Эта модель называется «Случайная модель» в результатах.

Распараллеливание нескольких GPU для ускоренного обучения модели.

Мы создали новую архитектуру для распараллеливания и автоматизации трехуровневого обучения на нескольких виртуальных машинах (ВМ), размещенных на Google Cloud Platform (GCP). Мы инициировали процесс, создав три виртуальные машины с поддержкой графического процессора вместе с сегментом хранилища (для хранения прогнозов, моделей, оценок и т. д.) и двумя свойствами DataStore для отслеживания хода обучения и агрегации результатов (дополненные данные после применения стратегии). Наша основная идея заключалась в том, чтобы три виртуальные машины параллельно обучали одну модель, каждая независимо друг от друга, и как только виртуальная машина завершила свое обучение, она загружала свои модели и прогнозы (на немаркированном наборе данных) в корзину хранения, а затем обновляла свой статус на «Готово» в Google DataStore. . Затем одна из виртуальных машин (которая предназначена для агрегированных результатов) будет постоянно опрашивать DataStore (для свойства состояния обучения), и когда она находит статус всех виртуальных машин как «Готово», она загружает прогнозы всех виртуальных машин, запускает агрегацию. сценарий для них (в зависимости от используемой стратегии) ​​и загрузить агрегированные результаты обратно в корзину хранилища. На этом этапе все три виртуальные машины загружают агрегированные результаты, дополняют данные до помеченного набора данных и удаляют их из непомеченного набора данных. Затем весь процесс повторяется до тех пор, пока не потребуется столько итераций активного обучения. Вот псевдокод для нашего подхода:

Эксперименты в разных доменах:

Домен 1. Визуальные ответы на вопросы:

Набор данных VQA v2 состоит из 82 783 обучающих изображений из набора данных COCO. С каждым изображением связано от 3 до 5 вопросов, всего 443 757 вопросов. На каждый вопрос в наборе данных есть 10 правдивых ответов, что в сумме составляет 4 437 570 обучающих аннотаций. Набор для проверки состоит из 40 504 изображений с 214 354 вопросами и 2 143 540 ответами.

Основное объяснение:

Мы использовали модель VIS+LSTM [3] для визуальных ответов на вопросы. Последний скрытый слой 19-слойной сети Oxford VGG Conv Net [5], обученной на ImageNet 2014 Challenge, использовался для создания векторов признаков для наших изображений. Для вопросов мы использовали модель встраивания слов из [3]. Вложения слов обучаются вместе с остальной частью модели. Изображение используется так, как если бы оно было первым словом предложения. Линейное или преобразование использовалось для сопоставления векторов признаков изображения с размерностью 4096 с вектором с размерностью 300 или 500, который соответствует размерности вложений слов. Они передаются в качестве входных данных для LSTM. Выходные данные LSTM передаются на уровень softmax на последнем временном шаге для генерации ответов.

Результаты:

Легенда к приведенному выше графику:

Стратегия 1: Любые 2 согласны

Стратегия 2: все 3 согласны. Использование наземных истин

Случайная модель: Модель с одинаковым номером. образцов в качестве итерации 3 для сравнения улучшений производительности

Вывод:

Обе стратегии 1 и 2 способны превзойти базовый уровень в 70% в каждой из трех итераций активного обучения. Точность модели итеративно повышается в конце каждой итерации активного обучения по мере того, как к нашему исходному набору данных добавляется больше данных. Кроме того, для обеих стратегий модель после 3 итераций превосходит случайную модель. Это приводит нас к выводу, что обе стратегии опроса с тройным обучением выбрали важные примеры для расширения.

Образцы доказательств:

Модели с тройным обучением показали хорошие результаты на вопросах, для которых «тип_ответа» = «да/нет». Некоторые из них показаны ниже:

Большинство пар изображение/вопрос, которые не согласовывались в тройном обучении, имели основную истину «тип_ответа» = «другое», что означает, что они не подпадали под популярные типы ответов «да/нет» или «число». Это может быть связано с тем, что наши модели тройного обучения, возможно, не видели словарь истинной истины, связанный с данной парой изображение/вопрос в нашем немаркированном наборе данных. Следовательно, было бы неправильно предсказать метку для этой точки данных. Некоторые примеры этого сценария показаны ниже

Домен 2: Ответ на вопрос:

Набор данных SQuAD 2.0 [12] представляет собой набор данных для понимания машинного чтения, который состоит примерно из 130 000 вопросов. Набор данных структурирован на самом высоком уровне и состоит из 442 статей, каждая статья имеет последовательность абзацев, в каждом абзаце содержится набор вопросов. Каждый вопрос имеет либо ответ с индексом контекста, из которого был взят ответ, либо в одной трети случаев ответ отсутствует, что позволяет моделировать различие между двумя случаями.

Основное объяснение:

Для исходного уровня со 100% данными мы используем модель BiDAF. Мы используем векторы GLoVE в слое внедрения. Только встраивания слов используются с более легкой сетью для более быстрого обучения. Кодер RNN используется для установления отношений между временными шагами встраивания. Уровень двунаправленного внимания сначала создает матрицу сходства между вопросом и контекстом, а затем вычисляет внимание «вопрос-контекст» и «контекст-вопрос», которые комбинируются со скрытыми состояниями. Следующий уровень кодировщика RNN устанавливает отношения между представлениями из предыдущего уровня внимания, и, наконец, выходной уровень выдает вектор вероятности, который количественно обозначает вероятность того, что ответ начинается и заканчивается в определенных точках контекста. Для оптимизации используется отрицательная потеря вероятности регистрации в начальном и конечном местоположениях контекста.

Мы не могли активно использовать стратегию 3 для этой области, потому что аннотации ответов на вопросы должны содержать индекс контекстной строки, из которой был выбран контекст. Это потребует ручной аннотации для десятков тысяч вопросов, что является трудоемкой задачей, требующей много времени.

Результаты:

Легенда к приведенному выше графику:

Стратегия 1: Любые 2 согласны

Стратегия 2: все 3 согласны. Использование наземных истин

Случайная модель: Модель с одинаковым номером. образцов в качестве итерации 3 для сравнения улучшений производительности

Вывод:

Стратегия, которая лучше всего работает с набором данных SQuAD, — это стратегия 2. Этот подход, как правило, работает хорошо, поскольку, когда все 3 модели согласуются, прогноз, как правило, наиболее близок к истине (в 85% случаев, когда мы выяснили), поэтому он усиливает свою связь. с большей частью входного распределения. В наборе данных SQuAD тридцать процентов вопросов без ответа. Существует высокая вероятность того, что в стратегии 1 для заданного вопроса модели могут переобучаться в области отсутствия ответа. Две модели могут оказаться слишком подходящими для вопросов без ответов, и большее количество выборок без ответов может в конечном итоге оказаться выбранными выборками, что может привести к меньшему F1, чем стратегия 2. Кроме того, стратегия 2 лучше всего работает в случаях для выходного пространства более высокой размерности. Чем больше количество занятий, тем выше вероятность того, что три уверенные модели подберут сильную выборку, которая больше способствует обучению. На уровне результатов стратегия 2, итерация 3, превосходит базовый уровень со 100% данными, а обе финальные оценки F1, третья итерация, превосходят случайную модель. Приведенные ниже доказательства подтверждают это. Образцы для доказательства выбираются на основе наиболее повторяющихся моделей.

Доказательства:

В формате:

Образцы данных для стратегии 1 [две модели совпадают]:

Пары QnA для стратегии 2 [согласны 3 модели]:

Как объяснялось и отмечалось выше, модели развивают способность отвечать на более сложные вопросы по мере увеличения данных. Для стратегии 1 даже после трех итераций мы получаем некоторые ответы, соответствующие домену без ответов.

Область дальнейшего анализа:

Две дополнительные стратегии, которые у нас не было времени полностью изучить для этого набора данных, были следующими. Их можно было применить только к SQuAD из-за его отображения «многие к одному». Один из них заключался в том, чтобы определить минимальное количество правильно отвеченных вопросов для абзаца. Если этот порог превышен, то абзац добавляется к разделителям поезда, в противном случае он отбрасывается. Это гарантирует, что меньшее количество данных будет передано в разбиения, а увеличение порога после каждой итерации гарантирует, что только самые важные пары ответов на вопросы будут переданы в модели. Другая стратегия заключается в принятии решения о гармоническом равенстве прогнозов для опроса (когерентность подстрок). Однако эта стратегия ослабляет нижнюю границу выборки из пула.

Домен 3: Классификация аудио:

Набор данных Urban Sounds[7] содержит 8732 помеченных звуковых фрагмента (‹=4s) городских звуков из 10 классов: кондиционер_кондиционер, автомобильный гудок, игра детей, собачий лай, бурение, двигатель_холостой ход, выстрел_выстрела, отбойный молоток, сирена и уличная_музыка. Классы взяты из таксономии городских звуков. Все аудио файлы городских звуков в формате WAV. Частота дискретизации, битовая глубина и количество каналов такие же, как и у исходного файла, загруженного на Freesound (и, следовательно, могут варьироваться от файла к файлу).

Основное объяснение:

Используемая здесь модель представляет собой модель расширенной сверточной DNN, которая использует библиотеку Librosa для анализа аудиофайлов. Мы можем достичь базовой точности 90,15% со всеми 100% обучающими данными, включенными в набор обучающих данных модели. Модель с 70 % данных, используемая для трехступенчатого обучения, достигла точности 88,67 %.

Результаты:

Легенда к приведенному выше графику:

Стратегия 1: Любые 2 согласны

Стратегия 2: все 3 согласны. Использование наземных истин

Стратегия 3: все 3 согласны. Использование их прогнозов в качестве ярлыков

Случайная модель: Модель с одинаковым номером. образцов в качестве итерации 3 для сравнения улучшений производительности

Вывод:

Из приведенного выше графика результатов видно, что стратегии 1 (Сила 1) и 2 (Сила 2) способны превзойти базовый уровень в 70 % сразу после первой итерации активного обучения. Кроме того, мы видим, что точность только увеличивается с каждой активной итерацией обучения для Str1 и Str2. Как в Str1, так и в Str2 обученные модели могут превзойти случайно выбранные данные, имеющие то же количество выборок, что и в соответствующих моделях итерации 3, что говорит об эффективности подхода. Здесь следует отметить одну интересную вещь: модель активного обучения 3-й итерации Str1 даже способна превзойти модель, обученную на 100% наборе данных, со значительно меньшим объемом данных (3,21 тыс. По сравнению с 4,34 тыс. выборок). Аномалией здесь по отношению к результатам является Стратегия 3 (Str3), которая на самом деле работает хуже, чем базовый уровень 70%, а также хуже, чем случайно выбранные данные. Это снижение точности может быть связано с ложными срабатываниями, метки которых итеративно обучаются, что приводит к дальнейшему падению точности из-за большего усиления ложноположительных прогнозов.

Образцы доказательств:

Звуки сирен были наиболее правильно идентифицированы в наборе данных. Однако это может быть связано с переоснащением этих звуковых классов. Большинство других звуков, которые были похожи на звуки сирены, также неправильно предсказывались как звуки сирены, такие как автомобильный гудок. Это было одной из причин, по которой в нашей Стратегии 3 стала падать точность, поскольку правильные метки заменялись неверными предсказаниями «сирены». Кроме того, Street Music был классом, который давал наименьшее количество ложных срабатываний. Возможные причины включают в себя то, что он в основном сильно отличается от звуков других городских звуков. Из образцов можно сделать вывод, что звуки, которые были близки друг к другу, при таком подходе звучали хуже, чем звуки, которые сильно отличались друг от друга.

Домен 4: Классификация изображений:

Мы выбрали наборы данных CIFAR[10] для наших экспериментов в области классификации изображений, потому что они хорошо известны исследователям, с ними легко работать, и мы рассматриваем наборы данных для сравнительного анализа для любой сети классификации изображений. Набор данных CIFAR-10 состоит из 60000 цветных изображений 32x32 в 10 классах, по 6000 изображений в каждом классе. Есть 50000 обучающих изображений и 10000 тестовых изображений. CIFAR-100 имеет 100 классов по 600 изображений в каждом. В каждом классе есть 500 обучающих изображений и 100 тестовых изображений.

Объяснение базового уровня:

Мы использовали классическую модель сверточной нейронной сети — VGG16 для обоих наборов данных классификации изображений. VGG16[11] была одной из самых популярных моделей, представленных на ILSVRC 2014, и имела значительное улучшение по сравнению с популярной тогда AlexNet. Нашей основной мотивацией для выбора VGG16 была простота реализации, надежная производительность и возможность оптимизации для обоих наборов данных.

Доказательства стратегии:

Верхнее левое изображение корабля (из CIFAR-10) было одним из таких изображений, которое было правильно классифицировано всеми тремя моделями во всех проведенных нами экспериментах. Эти изображения помогли улучшить (или сохранить) производительность на каждой итерации, поскольку не действовали как неправильно помеченный пример для следующих итераций. С другой стороны, изображение собаки в верхнем центре (из CIFAR-10) было примером, который часто правильно предсказывался только двумя моделями, поэтому подобные примеры помогли улучшить общую производительность модели при использовании стратегии 1. Наконец, верхнее правое изображение лягушки обычно неправильно классифицировалось всеми моделями или двумя из них, и поэтому никогда не могло быть успешно дополнено обратно в помеченный набор данных.

Результаты:

Легенда к приведенным выше графикам:

Стратегия 1: Любые 2 согласны

Стратегия 2: все 3 согласны. Использование наземных истин

Стратегия 3: все 3 согласны. Использование их прогнозов в качестве ярлыков

Случайная модель: Модель с одинаковым номером. образцов в качестве итерации 3 для сравнения улучшений производительности

Вывод:

Как для CIFAR-10, так и для CIFAR-100 в стратегии 1 точность увеличивается после каждой итерации по мере увеличения количества (правильно размеченных данных) в обратном порядке. Эта стратегия также превосходит базовый уровень 70% и случайный базовый уровень, поскольку стратегия помогает выбрать наиболее полезные данные, которые могут быть дополнены. Аналогичные результаты мы получили и для стратегии 2. Принимая во внимание, что для стратегии 3 точность увеличивается с каждой итерацией, но она не может превзойти случайную базовую линию. Причина этого в том, что в этой стратегии есть вероятность увеличения ложных срабатываний. Примеры, в которых все 3 модели неправильно классифицируют изображение, дополняются неправильной меткой и снижают общую производительность. Абсолютным победителем для CIFAR-10 стала стратегия 2, поскольку три модели с самого начала имели достойную производительность, поэтому большинство примеров были правильно или неправильно классифицированы вместе. Это видно из того, что количество данных, дополняемых в стратегии 2, намного больше, чем в стратегии 1. Для CIFAR-100 стратегия 1 является абсолютным победителем, поскольку CIFAR-100 содержит гораздо более разреженный набор данных (больше классов), поэтому из вначале модели видели меньше примеров на класс и, кажется, больше расходятся во мнениях. Это приводит к увеличению количества примеров для стратегии 1, что, в свою очередь, больше всего повышает производительность.

Вывод:

Расширение предсказаний, сгенерированных тройным обучением, иногда снижает точность итераций из-за ложных срабатываний (неконтролируемые данные, неправильно предсказанные тройным обучением). Замена прогнозов, сгенерированных моделью, реальными данными помогает нам устранить эти ложные срабатывания и итеративно повысить базовую точность. Для набора данных SQuAD и набора данных городских звуков наши модели после 3 итераций превосходят оракула. Почти во всех областях после 3 итераций мы превзошли модель, обученную с тем же количеством случайно выбранных данных. Это приводит нас к выводу, что три-тренинг выявляет важные примеры из неконтролируемого пула. Таким образом, трехдневная тренировка с полуконтролем обеспечивает хорошую основу для активного процесса обучения.

Ссылки:

[1] Tri-Training: использование немаркированных данных с использованием трех классификаторов http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.487.2431&rep=rep1&type=pdf

[2] Сайто, К., Ушику, Ю., и Харада, Т. (2017). Асимметричное трехуровневое обучение для неконтролируемой адаптации домена. В ICML 2017. Получено с http://arxiv.org/abs/1702.08400.

[3] Рен М., Кирос Р. и Земель Р. (2015). Изучение моделей и данных для ответов на вопросы по изображениям. Получено с https://arxiv.org/pdf/1505.02074.pdf

[4] Набор данных для визуальных ответов на вопросы. Получено с https://visualqa.org/download.html

[5] К. Симонян и А. Зиссерман, Очень глубокие сверточные сети для крупномасштабного распознавания изображений в ICLR, 2015.

[6] Рудер, С., и Планк, Б. (2018). Надежные основы для нейронного полуконтролируемого обучения при смене предметной области. По материалам ACL 2018

[7] Дж. Саламон, К. Джейкоби и Дж. П. Белло, Набор данных и таксономия для исследования городского звука, 22-я Международная конференция ACM по мультимедиа, Орландо, США, ноябрь 2014 г.

[8] Двунаправленный поток внимания для понимания машинного обучения https://arxiv.org/pdf/1611.01603.pdf

[9] Лин, X., и Парих, Д. (2017). Активное обучение визуальным ответам на вопросы: эмпирическое исследование. Получено с https://arxiv.org/pdf/1711.01732.pdf

[10] Алекс Крижевский (2009), Изучая несколько уровней функций из крошечных изображений.

Получено с https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

[11] Карен Симонян и Эндрю Зиссерман (2014), Очень глубокие сверточные сети для крупномасштабного распознавания изображений. Получено с https://arxiv.org/abs/1409.1556

[12] Набор данных SQuAD 2.0, полученный с: https://rajpurkar.github.io/SQuAD-explorer/

Команда:

Члены команды IVA:

  1. Ааюш Шах
  2. Ананд Гокул Махалингам
  3. Акшай Гулати
  4. Ройстон Мариан Маскареньяс
  5. Ракшита Пандуранга

Эта работа была выполнена в качестве классного проекта для класса USC CSCI-566 «Глубокое обучение и его приложения» на осень 2019 года, проведенного профессором Джозефом Лимом.