Трансферное обучение

Простое и лаконичное объяснение с реальными примерами.

В этом посте мы закладываем основы трансферного обучения. Мы начнем с объяснения основной идеи трансферного обучения и его формального определения. Затем мы обсудим проблемы трансферного обучения и существующие решения. Наконец, мы кратко рассмотрим некоторые варианты использования трансферного обучения.

В следующих статьях этой серии мы будем использовать описанные здесь обозначения и определения, а также углубимся в последние тенденции в этой области и посмотрим, как трансферное обучение используется для решения реальных проблем. Следите за Блогом о грузинском влиянии, чтобы не пропустить эти сообщения.

Оглавление - нажмите на ссылки, чтобы перейти вперед:

Что такое трансферное обучение?
Математические обозначения и определения
Категоризация проблем трансферного обучения
Категоризация решений для трансферного обучения
Реальные приложения трансферного обучения
Дополнительные ресурсы для углубленного изучения трансферного обучения

Что такое трансферное обучение?

Как люди, мы легко переносим полученные знания из одной области или задачи в другую. Когда мы сталкиваемся с новой задачей, нам не нужно начинать с нуля. Вместо этого мы используем наш предыдущий опыт, чтобы учиться и адаптироваться к этой новой задаче быстрее и точнее [1].

Например, если у вас есть опыт программирования на Java, C / C # или любых других языках программирования, вы уже знакомы с такими понятиями, как циклы, рекурсия, объекты и т. Д. (Рисунок 1, a). Если вы затем попытаетесь освоить новый язык программирования, например python, вам не нужно будет снова изучать эти концепции, вам просто нужно изучить соответствующий синтаксис. Или возьмем другой пример: если вы много играли в настольный теннис, это поможет вам быстрее освоить теннис, поскольку стратегии в этих играх схожи (Рисунок 1, b).

В последние годы, благодаря достижениям в области машинного обучения с учителем и без учителя, мы стали свидетелями поразительных скачков в применении искусственного интеллекта. Мы достигли стадии, когда можем создавать автономные транспортные средства, интеллектуальных роботов и системы обнаружения рака на уровне человека или даже сверхчеловеческие характеристики (Рисунок 2).

Несмотря на замечательные результаты, эти модели требуют больших объемов данных, и их производительность во многом зависит от качества и размера обучающих данных. Однако в реальных сценариях получение больших объемов помеченных данных обычно дорого обходится или недоступно, что означает низкую производительность или полный отказ от проектов. Более того, этим моделям по-прежнему не хватает возможности обобщения на любую ситуацию, кроме той, с которой они столкнулись во время обучения [2], поэтому они ограничены в том, чего они могут достичь.

Вдохновленные человеческими способностями передавать знания, сообщество машинного обучения обратило свое внимание на переносное обучение, чтобы преодолеть эти проблемы. В отличие от традиционной парадигмы машинного обучения, где процесс обучения происходит изолированно, без учета знаний из какой-либо другой области (Рисунок 3 слева), переносное обучение использует знания из других существующих областей (источника) в процессе обучения для новой области ( target) (Рисунок 3 справа).

Трансферное обучение отвечает на эти три вопроса:

Какая информация в источнике полезна и может быть передана целевой аудитории?
Как лучше всего передать эту информацию?
Как избежать передачи информации, которая пагубно сказывается на желаемом результате?

Ответ на эти вопросы зависит от сходства пространств функций, моделей и задач целевого и исходного доменов [1]. Ниже мы приведем примеры для описания этих концепций.

Математические обозначения и определения в трансферном обучении

В этом разделе мы кратко обсудим стандартные обозначения и определения, используемые для трансферного обучения в исследовательском сообществе [1, 3]. В оставшейся части сообщения мы используем эти обозначения и определения, чтобы глубже погрузиться в технические темы, поэтому стоит пройти через этот раздел немного медленнее.

Обозначение

Домен: домен 𝔇 = {𝑋, P (Ｘ)} определяется двумя компонентами:

Пространство функций 𝑋
и маргинальное распределение вероятностей P (Ｘ) , где Ｘ = {𝑥₁, 𝑥₂, 𝑥₃,…, 𝑥𝚗} ∈ 𝑋

Если две области различны, то они либо имеют разные пространства признаков (𝑋t ≠ 𝑋s), либо разные маргинальные распределения (P (Ｘt) ≠ P (Ｘs)).

Задача: для определенного домена 𝔇 задача 𝒯 = {𝑌, 𝒇 (.)} состоит из двух частей:

Пространство метки 𝑌
и прогностическая функция 𝒇 (.), которая не наблюдается, но может быть изучена из обучающих данных {(𝑥ᵢ, 𝑦ᵢ) | i ∈ {1, 2, 3,…, N}, где 𝑥ᵢ ∈ 𝑋 и 𝑦ᵢ ∈ 𝑌}. С вероятностной точки зрения 𝒇 (𝑥ᵢ) также может быть записано как p (𝑦ᵢ | 𝑥ᵢ), поэтому мы можем переписать задачу 𝒯 как 𝒯 = {𝑌 , P (𝖸 | Ｘ)}.

В общем, если две задачи разные, то у них могут быть разные пространства меток (𝑌t ≠ 𝑌s) или разные условные распределения вероятностей (P (𝖸t | Ｘt) ≠ P ( 𝖸s | Ｘs)).

Определение

Учитывая исходный домен 𝔇s и соответствующую обучающую задачу 𝒯 s, целевой домен 𝔇t и обучающую задачу 𝒯 t, переносное обучение направлено на улучшение обучения условного распределения вероятностей P (𝖸t | Ｘt) в 𝔇t с информацией, полученной из 𝔇s и 𝒯 s, где 𝔇t ≠ 𝔇s или 𝒯 t ≠ 𝒯 s. Для простоты в приведенном выше определении мы использовали только один исходный домен, но эту идею можно распространить на несколько исходных доменов.

Если мы возьмем это определение предметной области и задачи, то у нас будет либо 𝔇t ≠ 𝔇s, либо 𝒯 t ≠ 𝒯 s, что приводит к четырем распространенным сценариям передачи обучения [3 ]. Ниже мы объясним эти сценарии в контексте двух популярных задач машинного обучения: тегирование части речи (POS) и классификация объектов.

POS-теги - это процесс связывания слова в корпусе с соответствующей частью речевого тега на основе его контекста и определения. Например, : в предложении «Меня зовут Азин». My - это PRP, name - NN, is - VBZ, Azin - NNP. Классификация объектов - это процесс классификации объектов, видимых на изображении, по набору определенных классов, таких как яблоко, автобус, лес и т. д. Давайте рассмотрим следующие четыре случая, имея в виду эти задачи.

𝑋t ≠ 𝑋s
Допустим, мы хотели бы использовать POS-теги в немецких документах (𝒯 t). Предполагая, что основы немецкого и английского языков схожи по грамматике и структуре, мы можем использовать знания, полученные из тысяч существующих богатых наборов данных на английском языке (𝔇s) для этой задачи (Рисунок 4), даже если наши функции имеют пробелы (английский и немецкий слова) совершенно разные (𝑋t ≠ 𝑋s). Другой пример - использование тегов и описаний (𝔇s), предоставляемых вместе с изображениями, для улучшения задачи классификации объектов (𝒯 t), где текст и изображения представлены в совершенно разных пространствах функций (𝑋t ≠ 𝑋s).
P (Ｘt) ≠ P (Ｘs)
Допустим, мы хотели бы использовать теги POS в английских документах (𝒯 t), и мы хотели бы использовать доступные наборы данных на английском языке для этого. Хотя эти документы написаны на одном языке (𝑋t = 𝑋s), они посвящены разным темам, поэтому частота используемых слов (функций) разная. Например, в кулинарном документе слова «вкусно» или «вкусно» могут быть обычными, но они редко используются в техническом документе. Общие и независимые от предметной области слова встречаются с одинаковой скоростью в обоих доменах. Однако слова, относящиеся к предметной области, чаще используются в одном домене из-за тесной связи с темой этого домена. Это называется смещением частотных характеристик и приводит к различию предельного распределения между исходным и целевым доменами. Другой пример - использование мультяшных изображений для улучшения классификации объектов для фотоизображений. Оба изображения являются изображениями, поэтому пространства функций одинаковы (𝑋t = 𝑋s), однако цвета и формы в мультфильмах сильно отличаются от фотографий (P (Ｘt) ≠ P (Ｘs)). Этот сценарий обычно называют адаптацией домена.
𝑌t ≠ 𝑌s
Допустим, мы хотим использовать теги POS с помощью настраиваемого набора тегов (𝒯 t), который отличается от тегов в других существующих наборах данных. В этом случае целевой и исходный домены имеют разные пространства меток (𝑌t ≠ 𝑌s). Другой пример - использование набора данных с разными классами объектов (кошка и собака) для улучшения классификации объектов для определенного набора классов (стул, стол и человек).
P (𝖸t | Ｘt) ≠ P (𝖸s | Ｘs)
В тегах POS исходный и целевой могут иметь один и тот же язык (𝑋t = 𝑋s), одинаковое количество классов ( 𝑌t = 𝑌s) и одинаковая частота слов
(P (Ｘt) = P (Ｘs)), но отдельные слова могут иметь разные значения в исходном и целевом (P (𝖸t | Ｘt) ≠ P (𝖸s | Ｘs)). Конкретный пример - слово «монитор». В одной области (технические отчеты) оно может чаще использоваться как существительное, а в другой (отчеты о мониторинге пациентов) оно может использоваться преимущественно как глагол. Это еще одна форма смещения, которая называется смещением контекстных характеристик, и она приводит к различию условных распределений между источником и целью. Точно так же на изображении, если кусок хлеба висит на холодильнике, он, скорее всего, является магнитом, однако, если он находится рядом с горшком с вареньем, скорее всего, это кусок хлеба.

Последний случай, который не подходит ни для одного из четырех вышеперечисленных (на основе наших определений), но который может вызывать разницу между источником и целью, - это P (𝖸t) ≠ P (𝖸s). Например, исходный набор данных может иметь полностью сбалансированные двоичные выборки, но целевой домен может иметь 90% положительных и только 10% отрицательных образцов. Существуют различные методы решения этой проблемы, такие как понижающая и повышающая дискретизация, а также SMOTE [4].

Категоризация проблем трансферного обучения

Когда вы читаете литературу по трансферному обучению, вы заметите, что терминология и определения часто противоречат друг другу. Например, адаптация предметной области и трансферное обучение иногда используются для обозначения одной и той же концепции. Еще одна распространенная непоследовательность заключается в том, как сгруппированы проблемы трансферного обучения. Традиционно проблемы трансферного обучения были разделены на три основные группы в зависимости от сходства между доменами, а также наличия помеченных и немаркированных данных [1]: Индуктивное трансферное обучение, трансдуктивное трансферное обучение и неконтролируемое трансферное обучение.

Однако, благодаря развитию глубокого обучения, недавние исследования в этой области расширили сферу трансферного обучения, и появилась новая и более гибкая таксономия [3]. Эта таксономия обычно подразделяет проблемы трансферного обучения на два основных класса на основе сходства доменов, независимо от наличия помеченных и немаркированных данных [3]: Однородное трансферное обучение и гетерогенное трансферное обучение . Мы рассмотрим эту таксономию ниже.

1. Однородное трансферное обучение

В однородном трансферном обучении (Рисунок 5 справа) мы имеем ситуацию, когда 𝑋t = 𝑋s и 𝑌t = 𝑌s. Следовательно, мы хотим устранить разрыв в распределении данных между исходным и целевым доменами, т.е. адрес P (Ｘt) ≠ P (Ｘs) и / или P (𝖸t | Ｘt) ≠ P (𝖸s | Ｘs). Решения однородных задач трансферного обучения используют одну из следующих общих стратегий:

Попытка скорректировать предельные различия в распределении в источнике и цели (P (Ｘt) ≠ P (Ｘs)).
Попытка исправить разницу условного распределения в источнике и цели (P (𝖸t | Ｘt) ≠ P (𝖸s | Ｘs)).
Попытка исправить различия как в предельном, так и в условном распределении в источнике и цели.

2. Гетерогенное трансферное обучение

В гетерогенном трансферном обучении исходный и целевой имеют разные пространства признаков 𝑋t ≠ 𝑋s (обычно не перекрываются) и / или 𝑌t ≠ 𝑌s, поскольку исходный и целевой домены могут не разделяют никаких функций и / или меток (Рисунок 5 слева). Неоднородные решения для трансферного обучения устраняют разрыв между пространствами признаков и сводят проблему к однородной задаче трансферного обучения, где необходимо будет скорректировать дальнейшие различия в распределении (маргинальные или условные).

Еще одно важное понятие, которое следует обсудить, - это отрицательный перенос. Если исходный домен не очень похож на целевой домен, информация, полученная из источника, может оказать пагубное влияние на целевого учащегося. Это называется отрицательной передачей.

В оставшейся части поста мы опишем существующие методы однородного и гетерогенного трансферного обучения. Мы также обсудим некоторые методы, позволяющие избежать отрицательной передачи.

Категоризация решений для трансферного обучения

Решения для двух основных категорий вышеупомянутых проблем трансферного обучения можно разделить на пять различных классов в зависимости от того, что передается:

Однородное трансферное обучение

1. Подходы на основе экземпляров. Методы обучения с передачей на основе экземпляров пытаются повторно взвесить выборки в исходной области в попытке исправить предельные различия в распределении [4, 5, 6 ] . Эти повторно взвешенные экземпляры затем напрямую используются в целевом домене для обучения. Использование повторно взвешенных исходных выборок помогает целевому учащемуся использовать только релевантную информацию из исходного домена. Эти методы работают лучше всего, когда условное распределение одинаково в обоих доменах.

Подходы на основе экземпляров различаются стратегиями взвешивания. Например, метод из раздела Исправление смещения выборки по немаркированным данным (Хуанг и др.) [7] находит и применяет вес, который совпадает со средним значением целевого и исходного доменов. Другое распространенное решение - обучить двоичный классификатор, который отделяет исходные образцы от целевых образцов, а затем использовать этот классификатор для оценки весов исходных образцов (Рисунок 6). Этот метод дает больший вес исходным образцам, которые больше похожи на целевые образцы.

2. Подходы, основанные на признаках: Подходы, основанные на признаках, применимы как к однородным, так и к неоднородным задачам. В случае неоднородных задач основная цель использования этих методов - уменьшить разрыв между пространством признаков исходного и целевого [10, 11, 14, 15]. В случае однородных задач эти методы направлены на сокращение разрыва между маржинальным и условным распределениями исходной и целевой областей [8, 9, 12, 13]. Подходы к трансферному обучению на основе признаков делятся на две группы:

Преобразование асимметричных признаков: этот подход использует преобразование (Φs / Φt) для преобразования одного из доменов (исходный / целевой) в другой (целевой / исходный) [8, 9, 25]. Этот метод работает лучше всего, когда исходный и целевой домены имеют одинаковые пространства меток, и их можно преобразовать без искажения контекстных характеристик (Рисунок 8 справа). Рисунок 7 показывает метод на основе асимметричных признаков, представленный в разделе Асимметричные и инвариантные по категориям преобразования признаков для адаптации предметной области (Хоффман и др.) [25]. Этот метод пытается преобразовать исходный домен (синие образцы), чтобы минимизировать расстояние между похожими образцами в исходном и целевом доменах.

Преобразование симметричных признаков: этот подход обнаруживает лежащие в основе значимые структуры путем преобразования обоих доменов в общее пространство скрытых признаков - обычно низкой размерности - которое обладает прогностическими качествами, уменьшая при этом маргинальное распределение между доменами ( Рисунок 8 слева) [ 12 , 13 ]. Хотя высокоуровневая цель, стоящая за этими методами (повышение эффективности целевого учащегося), сильно отличается от цели репрезентативного обучения, идея, лежащая в основе этих методов, довольно близка [23].

3. Подходы, основанные на параметрах:
Эта категория трансферного обучения пытается передать знания через общие параметры исходной и целевой моделей учащихся [16, 17]. Некоторые из этих методов также передают полученные знания путем создания моделей учащихся из нескольких источников и оптимального комбинирования повторно взвешенных учащихся (учащихся ансамбля) для формирования улучшенного целевого учащегося. Идея методов на основе параметров заключается в том, что хорошо обученная модель в исходном домене усвоила четко определенную структуру, и если две задачи связаны, эта структура может быть перенесена в целевую модель.

Концепция совместного использования параметров (весов) широко используется в моделях глубокого обучения. Как правило, существует два способа разделения весов в моделях глубокого обучения: мягкое распределение веса и жесткое распределение веса. При мягком распределении весов модель обычно наказывается, если ее веса значительно отклоняются от заданного набора весов [18]. В жестком распределении веса точные веса распределяются между разными моделями [19]. Очень часто жесткое распределение веса использует ранее обученные веса в качестве начальных весов модели глубокого обучения.

Обычно при обучении глубокой нейронной сети модель начинается со случайно инициализированных весов, близких к нулю, и адаптирует свои веса по мере того, как она видит все больше и больше обучающих выборок. Однако обучение глубокой модели таким образом требует много времени и усилий для сбора и разметки данных. Вот почему так выгодно начать с ранее обученных весов из другого аналогичного домена (источника), а затем точно настроить веса специально для нового домена (цели). Это потенциально может сэкономить время и снизить затраты, поскольку для точной настройки требуется гораздо меньше размеченных данных. Также было показано, что такой подход помогает повысить надежность. Рисунок 9 демонстрирует этот метод.

4. Гибридные подходы (экземпляры и параметры): эта категория фокусируется на передаче знаний как через экземпляры, так и через общие параметры. Это относительно новый подход, и появляется много интересных исследований [20].

5. Реляционные подходы: Последняя категория трансферного обучения (а также самая новая) - это передача знаний через изучение общих отношений между исходным и целевым доменами [21, 22]. Ниже мы приводим пример здесь в контексте анализа настроений.

Как видно на Рисунке 10, частота употребления слов в разных областях обзора (здесь Кино и Еда) сильно различается, но структура предложений довольно схожа. Следовательно, если мы узнаем взаимосвязь между различными частями предложения в домене Еда, это может значительно помочь в анализе настроения в другом домене (здесь Movie) [21].

Гетерогенное трансферное обучение

Поскольку в гетерогенных задачах трансферного обучения пространства признаков не эквивалентны, единственный класс решений трансферного обучения, который может быть применен к этой категории, - это методы на основе признаков [10, 11 , 14, 15] описанный выше (Рисунок 8). После уменьшения разрыва между пространствами признаков с помощью симметричных [10, 11] или асимметричных [14, 15] методов на основе признаков и преобразования разнородной задачи в однородную задачу, остальные четыре класса переноса обучающие решения могут применяться для дальнейшего исправления различий в распределении между целевым и исходным доменами.

Резюме

Рисунок 11 показывает различные категории проблем и решений трансферного обучения. Как вы можете видеть, некоторые классы решений для передачи обучения (методы на основе экземпляров, методы на основе функций и методы на основе отношений) передают знания на уровне данных, в то время как некоторые классы (методы на основе параметров) передают знания на уровне модели.

Реальные приложения трансферного обучения

Одна из самых больших проблем, с которой компании SaaS / AI часто сталкиваются при привлечении нового клиента, - это отсутствие помеченных данных для построения модели машинного обучения для нового клиента, что называется холодным запуском . Даже после сбора данных, который потенциально может занять от нескольких месяцев до лет, возникают другие проблемы, такие как разреженность и проблемы дисбаланса, которые затрудняют построение модели с приемлемой производительностью. Когда модель использует разреженные и несбалансированные данные, она часто недостаточно выразительна и плохо работает, особенно для классов меньшинств.

Вышеупомянутые проблемы отрицательно сказываются на привлечении и удержании клиентов и крайне затрудняют эффективное масштабирование SaaS / AI-компаний. Трансферное обучение может преодолеть эти проблемы за счет использования существующей информации от других клиентов (исходный домен) при построении модели для нового клиента (целевой домен), Рисунок 12.

Рисунок 13 иллюстрирует еще одну проблему машинного обучения, которую можно решить с помощью трансферного обучения - смещение домена [24]. В моделях контролируемого машинного обучения по-прежнему отсутствует возможность обобщения на условия, отличные от тех, которые встречаются во время обучения. Другими словами, когда статистические характеристики обучающих данных и тестовых данных различаются (сдвиг домена) (Рисунок 1 3- (a)), мы часто испытываем снижение производительности или коллапс, поскольку модель не умеет обобщать на новую ситуацию (Рисунок 1 3- (c)). Передаточное обучение (адаптация предметной области) может помочь решить эту проблему за счет сокращения разрыва между двумя доменами и, как следствие, повышения производительности модели на тестовых данных (Рис. 1 3- (г)).

В реальном мире есть много других применений трансферного обучения. Такие проблемы, как обучение с помощью моделирования в робототехнике и автономном вождении, передача знаний на разных языках и т. Д. - все это примеры. В нашем следующем посте мы более подробно обсудим недавние исследования и разработки в области трансферного обучения и их применения к реальным проблемам.

Если у вас есть какие-либо вопросы или замечания, мы будем рады услышать от вас! Не стесняйтесь обращаться к нам - оставьте комментарий ниже или напишите нам в Твиттере.

Дополнительные ресурсы для глубокого погружения в трансферное обучение

[1] Пан, С. Дж., И Янг, К. (2010). Обзор трансфертного обучения. IEEE Transactions on Knowledge and Data Engineering, 22 (10), 1345–1359. DOI: 10.1109 / tkde.2009.191

[2] Рудер С. (24 октября 2018 г.). Трансферное обучение - новый рубеж машинного обучения. Получено с http://ruder.io/transfer-learning/

[3] Вайс, К., Хошгофтаар, Т. М., и Ван, Д. (2016). Обзор трансфертного обучения. Журнал больших данных, 3 (1). DOI: 10.1186 / s40537–016–0043–6

[4] Чавла, Н. В., Бойер, К. В., Холл, Л. О., и Кегельмейер, В. П. (2002). SMOTE: Техника передискретизации синтетического меньшинства. Журнал исследований искусственного интеллекта, 16, 321–357. DOI: 10.1613 / jair.953

[5] Яо, Ю., и Доретто, Г. (2010). Повышение уровня трансфертного обучения с использованием нескольких источников. Конференция компьютерного общества IEEE 2010 года по компьютерному зрению и распознаванию образов. DOI: 10.1109 / cvpr.2010.5539857

[6] Аскариан, А., Собхани, П., Чжан, Дж. К., Михайлеску, М., Сибилиа, А., Ашраф, А. Б., Таати, Б. (2018). Метод обучения передачи на основе гибридного экземпляра.
Семинар по машинному обучению для здоровья (ML4H) в Neural Information Processing Systems arXiv: cs / 0101200

[7] Хуанг, Дж., Греттон, А., Боргвардт, К., Шёлкопф, Б., и Смола, А. Дж. (2007). Исправление систематической ошибки при выборе выборки по немаркированным данным. В книге Достижения в области нейронных систем обработки информации (стр. 601–608).

[8] Лонг, М., Ван, Дж., Дин, Г., Пан, С. Дж., И Филип, С. Ю. (2014). Регуляризация адаптации: общая основа для трансферного обучения. IEEE Transactions on Knowledge and Data Engineering, 26 (5), 1076–1089.

[9] Лонг, М., Ван, Дж., Дин, Г., Сан, Дж., И Ю, П. С. (2013). Передача функций обучения с совместной адаптацией распределения. В Материалы международной конференции IEEE по компьютерному зрению (стр. 2200–2207).

[10] Сухиджа, С., Кришнан, Н. К., и Сингх, Г. (2016, июль). Контролируемая адаптация гетерогенных доменов с помощью случайных лесов. В IJCAI (стр. 2039–2045).

[11] Феуз, К. Д., Кук, Д. Дж. (2015). Перенос обучения через многофункциональные разнородные пространства функций посредством переназначения пространств функций (FSR). Транзакции ACM по интеллектуальным системам и технологиям (TIST), 6 (1), 3.

[12] Окуаб М., Боттоу Л., Лаптев И. и Сивич Дж. (2014). Изучение и передача представлений изображений среднего уровня с помощью сверточных нейронных сетей. В Протоколах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 1717–1724).

[13] Пан, С. Дж., Цанг, И. В., Квок, Дж. Т., и Янг, К. (2011). Адаптация домена через анализ трансферных компонентов. Транзакции IEEE в нейронных сетях, 22 (2), 199–210.

[14] Самат А., Перселло К., Гамба П., Лю С., Абудувайли Дж. И Ли Э. (2017). Ансамбль многоракурсного канонического корреляционного анализа с учителем и частично под контролем для адаптации к неоднородной области в классификации изображений дистанционного зондирования. Дистанционное зондирование, 9 (4), 337.

[15] Дуан, Л., Сюй, Д., и Цанг, И. (2012). Обучение с расширенными функциями для адаптации к гетерогенной области. Препринт arXiv arXiv: 1206.4660.

[16] Дуань, Л., Сюй, Д., и Чанг, С. Ф. (2012, июнь). Использование веб-изображений для распознавания событий в потребительских видео: подход к адаптации нескольких исходных областей. В конференции IEEE 2012 г. по компьютерному зрению и распознаванию образов (стр. 1338–1345). IEEE.

[17] Яо, Ю., и Доретто, Г. (2010, июнь). Повышение уровня трансфертного обучения с использованием нескольких источников. В конференции Компьютерного общества IEEE 2010 г. по компьютерному зрению и распознаванию образов (стр. 1855–1862). IEEE.

[18] Розанцев А., Зальцманн М. и Фуа П. (2018). Помимо разделения весов для глубокой адаптации домена. Транзакции IEEE по анализу шаблонов и машинному интеллекту.

[19] Меир Б. Э. и Михаэли Т. (2017). Совместные автокодировщики: гибкая многозадачная обучающая среда. Препринт arXiv arXiv: 1705.10494.

[20] Ся Р., Цзун К., Ху Х. и Камбрия Э. (2013). Ансамбль характеристик плюс выборка: адаптация предметной области для классификации настроений. Интеллектуальные системы IEEE, 28 (3), 10–18.

[21] Ли, Ф., Пан, С. Дж., Цзинь, О., Ян, К., и Чжу, X. (2012, июль). Междоменное извлечение тональности и тематической лексики. В Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (стр. 410–419). Ассоциация компьютерной лингвистики.

[22] Янг, З., Дхингра, Б., Хе, К., Коэн, В. В., Салахутдинов, Р., и ЛеКун, Ю. (2018). Гломо: Выученные без учителя реляционные графы как переносимые представления. Препринт arXiv arXiv: 1806.05662.

[23] Ганин, Ю., Лемпицкий, В. (2014). Неконтролируемая адаптация домена путем обратного распространения ошибки. Препринт arXiv arXiv: 1409.7495.

[24] Quiñonero-Candela, J. (2009). Сдвиг набора данных в машинном обучении. Кембридж, Массачусетс: MIT Press.

[25] Хоффман, Дж., Роднер, Э., Донахью, Дж., Кулис, Б., и Саенко, К. (2014). Асимметричные и инвариантные по категориям преобразования признаков для адаптации предметной области. Международный журнал компьютерного зрения, 109 (1–2), 28–41.

[26] Изучение глубокого обучения и CNN. (2018, 16 декабря). Получено с https://www.rsipvision.com/exploring-deep-learning/

Трансферное обучение - часть 1