Понимание концептуальных различий GPT, BERT и XLNet за 3 минуты

XLNet - это новая предварительно обученная модель, которая стабильно превосходит BERT по 20 задачам, часто с большим отрывом.

Что ?! И почему?

Без понимания машинного обучения нетрудно предположить, что чем больше контекста мы захватили, тем точнее можно сделать прогноз. Таким образом, способность модели улавливать самый глубокий и эффективный контекст - это лучший рецепт.

Давайте поиграем - что такое [Guess1] и [Guess2] в контексте ниже?

["Естественный", "язык", "обработка", "есть", "а", "брак", "из", [Предположение1], [Предположение2] , 'and', 'лингвистика']

Учитывая ограничение в 3 минуты, позвольте мне раскрыть ответ, а вместо этого я бы спросил вас: какую модель (GPT, BERT, XLNet) вы считаете наиболее полезной для поиска ответа.

Ответ: ["Естественный", "язык", "обработка", "есть", "а", "брак", "из", "машина", 'обучение', 'и', 'лингвистика']

Мы используем обозначение Pr (Guess | Context) и далее. Буквально это означает вероятность предположения, основанного на контексте.

GPT - мы читаем слева направо и поэтому не знаем контекста после словосочетания «машина», «обучение»:

Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из»])

Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «машина»])

Знание слова «машина» на самом деле помогает вам угадать «обучение», потому что «обучение» часто следует за «машинным», поскольку машинное обучение популярно.

BERT - Мы знаем обе стороны в отличие от GPT, но мы предполагаем, что "машина" и "обучение" основаны на одном и том же контексте:

Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])

Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])

Наличие «лингвистики» на самом деле помогает вам угадать «машинное» «обучение», потому что вы знаете, что обработка естественного языка - это прекрасное сочетание машинного обучения и лингвистики. Даже если вы этого не знаете, при наличии «лингвистики» вы, по крайней мере, знаете, что это не «лингвистика».

Вы можете видеть очевидные недостатки BERT в том, что он не может объяснить тот факт, что «машина» и «обучение» являются довольно распространенными терминами.

Как совместить плюсы GPT и BERT?

XLNet - лучшее из обоих:

Перестановка! Сила перестановки в том, что даже если мы читаем только слева направо, перестановка позволяет нам захватить контекст обеих сторон (чтение слева направо и чтение справа налево).

Одна из перестановок, которая позволяет нам уловить контекст обеих сторон: ['естественный', 'язык', 'обработка', 'есть', 'а', 'брак', 'из', 'и', 'лингвистика' , 'машина', 'обучение']

Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])

Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика», «машина»])

На этот раз у вас есть полный контекст, и вы сразу можете угадать «обучение» после угадывания «машины». Вы можете ясно видеть, что XLNet сочетает в себе преимущества как GPT, так и BERT.

Надеюсь, это всего лишь 3 минуты чтения. Пожалуйста, аплодируйте и поделитесь, если вам понравилась эта статья! Конечно, прочтите статью XLNet, если хотите узнать больше.