Понимание концептуальных различий GPT, BERT и XLNet за 3 минуты
XLNet - это новая предварительно обученная модель, которая стабильно превосходит BERT по 20 задачам, часто с большим отрывом.
Что ?! И почему?
Без понимания машинного обучения нетрудно предположить, что чем больше контекста мы захватили, тем точнее можно сделать прогноз. Таким образом, способность модели улавливать самый глубокий и эффективный контекст - это лучший рецепт.
Давайте поиграем - что такое [Guess1] и [Guess2] в контексте ниже?
["Естественный", "язык", "обработка", "есть", "а", "брак", "из", [Предположение1], [Предположение2] , 'and', 'лингвистика']
Учитывая ограничение в 3 минуты, позвольте мне раскрыть ответ, а вместо этого я бы спросил вас: какую модель (GPT, BERT, XLNet) вы считаете наиболее полезной для поиска ответа.
Ответ: ["Естественный", "язык", "обработка", "есть", "а", "брак", "из", "машина", 'обучение', 'и', 'лингвистика']
Мы используем обозначение Pr (Guess | Context) и далее. Буквально это означает вероятность предположения, основанного на контексте.
GPT - мы читаем слева направо и поэтому не знаем контекста после словосочетания «машина», «обучение»:
Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из»])
Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «машина»])
Знание слова «машина» на самом деле помогает вам угадать «обучение», потому что «обучение» часто следует за «машинным», поскольку машинное обучение популярно.
BERT - Мы знаем обе стороны в отличие от GPT, но мы предполагаем, что "машина" и "обучение" основаны на одном и том же контексте:
Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])
Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])
Наличие «лингвистики» на самом деле помогает вам угадать «машинное» «обучение», потому что вы знаете, что обработка естественного языка - это прекрасное сочетание машинного обучения и лингвистики. Даже если вы этого не знаете, при наличии «лингвистики» вы, по крайней мере, знаете, что это не «лингвистика».
Вы можете видеть очевидные недостатки BERT в том, что он не может объяснить тот факт, что «машина» и «обучение» являются довольно распространенными терминами.
Как совместить плюсы GPT и BERT?
XLNet - лучшее из обоих:
Перестановка! Сила перестановки в том, что даже если мы читаем только слева направо, перестановка позволяет нам захватить контекст обеих сторон (чтение слева направо и чтение справа налево).
Одна из перестановок, которая позволяет нам уловить контекст обеих сторон: ['естественный', 'язык', 'обработка', 'есть', 'а', 'брак', 'из', 'и', 'лингвистика' , 'машина', 'обучение']
Pr («машина» | [«естественная», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика»])
Pr («обучение» | [«естественный», «язык», «обработка», «есть», «а», «брак», «из», «и», «лингвистика», «машина»])
На этот раз у вас есть полный контекст, и вы сразу можете угадать «обучение» после угадывания «машины». Вы можете ясно видеть, что XLNet сочетает в себе преимущества как GPT, так и BERT.
Надеюсь, это всего лишь 3 минуты чтения. Пожалуйста, аплодируйте и поделитесь, если вам понравилась эта статья! Конечно, прочтите статью XLNet, если хотите узнать больше.