Я только что опубликовал еще один пост, который косвенно касается вашего вопроса и также содержит некоторые ссылки.

Я только что опубликовал еще один пост, который косвенно касается вашего вопроса и также имеет некоторые ссылки. Как упоминалось в этом посте, RNN не так хороши, как модели Transformer, в понимании текста и особенно долгосрочных зависимостей. Сказав, что я бы рассмотрел следующие моменты:

Чтобы получить наилучший результат с любой моделью и особенно с трансформерами, имеющими более высокую пропускную способность, может потребоваться одновременное обучение модели на нескольких языковых парах. Например, если у вас есть наборы данных с персидского на арабский, с персидского на английский и с английского на арабский, вы можете использовать их все одновременно, чтобы получить лучший результат. Я не эксперт по переводу, но я полагаю, что это более важный фактор в вашем результате.
Буду рассматривать варианты с учетом доступного бюджета. Тренировочные модели на базе трансформеров требуют больших затрат. Больше невозможно обучить что-либо коммерчески жизнеспособное на одном графическом процессоре.

Пожалуйста, проверьте это, а также эту статью, которая была пионерской работой по получению значимых результатов с использованием нейронного машинного перевода.

Я только что опубликовал еще один пост, который косвенно касается вашего вопроса и также содержит некоторые ссылки.

Вопросы по теме