Публикации по теме 'perplexity'


Влияние больших партий
Мои заметки сегодня «Это может объяснить, почему пакетные обновления или большие размеры пакетов имеют тенденцию быть меньше — сумма векторов градиента становится больше, но не может полностью компенсировать больший знаменатель |B_k|» Контекст . Модели НЛП используют все больше и больше данных. Они также используют большие партии. Почему они используют большие партии? Возьмем, к примеру, RoBERTa, обучающую свою модель пакетом из 2 000 сэмплов. Мы отмечаем, что недоумение..