Публикации по теме 'perplexity'
Влияние больших партий
Мои заметки сегодня
«Это может объяснить, почему пакетные обновления или большие размеры пакетов имеют тенденцию быть меньше — сумма векторов градиента становится больше, но не может полностью компенсировать больший знаменатель |B_k|»
Контекст . Модели НЛП используют все больше и больше данных. Они также используют большие партии. Почему они используют большие партии?
Возьмем, к примеру, RoBERTa, обучающую свою модель пакетом из 2 000 сэмплов. Мы отмечаем, что недоумение..