Публикации по теме 'flash-attention'


Исследование производительности Flash-вывода внимания
Различия в производительности вывода между Flash Attention v1 и v2. 1. История С момента разработки преобразователя механизм внимания также проявил себя в LLM (большая языковая модель). Однако из-за вычислительных ограничений softmax процесс расчета MHA (Multi Head Attention) долгое время находился в состоянии серьезной привязки к памяти. Основываясь на математических характеристиках softmax, Flash Attention объединяет вычисление MHA в одном операторе и применяет стратегию обмена..