Новый год начинается с большого количества обсуждений интересных новых статей, следуя за приливом ChatGPT. Интро FlashAttention — одно из лучших. Основная проблема, которую он решает, является важной для архитектуры Transformerувеличение скорости и улучшение потребления памяти для операций с самостоятельным вниманием.

Почему это интересно?

Один из способов распознать хорошую статью или новый метод — узнать, как быстро он принимается/адаптируется в мире открытого исходного кода и в отрасли.