Процесс уменьшения размера модели называется сжатием модели.

Несмотря на то, что разрабатывается много новых методов, часто используются следующие четыре типа методов:

  1. Факторизация низкого ранга
  2. Дистилляция знаний
  3. Сокращение
  4. Квантование

Давайте подробно обсудим все эти методы:

  1. Факторизация низкого ранга. Ключевая идея факторизации низкого ранга заключается в замене тензоров высокой размерности тензорами меньшей размерности.

2. Дистилляция знаний. Это метод, при котором маленькая модель (ученик) обучается подражать более крупной модели или ансамблю моделей (учитель). Маленькая модель — это то, что вы будете развертывать.

3. Сокращение. Сокращение — это метод, первоначально использовавшийся для деревьев решений, когда вы удаляете некритичные и избыточные для классификации участки дерева. По мере того, как нейронные сети получали более широкое распространение, люди начали понимать, что нейронные сети чрезмерно параметризованы, и начали искать способы уменьшить нагрузку, вызванную дополнительными параметрами.

4. Квантование. Это наиболее общий и часто используемый метод сжатия моделей. Это просто сделать и обобщить задачи и архитектуры. Квантование уменьшает размер модели за счет использования меньшего количества битов для представления ее параметров.