Трение между более простыми и более сложными моделями имеет важное значение в прогнозных и количественных стратегиях.

Один из самых распространенных споров о моделях прогнозирования в криптопространстве заключается в том, являются ли более простые модели машинного обучения более сложными моделями глубокого обучения. Многие люди считают, что более простые прогностические модели имеют то преимущество, что их легко объяснить и обосновать на основе их результатов. Однако на крайне неэффективных рынках, таких как криптовалюты, более простые модели оказались уязвимыми к постоянным колебаниям рынка. Сложные модели глубокого обучения, как правило, более точны во многих сценариях прогнозирования криптоактивов, но имеют тот недостаток, что они становятся «черными ящиками», когда приходит понимание их решений. Эта дилемма выходит за рамки простых и сложных моделей машинного обучения и выходит за рамки криптографии. В теории машинного обучения это известно как дилемма интерпретируемость-точность. Сегодня я хотел бы использовать статью, которую я написал в прошлом году, чтобы объяснить это явление.

Трение интерпретируемости и точности в моделях глубокого обучения

Здоровые трения — жизненно важный двигатель роста в любой экосистеме. Противоборствующие стороны, подталкивающие друг друга к достижению новых уровней производительности, являются сущностью биологической, социальной и экономической эволюции человека. Пространство глубокого обучения не является исключением из этого явления, и очень часто мы сталкиваемся с огромными трениями между различными школами мысли в экосистеме. Из этой динамики трения нет ничего более важного, чем взаимосвязь между интерпретируемостью и точностью в моделях глубокого обучения.

Интерпретировать такое математическое уравнение, как x + y = z, очень просто. Увидев результат и входные данные, вы можете быстро сказать, как процесс смог произвести результат. Однако, если я попрошу вас интерпретировать, как оркестр исполняет Симфонию Бетховена №. 9 процесс может быть не таким тривиальным 😉 Понять роль, которую играет каждый инструмент, а также его взаимодействие с десятками других инструментов, не очень просто, просто слушая финальную мелодию. Ну, у нас есть похожие проблемы в мире глубокого обучения.

Некоторые модели машинного обучения, такие как линейная регрессия или обратное распространение, очень легко интерпретировать. Вы можете начать с результатов и проследить шаги вплоть до входных данных. Однако многие проблемы машинного обучения в реальной жизни требуют сложных вычислительных структур, таких как глубокие нейронные сети, которые состоят из сотен скрытых слоев и миллионов узлов. Интерпретация результатов глубокой нейронной сети в лучшем случае сложна, а во многих случаях невыполнима с вычислительной точки зрения.

Трение между интерпретируемостью и точностью моделей глубокого обучения — это трение между возможностью выполнять сложные задачи, связанные со знаниями, и пониманием того, как эти задачи были выполнены. Знание против контроля, производительность против подотчетности, эффективность против простоты… выберите свою любимую дилемму, и все они могут быть объяснены балансированием компромиссов между точностью и интерпретируемостью.

Вы заботитесь о получении наилучших результатов или вас заботит понимание того, как эти результаты были получены? Это вопрос, на который специалисты по данным должны ответить в каждом сценарии глубокого обучения. Многие методы глубокого обучения сложны по своей природе, и, хотя они дают очень точные результаты во многих сценариях, их может быть невероятно трудно интерпретировать. Если мы сможем изобразить некоторые из самых известных моделей глубокого обучения на диаграмме, которая соотносит точность и интерпретируемость, мы получим что-то вроде следующего:

Не все интерпретации одинаковы

Так же, как и в человеческом познании, интерпретация знаний является относительно абстрактным понятием. В случае глубокого обучения существуют разные способы интерпретации сложностей модели.

Точно так же пространство глубокого обучения создало различные методы, которые можно использовать для улучшения интерпретируемости модели. Вот некоторые из моих любимых:

Строительные блоки интерпретируемости

Когда дело доходит до моделей глубокого обучения, интерпретируемость — это не отдельная концепция, а комбинация различных принципов. В недавней статье исследователи из Google обрисовали в общих чертах то, что они считают одними из основных строительных блоков интерпретируемости. В статье представлены три фундаментальные характеристики, которые делают модель интерпретируемой:

Google резюмирует принципы интерпретируемости следующим образом:

· Понимание того, что делают скрытые слои: основная часть знаний в модели глубокого обучения формируется в скрытых слоях. Понимание функциональности различных скрытых слоев на макроуровне необходимо для того, чтобы иметь возможность интерпретировать модель глубокого обучения.

· Понимание того, что делают скрытые слои. Основная часть знаний в модели глубокого обучения формируется в скрытых слоях. Понимание функциональности различных скрытых слоев на макроуровне необходимо для того, чтобы иметь возможность интерпретировать модель глубокого обучения.

· Понимание того, как активируются узлы: ключ к интерпретации не в понимании функциональности отдельных нейронов в сети, а в понимании работы групп взаимосвязанных нейронов, которые активируются вместе в одном и том же пространственном местоположении. Сегментация сети на группы взаимосвязанных нейронов обеспечит более простой уровень абстракции для понимания ее функциональности.

· Понимание того, как формируются понятия.Понимание того, как глубокая нейронная сеть формирует отдельные понятия, которые затем могут быть собраны в конечный результат, является еще одним ключевым строительным блоком интерпретируемости.

Сочетание этих трех принципов, безусловно, улучшает интерпретируемость глубокой нейронной сети. Безусловно, интерпретируемость является важным элементом для повсеместного внедрения методов глубокого обучения. Однако, думая о реализации интерпретируемой модели глубокого обучения, мы всегда должны помнить, что мы можем расплачиваться за точность.