Почему веса функций в модели машинного обучения бессмысленны

Не принимайте решения на основе весов модели машинного обучения.

Когда я вижу, что наши клиенты влюбляются в BigQuery ML, возникает старая проблема - я считаю, что они не могут устоять перед соблазном присвоить значение весу характеристик.

«Самый большой вес в моей модели для прогнозирования пожизненной ценности клиента, - могут заметить они, - это то, получил ли клиент благодарственный звонок от руководителя». Или они могут посмотреть на отрицательные веса и сделать ужасный вывод: «Магазины, расположенные в городских районах, дают отрицательную оценку».

Пожалуйста, не делай этого. Не заставляйте своих руководителей звонить каждому покупателю! Не закрывайте все свои городские районы!

Не принимайте решения на основе веса вашей модели машинного обучения. Почему нет?

Категориальные веса - это свободные параметры

Возьмем простой пример. Допустим, вы хотите создать модель для предсказания веса монеты. В вашу модель машинного обучения будут входить три параметра: диаметр монеты, толщина монеты и материал, из которого сделана монета.

Возможно, после обучения модели на вашем большом наборе данных монет вы получите эту модель:

Отрицательные термины для материала ничего не значат. Например, мы можем переместить часть веса в термин «смещение» и создать эквивалентную модель:

Другими словами, категориальные переменные предоставляют большую свободу действий в том, как модель может назначать свои веса. Это буквально случайно.

Зависимые переменные также предоставляют бесплатные параметры

Предположим, оказывается, что в вашем реальном наборе данных более крупные монеты также толще. Тогда ваша модель может быть такой же:

Итак, теперь вес элемента диаметра отрицательный, потому что он по существу сводит на нет дополнительный положительный вес, придаваемый толщине.

Очевидно, что более крупные монеты будут весить больше, но поскольку они также толще в реальном мире, из которого был собран наш набор данных, веса отдельных объектов не будут отражать этого.

Просто не делай этого

Суть в том, что нельзя делать выводы ни по величине гирь, ни по знаку гирь. Как люди, мы хотим объяснимости, но в реальных наборах данных это может быть довольно сложно.

Такие методы, как перестановка входов, LIME и интегрированные градиенты, в некоторой степени помогают, но если у вас нет четкого представления о взаимозависимостях между функциями, опасно принимать дорогостоящие решения, основанные даже на этих более сложных методах. Важность характеристик - это важность в рамках конкретной модели, которая часто не преобразуется в важность в реальной жизни.

На самом деле, просто не

Модели для прогнозирования жизненной ценности или удовлетворенности клиентов хороши - вы определенно можете использовать эти модели, чтобы определить, каких клиентов нужно нянчить, а какие транзакции исследовать. Это потому, что модель была обучена на большом наборе данных, чтобы предсказывать именно это.

Однако веса, связанные с отдельными характеристиками, не поддаются интерпретации. Величины входных характеристик («звонки от руководителей имеют большой вес») или знак особенности («городские магазины приводят к плохому удовлетворению») не должны использоваться для вывода выводов. Не следует использовать модель, прогнозирующую пожизненную ценность, чтобы требовать от каждого клиента получения персональной записки от руководителя.