Хотя последнее, что вы хотите услышать о современной модели машинного обучения, — это то, что она просто лучше, чем случайная, путь к выигрышной модели часто начинается с простого и наивного решения с использованием самых основных методов моделирования.

В машинном обучении мы всегда получаем новые проблемы и должны выяснить, как их решить. Решение включает исследование, которое представляет собой процесс, содержащий значительный уровень неопределенности. Даже лучшая команда специалистов по данным может не создать ценную модель просто потому, что ценная иногда невозможна. Один из эффективных способов хеджирования риска — начать с эталонной модели. Хорошая эталонная модель имеет три характеристики:

i) Его просто и быстро построить (быстро означает быстрее, чем модель ручной работы, по крайней мере, на порядок).

ii) Он вносит некоторый положительный вклад в решение решаемой задачи (даже если он еще недостаточно точен или ценен).

iii) Он содержит некоторые подсказки о том, что работает хорошо, а что не очень.

Из-за второй характеристики мы (в YellowRoad) иногда называем хорошим эталоном модель «лучше, чем случайная».

Теперь давайте проясним здесь. Мы всегда будем искать ценную модель с точки зрения бизнеса, и модель «лучше, чем случайная» обычно является лишь первым шагом на этом пути. Но во многих случаях это очень важный шаг ребенка. Вот основные причины этого:

  1. Модель «лучше, чем случайная» часто является хорошим критерием «годен/не годен»: если вам удастся построить (простую и быструю) модель «лучше, чем случайная», велики шансы, что вы сможете инвестировать больше, добавить больше параметров ( больше данных, больше сложность) и получить значительно лучшую модель. Это не гарантия, но при условии, что вы легко достигли модели «лучше, чем случайная» (значительно быстрее, чем весь проект), имея ее, вы устраняете значительный риск. Мы также иногда видим ценные решения машинного обучения, которые были получены после того, как не удалось быстро создать модель «лучше, чем случайная». Но неудача таким образом значительно увеличивает риск.
  2. Запуск модели «лучше, чем случайная» на реальных данных, характеризуя случаи, в которых она работает хорошо, и случаи, в которых она не работает, многому учит нас о решаемой задаче и помогает нам на пути к лучшей модели. То есть во многих случаях модель «лучше, чем случайная» — это не просто шаг управления рисками, а конструктивный шаг на пути к действительно успешной модели.
  3. Ансамбль: в машинном обучении иногда можно сгенерировать ансамбль относительно слабых моделей и объединить их в одну, на удивление сильную. Если вы можете сгенерировать серию моделей «лучше, чем случайные», вы можете получить очень хороший результат, объединив их подрезультаты.

В следующий раз, когда клиент или менеджер спросят вас, насколько хорошо решение, не отвечайте, что оно лучше случайного. Ни один специалист по данным, вероятно, не пропустит шутку, но пусть модель «лучше, чем случайная» станет частью вашего рабочего процесса.