Полные энтузиазма специалисты по новым данным часто задаются вопросом, как можно улучшить свои модели, на каком необычном языке программирования им следует сосредоточиться или сколько слоев им нужно для глубокой нейронной сети. Все это обоснованные проблемы, но вряд ли самые важные вещи, о которых стоит беспокоиться, когда вы только начинаете. Не только в начале, но и на протяжении всей вашей карьеры наиболее важным аспектом моделирования является ценностное предложение: имеет ли смысл тратить время и ресурсы на решение данной бизнес-проблемы?

Частью уравнения является определение того, что вы на самом деле пытаетесь моделировать и чего вы ожидаете достичь. Классические бизнес-кейсы, такие как «какой клиент откажется», «какова ожидаемая цена на этот дом» или «сколько клиентов купят этот продукт» имеют одну общую черту: конечная цель бизнеса - не знать, что именно число, конечной целью является оптимизация доходов, и для этого они будут использовать выходные данные вашей модели для принятия бизнес-решений.

Ты не одинок

Здесь я хотел бы сослаться на мою любимую цитату из серии Netflix «Затерянные в космосе»:

Информация не существует изолированно. Есть последствия. Контекст.

Ваша модель всегда будет использоваться в контексте. Важно знать, в каком контексте. Ваша модель не является конечной целью, всегда есть причина для ее существования.

От понимания контекста до правильных вопросов

Так зачем вам знать контекст: чтобы задать правильный вопрос. Я поясню этот момент на нескольких примерах.

Допустим, вы хотите спрогнозировать цены на рынке жилья, почему? Вы хотите купить дешево, продать дорого и стать риелтором? В этом случае вопрос, который вы должны моделировать, заключается в разнице между тем, насколько высоко вы можете рассчитывать на продажу этого дома, и фактической ценой, по которой вы ожидаете купить этот дом прямо сейчас (надеюсь, до того, как этот дом выйдет на публичный рынок недвижимости).

Или вы просто хотите, чтобы дом жил в себе? Возможно, вы цените сад и близость к остановкам общественного транспорта. В этом случае вам следует смоделировать функцию затрат, которая учитывает соотношение ожидаемой цены и то, насколько она соответствует вашим предпочтениям. Обратите внимание, что в этом случае точность фактической цены на жилье становится менее строгой.

Или вы можете попытаться сгруппировать весь город в улицы для нижнего, среднего и высшего классов. В этом случае фактическая стоимость дома больше не имеет значения, вам нужно только разбить их на группы или группы.

Заключение

Задав правильный вопрос, вы можете улучшить работу своей модели в общем бизнес-контексте. Когда вопрос, который вы пытались решить, точно соответствует контексту, в котором будет использоваться ваша модель, общая производительность будет намного лучше, чем если бы вы вложили гораздо больше ресурсов в получение абсолютно совершенной модели, моделирующей неправильный вопрос.

В качестве дополнительного преимущества, если вы можете снизить требования к точности, вы можете обойтись меньшими наборами данных и использовать свободное время для проведения других экспериментов.

Удачного моделирования!