Углубляться, расширяться или повышать качество: как найти узкое место в данных

«Если бы у меня был доступ к большему количеству обучающих данных, точность моей модели значительно увеличилась бы», «Мы должны собирать больше данных через API», «Качество данных в источнике настолько низкое, что мы не можем их использовать»

Данные являются основой каждого проекта машинного обучения или аналитики, но, несмотря на то, что сейчас у нас больше данных, чем когда-либо, отговорки, связанные с отсутствием достаточного количества данных или их правильного типа, отсутствуют.

Но как узнать, когда это реальные опасения или всего лишь отговорки? Другими словами, как узнать, являются ли данные ограничивающим фактором проекта?

Поиск узких мест в данных

Вы можете управлять своими данными тремя разными способами:

  • Углубляясь: увеличивайте количество точек данных.
  • Расширение: увеличение количества источников данных
  • Качество: исправьте беспорядок!

Углубляясь

В этом сценарии вы не меняете структуру данных, а просто увеличиваете количество точек данных.

У вас не всегда есть контроль в этом вопросе (например, вам нелегко привлечь клиентов), но часто вы это делаете, по крайней мере, в некотором отношении.

Есть несколько различных сценариев, в которых помогает количество данных.

A / B-тестирование или эксперимент

Если вы проводите эксперимент, вам необходимо иметь достаточно точек данных для достижения статистической значимости ваших результатов. Сколько очков вам нужно, будет зависеть также от других факторов, таких как предел погрешности, доверительный интервал и дисперсия распределения. Для каждого эксперимента, который вы пытаетесь запустить, существует минимальный порог объема данных: если вы уже достигли этого порога, вы можете двигаться дальше, поскольку дополнительные точки данных не помогут. В противном случае это может стать вашим узким местом. Эта статья также дает хороший обзор этого.

Точность прогнозов в машинном обучении

Если вы используете прогнозную модель, точность прогнозирования увеличивается с увеличением количества данных, но только до определенной точки «насыщения». Как вы узнаете, достигли ли вы такой точки? Вы можете повторно обучить свою модель с различным количеством обучающих точек и построить график точности прогноза в зависимости от объема данных. Если ваша кривая еще не сглаживается, скорее всего, вы могли бы извлечь дополнительную пользу из дополнительных данных.

Включение глубокого обучения

Хотя традиционные модели машинного обучения также могут работать с меньшими объемами данных, чем сложнее ваша модель, тем больше данных для нее требуется. В конце концов, модели глубокого обучения не могут работать, если у них нет очень большого количества доступных данных. Для них большие данные - это требование, а не желаемое для повышения производительности.

Аналитика и аналитика

Даже если вы не используете свои данные для целей прогнозирования, но, возможно, хотите обогатить свои отчеты или провести разовый анализ для поддержки своих решений, объем данных все равно может быть узким местом. Это особенно верно, если ваши данные сильно разнородны и вам необходимо анализировать их на разных уровнях детализации. Например, если у вас большой торговый персонал и широкий ассортимент продукции, каждый продавец мог продать только часть продуктов. Если вы хотите сравнить, насколько хорошо они продают определенный продукт, возможно, у вас не получится.

Широкий

Разнообразие данных может быть ключевым, но, по моему опыту, этот аспект также часто переоценивается.

На одной из предыдущих работ я работал в стартапе, прогнозирующем цены на жилье с помощью машинного обучения. Стратегическим преимуществом для нас было разнообразие данных, которые у нас были, чтобы включать все возможные источники данных, которые могли бы помочь в составлении прогнозов по недвижимости.

Ключевым моментом было решить, какие источники получить, чтобы повысить предсказательную силу модели.

Как оценить затраты и выгоду от получения новых данных?

Оценка преимуществ новых данных включает два основных вопроса: какова корреляция новых данных с целевой переменной, которую мы пытаемся предсказать (надеюсь, как можно выше), и какова корреляция новых данных. с данными, которые у нас уже есть (надеюсь, как можно меньше). К сожалению, это не всегда просто количественно оценить аналитически, но небольшое количественное суждение может помочь попытаться отфильтровать лучших кандидатов.

Оценку стоимости новых данных можно рассматривать как общую стоимость владения данными. Иногда покупка данных или оплата API сопряжены с реальными затратами, но это только часть дела. Следует учитывать и другие факторы, зачастую самые крупные:

  • Одноразовое или повторяющееся употребление
  • Сложность преобразования и хранения данных
  • Требуется качество и очистка данных
  • Обработка и анализ данных

Идущее качество

Профессор Гарварда Сяо-Ли Мэн очень воодушевляет разговор о том, что качество данных гораздо важнее количества. Прелесть этого выступления в том, что он может математически оценить это утверждение, глядя на статистические показатели качества или количества данных.

Качество данных намного важнее количества данных

Мой бизнес-опыт также отразил это: часто компании хотят начать собирать или включать больше данных, даже не посмотрев предварительно, достаточно ли попыток работы с существующими данными.

Качество данных часто является проблемой, большой проблемой. Это может происходить из-за ошибок ручного ввода, неточности необработанных данных, проблем с агрегацией или уровнями обработки, отсутствия данных в течение определенного периода времени и т. Д.

Это может потребовать много работы и особенно скучной работы, но также может принести самые полезные результаты.

Заключение

Постарайтесь определить, где у вас узкое место в данных, если таковое имеется.

Проблемы количества данных часто можно распознать с помощью простых проверок статистической значимости или кривой точности. Если проблема не в этом, продолжайте.

По моему опыту, разнообразие данных часто преувеличивается не потому, что новые данные бесполезны, а потому, что новые источники могут содержать информацию, которую вы уже каким-то образом собрали, особенно если у вас уже есть относительно богатый набор данных.

Качество данных является ключевым моментом, и гораздо лучше сосредоточиться на меньшем, но более чистом наборе данных, чем на большом и беспорядочном.