Больше не всегда лучше. И это как нельзя более верно при разработке вашей стратегии данных. Какие данные вообще имеют значение? Откуда ты знаешь, что это важно? Где приобретатели данных проводят свое время? Какие данные вы выбираете дальше? Часто бывает трудно четко структурировать эти вопросы, не будучи перегруженными. В CircleUp мы сводим все к трем компонентам, что отражает наше внимание к активам данных временных рядов: (1) прошлое, (2) настоящее и (3) будущее.

Начнем с нескольких определений. Что каждый из них означает для Хелио?

  • Прошлое.Какова наша стратегия обратного сбора?
  • Настоящее время.Как выглядит наша текущая стратегия сбора и обработки данных?
  • Будущее. Как выглядит наш новый сбор данных?

Несколько интуитивно мы начинаем с настоящего и направляем наши стратегические и инженерные усилия на создание надежной системы сбора данных, которая надежно и эффективно собирает данные, которые, как известно, предсказывают будущий успех компании. Наша текущая система загрузки состоит из двух одинаково важных компонентов любой модели машинного обучения — (1) наши данные о функциях и (2) наши обучающие данные. Обе части содержат сотни источников, которые классифицируются как партнерские, практические или общедоступные данные. Искусство определения рентабельности каждого из этих активов данных заключается в сочетании набора вопросов, которые мы постоянно задаем себе. Чтобы назвать несколько… какова важность этого актива данных для наших основных и вторичных моделей машинного обучения? На сколько брендов в нашей вселенной CircleUp влияет этот актив данных? Насколько эфемерны эти данные? Задавая правильные вопросы, наша команда по сбору данных может расставить приоритеты в существующих ресурсах данных с пониманием того, как каждый из них влияет на наши бизнес-команды.

Во-вторых, мы смотрим в будущее. Какие данные вы выбираете дальше? Это сложный вопрос, который включает в себя длительный процесс оценки данных, который мы проводим для каждого источника, который мы потенциально можем использовать. Но этот процесс для будущего поста. Обдумывая, какие данные мы изначально хотели бы использовать для выборки, мы стараемся не усложнять. Будет ли этот актив данных приращением к известному предсказателю успеха? Или этот актив данных будет ортогональным сигналом, мотивированным гипотезой бизнес-команды? Оттуда мы начинаем процесс поиска и оценки источника данных.

Наконец, мы думаем о том, что мы в идеале хотели бы собрать обратно. Как вы понимаете, этот компонент легче идентифицировать, чем выполнить. Важность функций наших активов данных известна и расставлена ​​по приоритетам в соответствии с нашим вниманием к нашей «текущей» системе сбора и приема. Но возможность обратного сбора данных временных рядов практически невозможна. Таким образом, бэк-коллекция представляет собой комбинацию как сбора эфемерных данных (очень сложная задача), так и сбора временных рядов, которые еще предстоит доказать для прогнозирования успеха компании.

Сбор данных — это акт жонглирования, который заставляет нашу команду безжалостно расставлять приоритеты, думая как о краткосрочной, так и о долгосрочной перспективе. Актив данных, предсказывающий успех сегодня, может не быть таковым завтра (и наоборот). В результате мы постоянно тестируем и постоянно анализируем, чтобы успешно использовать капитал сегодня и масштабировать в будущем.