Недавно Smarkets был приглашен принять участие в IC Data Challenge - хакатоне данных в Имперском колледже Лондона, который дает студентам возможность провести день, работая над реальными наборами данных и проблемами отрасли. Мы были ответственны за создание одной из уникальных задач для этого мероприятия, но выбрать одну задачу из широкого спектра проблем с данными, с которыми мы сталкиваемся ежедневно в Smarkets, было сложно. После мозгового штурма мы решили основывать нашу задачу на данных о торговых операциях по футболу в текущем сезоне английской Премьер-лиги.

Мы подготовили набор данных с книгой заказов первого уровня (лучшие цены спроса и предложения, доступные одновременно) из футбольных игр EPL, торгуемых на платформе Smarkets, вместе с некоторыми конкретными событиями в игре, такими как голы, карточки или угловые. Основной задачей челленджа было прогнозирование цены после гола.

Обе команды, которые работали с нашим набором данных, проделали потрясающую работу. Мы увидели проницательные сюжеты и оригинальные подходы к решению проблемы. Одна из команд вышла в финал конкурса и заняла первое место за лучшее количественное решение! Особое упоминание Обществу науки о данных Имперского колледжа и студенческому союзу за такое хорошо организованное мероприятие.

Что мы узнали из хакатона?

Набор данных - это основа для решения проблемы, его качество имеет решающее значение, и его трудно обеспечить. Если подготовка данных не является основной задачей конкурса, ее должны делать заранее люди, хорошо знакомые с ее характеристиками.

  • Лучше давать меньше данных, чем больше, стремиться к тому, чтобы их было достаточно. Студенты работают на своих машинах и часто очень ограничены объемом оперативной памяти. Испорченный оборудованием промышленного класса, вы можете забыть, что чтение набора данных из файла может быть проблемой.
  • Удалите все отсутствующие или поврежденные записи.
  • Убедитесь, что названия столбцов говорят сами за себя.
  • Удалите строки и столбцы, не содержащие важной информации.

Доступ к уже очищенным и актуальным данным позволяет студентам сосредоточиться на исследовательском анализе и решении проблемы.

Как сформулировать задачу?

Превратите свою бизнес-проблему в проблему машинного обучения:

  • Точно определите исходные данные / контекст для прогноза («все цены, торгуемые до цели»).
  • Точно определите свои результаты («спрогнозировать цену» против «спрогнозировать среднюю цену на второй минуте после достижения цели»).
  • Упомяните основные предположения, которые следует сделать.
  • Укажите показатель оценки.
  • Предложите ориентир, к которому нужно стремиться.

Это превращает вашу проблему в очень знакомый формат, похожий на kaggle, который оказался чрезвычайно успешным.

Можно утверждать, что такая постановка проблемы лишает ее творческой составляющей. Я думаю, что все наоборот.

Предположим, вас интересует текучесть кадров. Потенциально существует несколько способов / показателей для количественной оценки этой проблемы. Можно посмотреть на активных пользователей (ежедневно? еженедельно?), Среднее количество привлеченных клиентов или неактивные учетные записи (но что делает учетную запись неактивной?). Существуют канонические методы (рассмотренные в сообщении ниже) для решения этой проблемы, но не следует ожидать, что участники будут иметь глубокие знания отраслевых стандартов. А неверно сформулированная цель может обернуться для команды провалом.



Сформулировать задачу машинного обучения на основе бизнес-задачи очень интересно, но если существует каноническая формулировка проблемы, мы должны ее предложить. Мы действительно допускаем творческие решения, когда учащиеся не тратят время на обсуждение вопросов, на которые есть стандартные ответы.

Какие корреляции / закономерности существуют в данных? Как визуализировать результаты?

Какие инструменты и методы можно использовать? Как улучшить прогнозы?

Наука о данных никоим образом не ограничивается машинным обучением, это гораздо более широкое понятие. Я бы сказал, что наука о данных похожа на футбол. Футбольный матч не состоит из забивания голов - гол - довольно редкое событие за 90 минут игры. Однако футболисты, как правило, проводят непропорционально много времени, тренируясь забивать голы во время тренировок. Несмотря на то, что целей мало, они имеют решающее значение. Как и основной алгоритм машинного обучения в вашей производственной системе.

Сноски:

  1. Подробнее о книге лимитных заявок.