Недавней тенденцией в сообществе специалистов по данным стал разговор о курировании и обработке набора данных. В корпоративном мире данные никогда не будут такими чистыми, как в соревнованиях Kaggle или данных обучения, которые мы используем в школе. Навыки справляться с такими ситуациями жизненно важны для специалиста по данным, но правильное решение состоит в том, чтобы в первую очередь обеспечить создание достоверных наборов данных. В разговоре о недавно опубликованной статье Бена Тейлора общий контакт заметил, что настоящие инвестиции в технологии ИИ заключаются в создании правильных наборов данных. Любой специалист по данным скажет вам, что наличие хорошо подобранного набора данных с точными метками гораздо важнее, чем наличие хорошего алгоритма. Никакая выборка или импутация не могут исправить плохо поддерживаемый набор данных — лучше инвестировать в создание нового набора данных, чем пытаться создать полужизнеспособную модель. В науке о данных подавляющее большинство ценности часто получается из проблемы регрессии или классификации помеченного набора данных, также известного как обучение с учителем. Контролируемое обучение имеет жизненно важное значение для получения ценности для бизнеса, потому что оно позволяет прогнозировать будущее, в отношении которого бизнес может действовать. Это контрастирует с неконтролируемым обучением, когда определенные структурные свойства могут быть получены, но их гораздо сложнее применить на практике. Мы сосредоточимся на маркированных обучающих наборах, особенно в мире мошенничества с транзакциями по кредитным картам, и на том, как передовой опыт может быть синтезирован в других отраслях и вариантах использования. В этой статье основное внимание будет уделено необходимости экспертных знаний в области бизнеса как части процесса обработки данных и тому, как создать эффективные стимулы для маркировки наборов данных.

Сначала немного предыстории того, что происходит, когда транзакция помечается как подозрительная, обычно с помощью бизнес-правил, использующих оценку мошенничества. Транзакция будет поставлена ​​в очередь для обработки. Затем банк свяжется с держателем карты напрямую, чтобы определить, была ли транзакция подлинной. Как только владелец карты укажет, что транзакция является мошеннической, банк соберет от него дополнительную информацию, чтобы определить другие возможные мошеннические транзакции, заблокирует и переведет кредитную карту и попытается вернуть средства. Банк часто подает полицейский отчет, отправляет дополнительную информацию обратно в сеть кредитных карт для анализа сети и работает с продавцом, чтобы вернуть любые потерянные средства. Иногда транзакция не будет считаться подозрительной и будет помечена как мошенничество только тогда, когда владелец карты проверит свою банковскую выписку.

Эта система имеет несколько особенностей, которые необходимо учитывать при создании моделей машинного обучения. Чтобы транзакция была помечена как мошенническая, может потребоваться до 40 дней, поэтому вы должны использовать только данные обучения и тестирования, в которых мошенничество «созрело». Кроме того, система относительно дорогая — между расходами на колл-центр, обмен сообщениями с держателями карт и восстановлением каждая мошенническая транзакция будет стоить примерно 5 долларов, и это без учета украденной суммы. Конечным результатом является набор обучающих данных отличного качества — метки мошенничества будут чрезвычайно точными, поскольку система требует, чтобы каждый заинтересованный человек был абсолютно уверен. Владелец карты никогда не захочет платить за транзакции, за которые он не несет ответственности. Банк захочет уменьшить свои потери от мошенничества, чтобы увеличить прибыль, и может иметь другие нормативные требования, на которые необходимо реагировать. У продавцов есть стимул гарантировать, что немошеннические транзакции не будут возвращены им, а сети брендов карт хотят обеспечить эффективную и надежную сеть. Конечно, эта система никогда не предназначалась для создания надежного тренировочного набора, но он развивался в правильных условиях, но все выигрывают, когда создается этот должным образом помеченный набор данных.

Эта система перестает работать, когда мы переходим к другим видам мошенничества с другими типами стимулов. Одним из них является мошенничество с приложениями или кража личных данных, когда мошенник использует украденные или искусственные личные данные для получения кредитной линии. Они часто обычно используют кредитную карту в течение нескольких месяцев, чтобы создать образец подлинного поведения и обмануть существующие алгоритмы мошенничества. Поскольку человек, которого обманывают, часто не знает о таком поведении до тех пор, пока его кредитный рейтинг не упадет, мошенничество будет замечено и правильно отмечено со значительной задержкой. Банки, скорее всего, расценят это мошенничество как банкротство и спишут его. Никакие продавцы не затронуты. В результате набор данных о мошенничестве с приложениями имеет гораздо большую задержку, и маркировка не будет иметь такой же надежности.

Похожим действием, которое трудно обнаружить, является «дружеское мошенничество», когда держатель карты оспаривает платеж, за который он сам несет ответственность. Опять же, поведение трансактора является подлинным, поэтому традиционные алгоритмы мошенничества здесь не сработают. Сеть построена для защиты держателя карты, поэтому продавцу, возможно, придется собрать дополнительные доказательства, чтобы опровергнуть эти претензии. Когда это происходит и мошенничество не обнаружено, набор данных будет содержать метки мошенничества для законных подлинных транзакций, что приведет к путанице в любых обучающих наборах данных. В обоих этих примерах жизнеспособная стратегия для победы в этих мошеннических «играх» не обязательно должна включать мошенническую маркировку.

На протяжении всей этой статьи я называл эту систему игрой, в которой игроки получают вознаграждение, совершая правильные или неправильные действия, которые случайно создают наборы данных, которые мы ищем. Математически игра — это ситуация, когда один или несколько агентов используют стратегию, которая выделяет некоторый ресурс — определение правильной стратегии для максимизации прибыли для произвольного агента является центральной проблемой. Эта парадигма хорошо подходит для рассмотрения того, как создавать хорошо размеченные наборы данных. Мошенничество с кредитными картами имеет высокую стоимость транзакции для любого конкретного действия, обычно около 5 долларов США за каждую выполненную мошенническую транзакцию. Вознаграждение системы транзакций по кредитным картам смягчает это. Тем не менее, любая система может создавать стимулы для набора хорошо размеченных данных. Например, в случае сегментации потребителей согласование стимулов и систем для потребителей с целью «самоидентификации» поможет компаниям лучше ориентироваться на них. Netflix является отличным примером этого: чем больше пользователь оценивает контент, который он потребляет, тем лучше рекомендации, которые он видит для дополнительного контента. Другим примером является фирма, занимающаяся наукой о данных, которая специализируется на объединении общедоступных наборов данных с внутренними данными. В некоторых случаях они собирали дополнительные данные от сотрудников своих клиентов (с полного и информированного согласия) в качестве способа проверки точности наборов данных, которые они вносят. Спросить кого-то о стоимости их дома часто гораздо точнее, чем приписать этот атрибут. из других источников данных. Аллегория, которую я слышал, — это утверждение руководителя Google о том, что они не создают искусственный интеллект — они создают отличные наборы обучающих данных.

Учитывая важность данных в качестве входных данных, импульс приходит с созданием системы для курирования этих наборов данных. Это не простая проблема; взаимодействие множества различных источников данных и входных данных приводит к сложной нелинейной системе. Моделирование этой системы и выяснение того, как манипулировать ею для создания хорошего набора данных, станет жизненно важной возможностью для любой компании, разбирающейся в данных. Стартапы и новые отрасли промышленности могут создавать эти системы с нуля (см.: FAANGS); то, что позволит устаревшим предприятиям выжить, — это способность адаптировать старые экосистемы по инерции для создания наборов данных с хорошо помеченными тегами. Отчасти поэтому так много задач обучения с подкреплением являются прототипами компьютерных игр — сама структура игры обеспечивает создание надежных наборов данных. Дальнейшая проблема заключается в том, что существует множество проблем науки о данных, которые нужно задать одному набору данных; система, создающая данные, нуждается в форме полноты по Тьюрингу, чтобы создать набор данных, для которого можно задать произвольное количество задач классификации и регрессии. Теория игр могла бы стать одним из решений этой систематической проблемы. Функцию выигрыша-проигрыша можно настроить таким образом, чтобы оптимальной стратегией любого игрока было создание набора данных, полного по Тьюрингу.

И последнее замечание: специалистам по данным необходимо тренироваться в этих навыках, чтобы убедиться, что они не возятся с наборами данных с самого начала. Участие в очистке набора данных с самого начала является важным уроком для любого специалиста по данным. Многие компании поручают эту задачу младшим специалистам по данным, возможно, выжигая их и не позволяя им увидеть «крутые» аспекты науки о данных. Скорее, акцент должен быть сделан на создании правильных систем и стимулов для создания надлежащих тренировочных наборов с самого начала. Обучение с подкреплением в сочетании с теорией игр предлагает стратегию для достижения этой цели.