Использование вероятностных слов в науке о данных

Превратите расплывчатую обратную связь в конкретные вероятности для машинного обучения

При запуске новой модели науки о данных вы должны оценить предоставленные вам данные. Часто новые инициативы в области науки о данных начинаются с набора данных и связи с экспертом в предметной области или другим контактным лицом. Эксперт предметной области обеспечивает дополнительный контекст того, что означает набор данных. Это включает в себя выбросы или исключения в наборе данных и то, что эксперт в предметной области считает «нормальным» или «ненормальным», или что «всегда» или «никогда» не происходило. Но что, если «никогда» не означает «никогда» и «всегда» не означает «всегда»? Эти слова известны как «вероятностные слова» и содержат важную информацию, которую невозможно найти где-либо еще. В этой статье обсуждается, как использовать эти вероятностные слова, чтобы узнать о ваших данных и улучшить свои модели.

Определение вероятностных слов

Вероятностные слова — это слова, которые выражают неопределенность или вероятность. К ним относятся такие слова, как «может быть», «возможно», «вероятно», «вероятно», «маловероятно», «возможно», «невозможно» и так далее. Эти слова используются для обозначения неявного распространения чьих-то убеждений или уверенности в событии.

Каждый, сознательно или бессознательно, приписывает вероятность этим вероятностным словам в своей голове. Однако точные вероятности слов часто затемняются личной интерпретацией слов, что создает плохую связь с данными. Например, означает ли «обычно» 40% или 80% времени? Это определение может варьироваться в зависимости от людей и ситуаций. После извлечения интерпретации этих вероятностей их можно включить в процесс разработки моделирования.

Вероятностные слова и предыдущая работа

Два известных исследования с использованием вероятностных слов включают Words of Estimative Probability Шермана Кента из Центрального разведывательного управления США (ЦРУ) в 1993 году (Words of Estimative Probability (cia.gov)). Вторая статья называется Если вы говорите, что что-то «вероятно, насколько вероятно, что люди думают об этом?» написано Андре Мобуссеном и Майклом Дж. Мобуссеном в Harvard Business Review в 2018 году.

Исследование, написанное Кентом, было направлено на то, чтобы исправить ситуацию, когда люди часто говорят неконкретные заявления о том, насколько вероятно событие, которое может произойти в разведывательной отрасли. В статье он использовал выборку отчетов, чтобы построить карту между словами и вероятностями, чтобы оценить неопределенность ответов людей. Выходные данные исходной таблицы варьировались от 0% невозможности до 100% уверенности, с «общей областью возможности» между ними. «Общая область возможности» содержит 7 вероятностных фраз. Вот эти слова (в порядке возрастания уверенности): «невозможно», «почти наверняка нет», «вероятно, нет», «изменяется примерно даже», «вероятно», «почти наверняка» и «определенно».

Позже Андре и Майкл Мобуссен продолжили исследование, проведя обновленный опрос, в который вошли более разнообразные слова. Их целью было увеличить количество участников исследования и выйти за пределы разведывательного сообщества. Они опросили пользователей в Интернете, чтобы связать слова с их интерпретируемыми вероятностями. Авторы также стремились выявить различия в других контекстуальных аспектах, таких как пол и те, кто изучал английский как второй язык. Один из уроков их исследования заключается в том, что люди должны использовать вероятности для объяснения данных, а не вероятностные слова, чтобы избежать неправильного толкования при обмене информацией о данных. Кроме того, люди должны использовать четкую методологию для сбора вероятностей.

Этот раздел представляет собой лишь краткий обзор статей, я настоятельно рекомендую прочитать их полностью. Но остается вопрос — что это значит для науки о данных?

Использование вероятностных слов в науке о данных

Сопоставление расплывчатых значений слов с конкретными примерами — отличный способ расширить знания о наборе данных и дополнить его дополнительными знаниями. Эта дополнительная информация может расширить информацию, доступную для ваших моделей, и повысить производительность модели.

Узнайте о контексте ваших данных

Существует множество различных способов узнать больше о наборе данных в дополнение к традиционным методам исследования данных. Это можно сделать с помощью различных подходов, которые обычно включают обсуждение с интервьюируемым. Этим человеком может быть эксперт в предметной области, команда модераторов контента, бухгалтер, пользователь или человек, связанный с набором данных, отраслью или проблемой.

Говоря с интервьюируемым, будьте готовы определить его вероятностные слова. Начните с вопросов об общем статистическом поведении данных, таких как корреляции, и рассматривайте каждую корреляцию как гипотезу. Эта гипотеза должна быть доказана или опровергнута опрашиваемым на основании собственного опыта. Цель состоит в том, чтобы прислушиваться к квалификаторам, которые люди ставят перед своим мнением о действии. Вы можете использовать эти вероятностные слова, чтобы определить, что является нормальным, что является ненормальным, а что является выбросом в их опыте. Это также можно использовать для перепроверки того, соответствует ли ваш набор данных вашей задаче. Например, есть ли предвзятость, о которой вы не знаете, в наборе данных или у вовлеченных людей? Часто ли в данных происходит что-то, что респондент считает ненормальным?

При идентификации нормальных данных, аномальных данных и выбросов полезно иметь образ распределения в уме или нарисованный. Ища вероятностные слова, мы пытаемся определить, где выборка событий от нашего интервьюируемого попадает в распределение. Однако важно убедиться, что мы собираем данные с точки зрения интервьюируемого. Событие, которое кажется нормальным в данных, может быть очень неожиданным или необычным внутри бизнес-процесса — и это знание — золото при моделировании.

Например, поставьте себя на место специалиста по данным, которому поручено разработать модель, позволяющую прогнозировать, повысит ли Федеральная резервная система процентные ставки. Изучая процентные ставки, действия Федерального резерва и реакцию рынка, крайне важно узнать точку зрения эксперта, чтобы дать нам представление о том, что, по их мнению, повлияет на эти решения. Скажем, мы спрашиваем управляющего фондом, что, по его мнению, произойдет с процентными ставками, и он отвечает: «Вероятно, они будут расти более медленными темпами». В этом случае важно попросить трейдера количественно оценить в вероятностных терминах (соотношения, проценты и т. д.), что для него значит «вероятно». Спрашивая у трейдера его понимание в процентном выражении, мы можем начать понимать:

Что для них означает «вероятно» и какой экономический контекст необходим, чтобы это произошло
Что может вызвать почти определенное положительное или отрицательное изменение процентной ставки
Что, по их мнению, Федеральная резервная система обычно делает в этой ситуации
Как будет выглядеть необычное отрицательное изменение процентной ставки
Как будет выглядеть необычное положительное изменение процентной ставки

Затем попросите трейдера подробно описать контекст каждого из ответов. Уточняйте вероятностную вероятность каждого слова, на которое ссылается трейдер, и ищите словесно объясненные статистические данные. Эти идеи включают мультиколлинеарность, вторичные эффекты и другие источники, которые могут повлиять на производительность этой модели, но не входят в набор данных для обучения. Чтобы уменьшить предвзятость результатов, попробуйте опросить нескольких человек.

Обладая этой информацией, вы лучше осведомлены о том, что может вызвать изменение курса, и формируете представление о том, во что верят трейдеры. Эти данные можно даже использовать для создания модели настроений из Интернета, которая переводит внешние настроения в деловые настроения.

Дополните свой набор данных

Используя вероятностные слова, набор данных можно расширить, включив в него идеи. Например, вы можете добавить категориальный столбец, указывающий флаг для «необычных» обстоятельств. Вы можете использовать эти данные для прогнозирования обратной связи по большему набору данных, использовать их в качестве необработанных входных данных для модели машинного обучения и количественно оценить значение этой «человеческой» информации для ваших данных.

Использование данных для прогнозирования обратной связи на большом наборе данных называется «слабым обучением». В этом случае строится модель, которая использует выборку обратной связи, чтобы предсказать, какая обратная связь будет по остальной части набора данных. Это означает, что выборка обратной связи должна быть расширена, чтобы охватить весь набор данных. Затем эту расширенную обратную связь можно использовать в качестве входных данных для другой модели или для исследовательского анализа данных. Преимущество этого подхода заключается в том, что выборку данных можно расширить, чтобы охватить большой набор данных. Однако это происходит за счет точности. Поскольку модель обучается на небольшой выборке, существует более высокая вероятность того, что модель будет иметь повышенную предвзятость или не полностью вести себя так, как вел бы интервьюируемый.

Если вам нужна мгновенная обратная связь, чтобы делать прогнозы в рамках модели, то «слабое обучение» можно использовать для построения системы «обратной связи на лету». По мере того, как модель делает онлайн-прогнозы, модель «слабого обучения» принимает входящие необработанные данные, прогнозирует, какой будет обратная связь, а затем передает необработанные данные и прогнозируемую обратную связь в основную онлайн-модель. Это позволяет вам построить функциональную модель без постоянного участия человека.

Еще одна важная особенность сбора этих данных заключается в том, что их можно использовать для количественной оценки того, насколько больше информации дают интервью, чем необработанные данные. Это можно оценить, построив модель с обратной связью и без нее. После того, как обе модели обучены, сравните разницу между оценками моделей, и это даст вам относительную ценность обратной связи. Если ваша модель на 15 % лучше, используя данные обратной связи, чем модель, обученная только на необработанных данных, то доказано, что опросы улучшают производительность вашей модели. Если 15-процентное улучшение может быть связано с влиянием на бизнес, это может помочь оправдать затраты на интервью и дать обратную связь в денежном выражении. Например, если модель прогнозирования повышает производительность на 15 %, что означает ценность в 200 000 долларов США, то обратная связь стоит этих 200 000 долларов США.

Создайте свой собственный вероятностный опрос

Теперь, когда введены вероятностные слова, эти знания можно использовать для создания вероятностных опросов.

Для начала черпайте вдохновение из типичных общих вероятностных слов из оригинальных исследований, на которые ссылались ранее. Не стесняйтесь добавлять свои собственные слова и вероятностные слова, часто используемые в вашей организации. Также может быть полезно выделить неделю и определить общие слова, используемые на ваших встречах, и вести постоянный список наиболее распространенных элементов. Примером, используемым в моем профессиональном опыте, является «неопределенность». Если я пишу вероятностный опрос для своей организации, я хотел бы включить такие элементы, как «большая неопределенность» и «почти наверняка» в список слов, по которым нужно получить обратную связь. Помните, что вы всегда можете добавить слова позже и собрать больше ответов, поэтому совершенство не требуется.

После того, как список слов собран, необходимо создать архитектуру для сбора слов от людей или другого источника данных. Если у вас уже есть источник данных, вы можете использовать свой любимый метод для ввода данных в свои процессы. Если вы собираете отзывы от людей внутри вашей организации, полезно настроить простую архитектуру опроса, чтобы облегчить сбор информации. Это может включать что-то вроде Google Forms, Microsoft Forms и Streamlit. Обычно я использую Streamlit, так как он быстро настраивается, построен на Python, и я могу быстро запустить его на своем локальном ПК по мере необходимости или на его веб-сайте.

Вы также можете собирать основные метаданные о каждом человеке, поскольку они оставляют отзывы. Метаданные, такие как уровень в компании, отделе и годы опыта, могут быть полезны для сегментации того, как разные отделы используют вероятностные слова. Как только будет собрано значительное количество отзывов, вы можете собрать данные и проанализировать распределение каждого из ответов. Из этих дистрибутивов вы сможете ответить на такие вопросы, как:

Какие слова имеют одинаковое вероятностное значение?
Имеют ли слова, имеющие сходные определения, различные вероятности, связанные с ними?
Например, «уверенность» и «уверенность» могут иметь 70% и 95% средних вероятностей, связанных с ними.
Каков разброс вероятностей для слова?
Каковы особенности распределения слов? (Среднее значение, медиана, мода, стандартное отклонение и т. д.)

После этого анализа вы можете использовать эту информацию, чтобы помочь соединить точки между недетерминированными словами, собранными во время интервью, сеансов обратной связи и исследовательского анализа данных. Эти данные можно использовать в конвейере данных для классификации вероятностей в утверждениях, выявления уникальных ситуаций и улучшения результатов модели.

Все изображения принадлежат автору, если не указано иное.

Использование вероятностных слов в науке о данных

Превратите расплывчатую обратную связь в конкретные вероятности для машинного обучения

Определение вероятностных слов

Вероятностные слова и предыдущая работа

Использование вероятностных слов в науке о данных

Узнайте о контексте ваших данных

Дополните свой набор данных

Создайте свой собственный вероятностный опрос

Вопросы по теме