Чему я научился как инвестиционный аналитик после первого курса по науке о данных (на R)

Некоторые хорошие уроки, и это стоит времени

Когда моя бизнес-школа Калифорнийского университета в Беркли Хаас предложила своим выпускникам пройти аудит последних популярных курсов в бизнес-школе, я ухватилась за эту возможность.

Я не специалист по данным, но, поскольку я работаю в области управления капиталом, я проявляю большой интерес к анализу данных. Недавно я лично посетил вводное занятие по Описательному и прогнозному анализу данных и хотел узнать, как алгоритмы данных могут помочь в принятии бизнес-решений.

В наши дни любой курс бизнес-школы, в названии которого есть слово «данные», сразу же привлекает студентов, что говорит об интересе к анализу данных.

Без данных вы просто еще один человек со своим мнением. ~ В. Эдвардс Деминг.

Чтобы показать, как данные никогда не спят — каждую минуту (Domo.com):

В Google делается 5,9 миллиона пользовательских запросов.

Загружено 500 часов YouTube.

Отправляется 231 миллион электронных писем.

Курс был хорошо организован. Преподаватель связывает различные концепции интеллектуального анализа данных с повседневными практическими задачами, такими как рекомендации фильмов на Netflix, обнаружение спама в электронной почте, рекомендации продуктов Instacart, анализ твитов Обамы и т. д. Мы закончили занятие игрой на Kahoot!

Хотя в этой статье не рассматриваются все определения науки о данных, стоит провести различие между описательным и прогнозным анализом данных.

Описательный и прогнозный анализ данных

Описательный и прогнозный анализ данных — это два метода бизнес-аналитики, в которых используются статистические методы и технологии для анализа данных с целью выявления скрытых шаблонов данных для принятия бизнес-решений.

Самый простой способ объяснить их:

Описательный анализ данных (неконтролируемый)просматривает прошлые и сохраненные данные и пытается выявить закономерности, обобщая то, что произошло, но ничего не предсказывая; это указывает на проблему и частоту проблемы.

Прогнозный анализ данных (контролируемое машинное обучение)использует алгоритмы и учится на прошлых данных, а также выявляет взаимосвязь между набором переменных для прогнозирования того, что произойдет; подсказывает, какие действия необходимо предпринять.

Обучение без учителя не имеет целевого значения (не предсказывает результат), в отличие от обучения с учителем. Обучение без учителя направлено на поиск естественной структуры данных, в то время как обучение с учителем находит взаимосвязь между входом и выходом и прогнозирует результат.

Модели, используемые в каждом из методов интеллектуального анализа данных, могут включать:

Резюме общих знаний

Моя цель — поделиться несколькими общими уроками, извлеченными специалистом по финансам/инвестициям без программирования или науки о данных, но с некоторыми статистическими данными и дополнительными мыслями о применении науки о данных к инвестициям.

Я опускаю многие технические детали интеллектуального анализа данных, которые вы можете прочитать в популярной публикации Towards Data Science на Medium, других статьях Medium или отраслевых статьях в Интернете.

(1) Страх перед кодированием можно преодолеть: часто, будучи не кодером, я знаком с кодами и осознаю, что не кодирую и не знаю, как использовать R, статистический и язык графического программирования, который очень популярен в интеллектуальном анализе данных.

Есть 3 золотых правила кодирования:

Обезьяна видит, что делает обезьяна: программирование — это программирование, похожее на изучение нового языка. Легче и правильнее учиться, когда вы подражаете другим (с ограниченным пониманием) — так что «копирование и вставка» образцов кода совершенно нормально.
Метод проб и ошибок: вы неизбежно совершаете ошибки, и это нормально — необходимая часть обучения программированию.
Google — ваш лучший друг. Многие люди уже делятся вашей проблемой, и вы можете найти ответы в Интернете.

Мысли. При поддержке сообщества, небольшой рабочей группы и учителя (если есть) можно научиться кодировать без страха.

(2) Регрессия и классификация: оба алгоритма используются в контролируемом машинном обучении. Вы обучаете модель, используя существующую модель на основе правильно помеченных данных (фактический результат или «основные истины»).

В экономике и инвестициях мы регулярно используем регрессионный анализ (линейный, множественный и т. д.), чтобы понять отношения и корреляцию между набором входных переменных (независимые переменные, такие как изменение процентной ставки, уровень располагаемого дохода и т. д.) и выходом. переменная (зависимая переменная, такая как экономический рост, доходность акций).

Алгоритм классификации, несмотря на то, что это обычное явление, такое как определение того, является ли электронное письмо спамом, является для меня относительно новой концепцией.

Алгоритмы классификации могут использовать как дискретные, так и количественные входные переменные для прогнозирования результата (метки или категории), но этот результат должен быть классифицирован по одному или нескольким классам, таким как «Да» или «Нет», спам или не спам, поэтому метка является дискретной.

Основное различие между алгоритмами регрессии и классификации заключается в том, что регрессия предсказывает непрерывное числовое значение, а классификация предсказывает дискретную метку.

Способ применения машинного обучения к инвестициям (например, доходность акций) заключается в использовании логистической регрессии, которая используется для прогнозирования вероятности бинарного события (да или нет) (например, движения цен акций вверх или вниз).

Мысли.Как видите, логистическая регрессия отличается от линейной регрессии, которая может прямо предсказать, насколько изменение процентной ставки повлияет на изменение роста ВВП. Логистическая регрессия — это скорее классификационная модель, чем регрессия, даже несмотря на то, что основной метод — это линейная регрессия. Более того, я уже много лет использую машинное обучение с учителем, когда выполняю регрессионный анализ.

(3) Существенная и запутанная «матрица путаницы». Матрица путаницы отображает правильную и неправильную классификацию модели, отсюда и название «Матрица путаницы». Он дает представление о прогнозах модели машинного обучения.

Наш инструктор сказал, что большинство курсов по науке о данных сосредоточены на обучении различным алгоритмам прогнозирования, но не объясняют, как оценивать классификацию. Поэтому я нашел его объяснение матрицы путаницы полезным.

Если вы прогнозируете, например, наличие болезни, 0 или Нет означает, что у человека нет болезни, а 1 или Да означает, что у человека есть. Более подробное объяснение матрицы путаницы можно найти здесь.

Что меня смущает, так это то, что столбцы «0» и «1» иногда переворачиваются, как объясняют разные источники, такие как Википедия.

Как только мы узнаем вышеуказанные 4 числа, мы можем дополнительно вывести различные показатели производительности, включая точность, прецизионность, чувствительность (отзыв), специфичность, кривую AUC-ROC и т. д., которые далее объясняются здесь. Саранг Наркхеде подробно объяснил кривую AUC-ROC (которая говорит нам, насколько хорошо модель может предсказывать классы 0 и 1) здесь.

Важно понимать различные показатели производительности, потому что не все ошибки одинаковы. Например, если ваша цель состоит в том, чтобы предсказать рак, стоимость отсутствия рака (ложноотрицательные результаты) намного выше, чем стоимость неправильной диагностики рака (которая тоже имеет свои издержки). Однако классифицировать обычное электронное письмо как спам (ложноположительные результаты) более дорогостоящим, поскольку соответствующая информация может быть упущена.

Мысли: хотя я и не специалист по количественной оценке, я могу понять, как управляющий фондом, занимающимся количественными расчетами, может использовать эти показатели эффективности, чтобы определить, какая торговая модель может лучше всего отделить «шумы» от «сигналов». Я могу больше говорить на языке специалиста по данным. Для меня это ключевая причина, по которой бизнес-менеджер должен понимать основную терминологию и метод науки о данных. Они могут лучше понять, как модели данных могут влиять на их бизнес-решения и что определяет правильность решения, а также поделиться своим опытом в предметной области.

(4) Модели машинного обучения и прогнозы фондового рынка. При распространении искусственного интеллекта/машинного обучения и больших данных возникает естественный вопрос: могут ли алгоритмы машинного обучения успешно прогнозировать цены акций?

Поскольку я не научился использовать машинное обучение (ML) для прогнозирования временных рядов, я не могу ответить на этот вопрос. Из того, что сказал инструктор, машинное обучение с учителем отлично подходит для решения таких задач классификации, как прогнозирование мошенничества, но доказательств того, что машинное обучение может успешно прогнозировать доходность акций, недостаточно. ML можно использовать для прогнозирования волатильности (чаще стандартное отклонение доходности является прокси волатильности), но не направления рынка. Его также можно использовать для анализа настроений.

Мысли.Когда цены на акции следуют случайному блужданию и находятся под влиянием множества макроэкономических, политических и отраслевых факторов по всему миру, мне трудно представить модель, обученную на набор данных, который можно использовать для прогнозирования будущего движения цены, используя данные, которые он никогда раньше не видел. Теория эффективного рынка утверждает, что цены на акции отражают всю информацию, поэтому любые обнаруженные паттерны можно легко использовать и сбрасывать со счетов. (Менеджеры по количественному анализу просто не будут делиться тем, как работают их модели!)

Что может иметь смысл, так это то, что машинное обучение (без присмотра) можно использовать для определения аппетита к риску на рынке — жадности, нормальности или страха.

В заключение

Я глубоко признателен за возможность пройти вводный курс по интеллектуальному анализу данных. Это помогает демистифицировать машинное обучение и помогает мне понять, как можно собирать и анализировать большие и/или неструктурированные данные, что приводит к выводам или прогнозам, которые могут (или не могут) улучшить наш процесс.

Кроме того, я узнал, что:

Изучение кода похоже на изучение нового языка. Мы можем учиться, подражая.
Регрессия и классификация являются двумя ключевыми методами прогнозного анализа данных и обучения под наблюдением.
Научиться оценивать производительность алгоритма так же важно, как научиться строить алгоритм.
В целом, машинное обучение имеет огромные отраслевые применения, но его использование для прогнозирования рыночных доходов может быть ложным. Модели должны быть научно оценены для успеха.

Спасибо за чтение. Я приветствую ваши комментарии.

Эпилог.Я начал свою карьеру в области инвестиций на стороне покупателя в середине 1990-х годов в качестве аналитика по операциям с инструментами с фиксированным доходом на развивающихся рынках в международной компании взаимных фондов сразу после окончания программы MBA и получил диплом CFA. С тех пор я внимательно изучаю рынок.

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate

Чему я научился как инвестиционный аналитик после первого курса по науке о данных (на R)

Резюме общих знаний

В заключение

Вопросы по теме