Прогноз занятости в несельскохозяйственном секторе США с использованием альтернативных данных RIWI Corp.

Эрнест Чан

Введение

Ежемесячный отчет о занятости в несельскохозяйственном секторе США (NFP), публикуемый Бюро статистики труда США (BLS), является одним из наиболее пристально отслеживаемых экономических показателей как для экономистов, так и для инвесторов. (Когда я вел занятия в известной частной торговой фирме, в пятницу утром, незадолго до 8:30 утра по восточному поясному времени, трейдеры внезапно выбежали из класса к своим столам.) Естественно, в прошлом было предпринято много попыток предсказать это число, начиная от использования других макроэкономических показателей, таких как кредитные спреды, и заканчивая использованием настроений в Твиттере в качестве прогностических признаков. В этой статье я расскажу об исследовании, проведенном Раду Чобану и мной с использованием уникальных и собственных данных непрерывного опроса, предоставленных RIWI Corp., для прогнозирования этого важного числа.

RIWI — альтернативный поставщик данных, который проводит онлайн-опросы и мониторинг измерения рисков во всех странах мира анонимно, без сбора какой-либо информации, позволяющей установить личность, и без поощрения респондентов. Технология RIWI собрала и проанализировала более 1,5 миллиарда ответов по всему миру. Важно отметить, что в своих опросах они могут охватить сегмент населения, который обычно остается скрытым: три четверти их респондентов по всему миру не ответили ни на один опрос в предыдущем месяце. Их опросы стремятся быть как можно более репрезентативными для всего онлайн-населения, без обычного уклона в сторону громких голосов в социальных сетях. Это важно в прогностических данных для финансовых рынков, где жизненно важно отделить шум от сигнала.

Финансовый рынок в основном реагирует на неожиданность, то есть на разницу между фактически объявленным числом NFP и консенсусом Уолл-Стрит. Этот сюрприз может тронуть не только финансовые рынки США, но и международные рынки. Показательный пример: я наблюдал, как немецкий индекс DAX резко вырос на прошлой неделе (6 декабря 2019 г.) из-за огромного положительного сюрприза (добавление 266 тыс. рабочих мест вместо консенсуса Уолл-стрит в 183 тыс.). Следовательно, сюрприз — это то, что мы хотим предсказать. Мы сравнили предсказание признака этого сюрприза с помощью машинного обучения с оценкой RIWI в качестве единственной функции с рядом других тестов, которые не включают оценку RIWI, и обнаружили, что оценка RIWI обеспечивает более высокую точность прогнозирования, чем все другие тесты во время перекрестного анализа. проверочный тест. Мы также предсказали как величину, так и знак неожиданности NFP. Включение оценки RIWI в качестве одной из характеристик позволило достичь наименьшей усредненной перекрестной проверки среднеквадратичной ошибки (MSE), чем в противном случае. Ограниченные результаты вне выборки указывают на то, что оценка RIWI по-прежнему имеет значительную силу для предсказания как знака, так и величины.

Данные

Исторические месячные числа NFP были скорректированы BLS с учетом сезонных колебаний. Эти цифры публиковались в первую пятницу каждого месяца в 8:30 утра по восточному времени (за исключением некоторых национальных праздников, когда они публикуются за день до этого или задерживаются на одну неделю). Чтобы вычислить неожиданность, мы вычитаем консенсус Уолл-стрит по за день до объявления с фактического номера NFP.

Данные RIWI были основаны на их онлайн-опросах потребителей в США и состоят из двух наборов данных. Первый из них датирован декабрем 2013 г. — октябрем 2017 г., а второй — с сентября 2018 г. по сентябрь 2019 г. Первый набор данных основан на ответе «да/нет» на следующий вопрос опроса: «Вы работаете более 35 лет? часов в неделю?». Последний набор данных основан на нескольких вопросах опроса, связанных с мнениями об американских компаниях или продуктах, а также на личных данных респондентов, таких как их статус занятости (полный рабочий день/неполный рабочий день/студент/пенсионер), семейное положение и т. д. Чтобы объединить два набора данных, мы считаем респондентов, которые сказали, что они работали «полный рабочий день» или «неполный рабочий день», эквивалентными «работе более 35 часов в неделю». Если бы мы учитывали только респондентов, работающих полный рабочий день, между двумя временными периодами наблюдался бы значительный структурный разрыв во временном ряду, как показано на Рисунке 1 ниже.

Если мы включим респондентов как «полный рабочий день», так и «неполный рабочий день», мы получим рисунок 2 ниже, который явно не имеет этого структурного разрыва.

RIWI присваивает вес каждому респонденту, чтобы преобразовать данные, чтобы они могли отражать демографию населения США в целом, отсюда и прилагательное взвешенный в подписях к рисункам. Обратите внимание, что опрос проводится таким образом, что каждый респондент может вернуться и изменить свои ответы, но они не будут отображаться как более чем одна выборка в наборе данных. Чтобы получить итоговую оценку перед объявлением NFP каждого месяца, мы вычисляем среднемесячное значение произведения весов респондентов и индикатора (0 или 1) того, работает ли отдельный респондент полный или неполный рабочий день. Среднемесячное значение рассчитывается за тот же месяц, в котором измеряется число NFP. Мы называем это оценкой RIWI. Поскольку данные NFP были скорректированы с учетом сезонных колебаний, нам нужно сделать то же самое с ежемесячными различиями в баллах RIWI. Мы используем ту же настройку, что и BLS: X12-ARIMA. Но в целях сравнения мы не применяли сезонную корректировку к рисункам 1 и 2.

Модели классификации

Наши классификационные модели использовались для прогнозирования того, был ли знак неожиданности NFP положительным или отрицательным (в данных не было нулевых неожиданностей). Модели обучались на данных за декабрь 2013 г. — октябрь 2017 г. также были проведены контрольные испытания. Вневыборочное тестирование было проведено на данных с сентября 2018 г. по октябрь 2019 г. («тестовый набор»). Как упоминалось выше, вопросы опроса RIWI тестового набора несколько отличались от вопросов набора поездов. Таким образом, результат набора тестов является совместной проверкой того, работает ли модель классификации за пределами выборки и значительно ли ухудшает точность прогнозирования небольшая разница в данных RIWI.

Чтобы обеспечить сравнительное сравнение с оценкой RIWI, мы также изучили несколько других стандартных функций, некоторые из которых оказались полезными для прогнозов NFP:

Предыдущий 1-месячный сюрприз NFP
Предыдущий 12-месячный сюрприз NFP
Bloomberg Barclays US Corporate High Yield Medium Option Индекс скорректированного спреда (также известный как кредитные спреды)
Индекс потребительских настроений (Мичиганский университет)

Индекс скорректированного спреда корпоративных опционов с высокой доходностью в США, составленный Bloomberg Barclays, обозначает разницу (спред) между рассчитанным индексом скорректированного спреда опционов для всех высокодоходных корпоративных облигаций и спотовой кривой Казначейства США. Индекс скорректированного спреда по опционам рассчитывается с использованием спредов с поправкой на опционы составляющих облигаций, взвешенных по рыночной капитализации. В дальнейшем мы будем называть скорректированный индекс спреда корпоративного высокодоходного среднего опциона Bloomberg Barclays US как функцию «кредитных спредов».

Поскольку машинное обучение может выполняться только на стационарных функциях, мы будем использовать ежемесячные различия в оценке RIWI и других функциях.

Тестовые модели, которые мы тестировали:

Логистическая регрессия* на предыдущий сюрприз.
Модель следования за трендом предсказывает следующий знак (сюрприз) = знак (предыдущий сюрприз).
Противоположная модель предсказывает следующий знак (сюрприз) = -знак (предыдущий сюрприз).
Логистическая регрессия кредитных спредов.
Логистическая регрессия по индексу потребительских настроений.

*Все логистические регрессии были L2-регуляризованы.

Вот результаты по сравнению с применением Random Forest только к оценке RIWI:

Основываясь на точности прогнозирования данных перекрестной проверки, лучшей моделью машинного обучения является та, которая использует оценку RIWI в качестве единственной функции. Эта модель применила классификатор случайного леса к оценке RIWI, чтобы предсказать знак (сюрприз NFP). Он получил среднюю точность перекрестной проверки (CV) 63% +/- 0,03 (с использованием 10-кратной перекрестной проверки данных за декабрь 2013 г. — октябрь 2017 г.) и точность вне выборки 58,3% +/- 0,04. Поскольку вневыборочные данные состоят только из 12 точек данных, мы рассматриваем это как проверку того, переоснащает ли классификатор случайного леса обучающие данные и повлияли ли слегка отличающиеся данные RIWI на прогнозы, но не как честное сравнение различные модели. Поскольку прогностическая точность на данных вне выборки существенно не ухудшилась, мы пришли к выводу, что переоснащение маловероятно, а новые данные RIWI существенно не отличались от тех, на которых мы обучались. Мы также применили случайный лес ко всем функциям, включая оценку RIWI, и обнаружили более низкую точность CV (53%) и вне выборки (58%), чем при использовании только оценки RIWI.

Регрессионные модели

Наши регрессионные модели использовались для прогнозирования фактического неожиданного NFP (знак + величина). Данные обучения и испытаний были такими же, как и для моделей классификации, и набор функций также был таким же.

Чтобы обеспечить сравнительное сравнение с оценкой RIWI, мы изучили следующие модели:

Модель ARMA (2,1)*, в которой используются прошлые сюрпризы NFP.
Модель следования за трендом предсказывает следующий сюрприз = (предыдущий сюрприз).
Противоположная модель предсказывает следующий сюрприз = - (предыдущий сюрприз).

* Задержки и коэффициенты были оптимизированы на основе минимизации AIC в наборе поездов.

Вот результаты по сравнению с применением Random Forest только к оценке RIWI:

Основываясь на среднеквадратичной ошибке (MSE) предсказанных неожиданностей данных перекрестной проверки, лучшая модель машинного обучения — это та, которая включает оценку RIWI в качестве функции. Он применил классификатор случайного леса к оценке RIWI, сюрпризам за предыдущий 1 и 12 месяцев, чтобы предсказать фактическую неожиданность NFP. Он получил среднюю перекрестную проверку MSE 3249,35 +/- 70 и точность вне выборки 7269,2 +/- 134. Он незначительно превзошел все тесты в перекрестной проверке. Как и во всех других тестах, включая модель Contrarian, которая не требует обучения, MSE вне выборки значительно увеличилась по сравнению со MSE CV. Но опять же, поскольку данные вне выборки состоят только из 12 точек данных, мы не рассматриваем это как справедливое сравнение различных моделей. Мы также применили случайный лес ко всем функциям, включая оценку RIWI, и обнаружили несколько более высокую CV MSE (и, следовательно, худшую модель), чем при использовании одной оценки RIWI, но разница находится в пределах погрешности.

Заключение и будущая работа

Используя метод перекрестной проверки данных RIWI за период с декабря 2013 г. по октябрь 2017 г., мы обнаружили, что оценка RIWI (после взвешивания, сезонной корректировки и дифференциации) превзошла все другие эталоны по точности прогнозирования знака сюрпризов NFP. Мы также обнаружили, что аналогичный преобразованный показатель RIWI, если его дополнить другими индикаторами, работает так же или даже лучше, чем все другие тесты. Хотя такое абсолютное превосходство необходимо подтвердить в расширенном тесте вне выборки, мы считаем, что существует большой потенциал для использования оценки RIWI для прогнозирования важнейшего показателя Nonfarm Payroll.

Но помимо предсказания неожиданностей NFP, данные RIWI могут быть более точным показателем фактической ситуации с занятостью в США и, следовательно, экономического роста, чем число NFP. В гигантской экономике занято больше работников, чьи данные нелегко найти в официальном подсчете BLS. (Вот статья о том, почему усилия BLS по подсчету этих работников потерпели неудачу. В этом отчете Банка Канады также сделан вывод о том, что официальные данные занижают число рабочих, работающих по найму.) Незарегистрированные работники не учитываются в NFP, но они учитываются. внести свой вклад в экономику. Согласно этому отчету Wall Street Journal, даже незаконная деятельность могла внести более 1% в ВВП США. Напротив, методология опроса RIWI упоминалась в этой статье исследователями из Гарварда среди прочих как предпочтительный метод сбора данных о труднодоступных группах населения. Можно представить амбициозного исследователя, использующего данные RIWI для прямого прогнозирования роста ВВП и достижения лучших результатов, чем при использовании традиционных экономических показателей, таких как NFP.

Для получения дополнительной информации о нашей работе посетите www.predictnow.ai

Благодарность. Мы благодарим Джейсона Чо, руководителя отдела обработки данных в RIWI, за предоставление нам собственных данных Компании для наших целей оценки.

Об авторе: Эрни — известный управляющий хедж-фондом и автор статей по количественному финансированию. Ранее он применял свой опыт в области машинного обучения IBM T.J. Группа технологий человеческого языка исследовательского центра Watson, группа интеллектуального анализа данных и искусственного интеллекта Morgan Stanley, а также Horizon Trading Group Credit Suisse. Его статьи и доклады можно найти по адресу

Прогноз занятости в несельскохозяйственном секторе США с использованием альтернативных данных RIWI Corp.

Прогноз занятости в несельскохозяйственном секторе США с использованием альтернативных данных RIWI Corp.

Вопросы по теме