Страхование по своей сути является бизнесом прогнозирования. Страхователи желают (или во многих случаях обязаны) защитить себя от определенных типов рисков, таких как катастрофическая автомобильная авария, ведущая к судебному иску об ответственности со стороны третьей стороны. Страховая компания соглашается взять на себя этот риск в обмен на премию, уплачиваемую клиентом. «Чистая» премия — это сумма, которую страховщик ожидает выплатить в среднем по претензиям, приняв конкретный полис. Таким образом, страховая премия, уплачиваемая клиентом, представляет собой чистую премию плюс расходы и прибыль. Например, если по оценкам страховщика, клиент в среднем понесет убытки на сумму 500 динариев, расходы на сумму 50 динариев и желаемую прибыль (исходя из чистой премии) в 20%, то общая премия, уплаченная клиентом составит 500×1,2+50=650 динариев.

Если страховая компания неправильно определяет профиль риска, клиенты, которым предлагается заниженная (дешевая) страховка, скорее всего, перейдут к страховщику или останутся с ним, тогда как клиенты, которым предлагается завышенная (дорогая) страховка, скорее всего, уйдут в другое место. Если клиенты чувствительны к ценам, страховщики сталкиваются с риском каскадного процесса антиотбора, а это означает, что ошибки количественной оценки риска обязательно съедают прибыль. Следовательно, страховые компании склонны вкладывать значительные средства в свою функцию ценообразования.

Обобщенные линейные и аддитивные модели

Распространенным способом оценки чистой премии по полису является независимая оценка частоты и серьезности будущих страховых претензий на основе исторических данных и соответствующих факторов риска. Обобщенная линейная модель (GLM) под ссылкой на журнал является широко используемым методом для этой цели. Во многом это связано с интуитивной привлекательностью и воспринимаемой прозрачностью модели, которую можно выразить в мультипликативной форме:

π = exp(wx₁ + wx ₂ + … + wₙ xₙ) = exp(wx₁) × exp(wx₂) × … × exp(wₙ xₙ).

Здесь π обозначает прогнозируемую частоту претензий, серьезность претензий или чистую премию, где w обозначает веса, а x обозначающие переменные (например, возраст страхователя, характеристики транспортного средства и т. д.). Полученная модель представляет собой набор факторов, по одному для каждой переменной, которые можно умножить вместе, чтобы получить оценку частоты претензий, серьезности претензий или чистой премии. Практики часто объединяют непрерывные переменные в GLM и эффективно моделируют их как категориальные переменные. Причина этого в том, что GLM изначально предоставляют мало инструментов для гибкого моделирования непрерывных эффектов, а непрерывные переменные, такие как возраст, часто имеют весьма нелинейную связь с риском.

Обобщенные аддитивные модели (GAM) становятся все более популярными в актуарных приложениях и расширяют структуру GLM за счет моделирования непрерывных эффектов за счет использования нелинейных функций.

Моделирование частоты и серьезности претензий

При моделировании частоты претензий (т. е. того, как часто конкретная политика может привести к возникновению претензий) специалисты-практики обычно предполагают распределение Пуассона наблюдаемого количества претензий. В этом случае логарифм базовой частоты претензий моделируется как линейная комбинация признаков. Например, частота претензий 0,4 будет означать, что конкретная политика приведет к тому, что претензии будут предъявляться в среднем один раз в 2,5 года. Однако в большинстве лет количество претензий будет равно нулю, а иногда мы увидим 1, 2 или даже 3 претензии. На следующем графике показано распределение вероятностей таких случаев при уровне претензий 0,4 претензии в год (левый график).

Как только мы узнаем, как часто могут возникать претензии, нам также необходимо знать серьезность претензии, т. е. насколько большими могут быть претензии, когда они действительно возникнут. Опять же, используются GLM под ссылкой на журнал, но обычно предполагается гамма-распределение переменной ответа. На правом графике выше показано гамма-распределение со средней серьезностью претензий 2000 динариев и стандартным отклонением 1414 (форма = 2, масштаб = 0,001).

Хотя гамма-распределение является полезным приближением, стоит отметить, что оно не полностью отражает фактическое распределение серьезности претензий. Точнее, реальные претензии имеют толстый хвост, а это означает, что мы видим гораздо более серьезные потери, чем мы ожидали бы увидеть при гамма-распределении. Для моделирования конечной точки распределения тяжести были разработаны специальные методы (Beirlant & Teugels, 1992).

После того, как мы оценили ожидаемую частоту претензий и ожидаемую серьезность претензий, мы просто говорим, что расчетная чистая премия равна ожидаемой частоте претензий, умноженной на предполагаемую серьезность претензий. В приведенном выше случае при частоте претензий 0,4 и серьезности претензий 2000 динариев чистая премия по этому полису составит 0,4 × 2000 = 800 динариев.

Сила дистрибутива Твиди

Хотя разделение расчета чистой премии на этапы частоты и серьезности является одновременно простым и эффективным, существуют также способы непосредственного моделирования чистой премии. Распределения Твиди представляют собой подсемейство вероятностных распределений, включающее нормальное распределение, распределение Пуассона и гамма-распределение. Важно отметить, что распределения Твиди также включают составные распределения Пуассона-Гамма, где случайная величина представляет собой сумму k значений, выбранных из гамма-распределения. Число выборок k само по себе является переменной с распределением Пуассона с некоторым базовым параметром скорости. Это очень похоже на двухэтапный метод, описанный выше, но моделируя его как составное распределение Пуассона-гаммы, а не как два отдельных процесса, мы можем смоделировать эти распределения вместе одним махом, а не независимо. Формально это достигается установкой параметра степень распределения Твиди (часто обозначаемого p) между 1 и 2, где 1 соответствует чистому распределению Пуассона, а 2 — чистое гамма-распределение. Обычно для параметра мощности Твиди выбирают значения 1,6, 1,67 и 1,7 (Goldburd et al., 2021). Точное значение параметра мощности часто не имеет существенного значения для результата модели. На рисунке ниже показана распределенная переменная Твиди с µ=8000, φ=7, p=1,67. Обратите внимание, что это приводит к неправдоподобно низкой плотности при 0 для страховых приложений (более 75% массы/плотности обычно будет точно равно 0 для большинства страховых полисов), но мы используем эту комбинацию параметров в иллюстративных целях. .

Сложные распределения Пуассона-гамма одновременно проявляют свойства дискретных распределений вероятностей, таких как распределение Пуассона, и свойства непрерывных распределений, таких как гамма. Например, они имеют положительную точечную массу в нуле, но непрерывны во всем остальном. Для приложений страхования это немного странное статистическое свойство очень полезно, поскольку оно означает, что мы можем легко смоделировать тот факт, что большинство держателей полисов не предъявляют претензий в большинстве лет, но когда они это делают, общая сумма претензий будет некоторой непрерывно распределенной переменной.

Регрессия Tweedie поддерживается в R с помощью функции tweedie в библиотеке statmod, а в Python ее можно достичь с помощью scikit-learn (через класс TweedieRegressor) или statsmodels ( через семью Твиди).

За пределами обобщенных линейных и аддитивных моделей: машины повышения градиента

В последние годы машины повышения градиента стали доминирующей силой в широкой литературе по машинному обучению и признаны современным средством построения высокопроизводительных моделей на табличных данных (https://mlcontests.com/state-of -конкурентное-машинное обучение-2022/). GBM работают путем обучения группы слабых учащихся (т. е. моделей с плохой прогностической способностью сами по себе, обычно это деревья решений), где каждый последующий учащийся имеет цель улучшить прогнозы предыдущего ансамбля учащихся. Учитывая их превосходные прогностические способности, неудивительно, что GBM также привлекли внимание в литературе по страхованию: в нескольких недавних статьях показано, что GBM обычно превосходят GLM, GAM и нейронные сети в моделировании частоты претензий, серьезности претензий и чистой премии ( Гельман, 2012; Фаузан и Мерфи, 2018; Чиатто и др., 2022).

GBM — невероятно мощные методы, однако они редко используются для установления фактической чистой премиальной составляющей страховых полисов. В большинстве случаев нормативные требования о том, что чистые премии рассчитываются с использованием GLM или GAM, отсутствуют, поэтому причина, скорее всего, в том, что GBM воспринимаются менее прозрачными, чем GLM и GAM, где чистую премию можно легко выразить в мультипликативная форма (при использовании ссылки на журнал).

Использование GBM с учетом переменной отклика, распределенной по Твиди, может обеспечить очень полезный и гибкий способ построения чисто премиальных моделей. В случае, когда мы предполагаем ссылку на журнал (что, безусловно, является нормой в страховых приложениях), каждое последующее дерево теперь направлено на идентификацию фактора, на который мы хотим умножить предложенную чистую премию предыдущего ансамбля. Другими словами, если первые деревья N-1 создают некоторую расчетную чистую премию, задача N-го дерева состоит в том, чтобы найти коэффициент, который дает лучшую оценку чистой премии при умножении на прогноз предыдущих деревьев N-1. Лучшей оценкой чистой премии в этом контексте будет та, которая минимизирует отклонение Твиди.

GBM чрезвычайно хорошо работают, когда дело доходит до ранжирования рисков, и могут значительно превосходить традиционные актуарные методы. Однако GBM лишены некоторых желательных свойств GLM, а это означает, что их реализация в актуарном контексте не всегда является простой задачей. Например, в то время как GLM будет иметь очень небольшую глобальную предвзятость или вообще отсутствовать (средняя прогнозируемая стоимость претензии будет равна средней наблюдаемой стоимости претензии), GBM часто могут отличаться от глобального среднего значения на несколько процентных пунктов. Это проблема и на местном уровне, а это означает, что ожидаемая стоимость претензии для прогнозируемой чистой премии в 1000 не равна точно 1000 (опять же, она может отличаться на несколько процентных пунктов). Такие модели мы будем называть некалиброванными. График ниже иллюстрирует свойство калибровки, показывая прогнозируемую чистую премию на горизонтальной оси в сравнении с истинной чистой премией на вертикальной оси для некалиброванной (слева) и калиброванной (справа) моделей.

В идеале мы хотим иметь модель, которая одновременно превосходно ранжирует профили политических рисков и одновременно точно оценивает ожидаемую стоимость убытков (чистую премию). Отсутствие внутренней калибровки не является свойством, специфичным для GBM. Действительно, все модели регрессии с высокой дисперсией, вероятно, демонстрируют такое поведение, хотя GBM и нейронные сети — это два класса моделей, которые наиболее изучены в актуарных приложениях. За последние 5 лет было разработано несколько методов калибровки сложных регрессионных моделей для актуарных приложений (Denuit, Charpentier, & Trufin, 2021; Denuit & Trufin, 2021; Denuit & Trufin, 2022; Wuthrich, 2023; Чиатто и др., 2022). В Eika мы используем GBM в ряде приложений и внедрили метод автокалибровки наших GBM посредством локальной полиномиальной регрессии (Denuit & Trufin, 2022; Ciatto et al., 2022). Мы подробно расскажем, как мы это реализовали, во второй части этого поста.