Обучение с подкреплением для Covid-19: моделирование и оптимальная политика

В то время как сообщество машинного обучения задается вопросом, как они могут помочь в войне с пандемией COVID-19, я решил использовать обучение с подкреплением, чтобы справиться с этим кризисом. Это исследование дало интересные результаты в поиске набора оптимальных действий по борьбе с распространением вируса.

1. Введение

Представьте, что вы играете в игру по борьбе с пандемией. Ваша цель - контролировать распространение вируса с наименьшими экономическими последствиями. Вы можете выбирать между множеством действий, например ' закрыть все зараженные жилые районы »,« запустить тесты в зараженных районах »,« заблокировать »и т. д.

Но сразу возникает вопрос: как мне количественно оценить экономический кризис? Честно говоря, можно предположить, что чем шире ограничение на передвижение людей, тем хуже экономическое здоровье. Итак, наша цель - контролировать распространение вируса с наименьшими препятствиями для передвижения населения.

Что, если алгоритм дает вам обученного агента, который может действовать от вашего имени для достижения поставленных вами целей? Разве вы не использовали бы такой умный агент, чтобы обуздать распространение вируса? Тема обучения с подкреплением (RL) - это моделирование такого интеллектуального агента.

Самая захватывающая часть этого моделирования заключается в том, что мы можем разработать агент, который сдерживает распространение вируса в долгосрочной перспективе с наименьшими нарушениями экономической деятельности.

2. Обучение с подкреплением

Обучение с подкреплением - это подраздел машинного обучения, которое учит агента выбирать действие из своего пространства действий. Он взаимодействует с окружающей средой, чтобы со временем получить максимальное вознаграждение. Достаточно сложно? Давайте сломаем это определение для лучшего понимания.

Агент: программа, которую вы обучаете с целью выполнения заданной вами работы.
Среда: мир, в котором агент выполняет действия.
Действие: действие агента, которое вызывает изменение в среде.
Награды: оценка действия, что похоже на обратную связь.

В любой задаче моделирования RL обязательно определить эти 4 основных элемента. Прежде чем мы определим эти элементы для нашей проблемы Covid-19, давайте сначала попытаемся понять на примере: как агент узнает действия в среде?

Агент: Программа, контролирующая движение конечностей. Окружающая среда: Реальный мир, моделирующий гравитацию и законы движения
Действие: Переместите конечность L с помощью Θ градусы
Награда: положительное при приближении к месту назначения; отрицательный, когда он падает.

Агенты учатся в интерактивной среде, методом проб и ошибок, используя обратную связь (вознаграждение) на основе собственных действий и опыта. Агент, по сути, пробует различные действия в среде и учится на обратной связи, которую он получает. Цель состоит в том, чтобы найти подходящую политику действий, которая позволила бы максимизировать общее совокупное вознаграждение агента.

3. Проблема контроля пандемии

Теперь давайте определим эти 4 основных элемента для нашей проблемы контроля пандемии:
Агент: программа, контролирующая передвижение граждан с помощью различных действий.
Окружающая среда: Виртуальный город, в котором распространяется вирус. Ограничивая передвижение граждан, можно изменить динамику распространения.
Действие: Контролируйте передвижение граждан.
Награды: свести к минимуму заражение от распространения вируса (контроль пандемии) + свести к минимуму количество людей, помещенных в карантин (наименьшее экономическое нарушение) + свести к минимуму число погибших.

Теперь нам нужно разработать код и обсудить каждый элемент этой задачи оптимального управления. Давайте начнем со среды моделирования пандемии.

4. Среда моделирования пандемии

Смоделируйте всю динамику передачи пандемии как взаимодействие между различными компонентами.

Хотя существует большое количество имитационных моделей пандемии, я решил использовать свою собственную имитационную модель, черпая вдохновение из сетевой модели. Я предпочитаю не использовать стандартную модель по следующим причинам:

В существующих имитационных моделях динамика передачи вируса не реагирует на действия, предпринимаемые лицом, принимающим решения / агентом. (например, как закрытие общественного транспорта повлияет на распространение вируса).
Существующие модели передачи не дают всестороннего наблюдения за состоянием города.

Чтобы подготовить такую среду, которая преодолевает вышеупомянутые недостатки, я решил разбить всю динамику передачи пандемии на взаимодействия между различными компонентами.

Давайте обсудим эти компоненты и соответствующие предположения среды моделирования пандемии. Мы классифицируем эти компоненты на демографические компоненты, динамику передачи и инфекционные компоненты.

Демографические компоненты

Это основные компоненты имитационной модели, на которой построена вся динамика трансмиссии. Мы создадим закрытый город, в котором будем имитировать распространение вируса. В отношении этого города рассматриваются такие предположения, что процесс моделирования требует меньших вычислительных затрат и также приближен к реальности.

Трансмиссия Динамика

Эта динамика передачи определяет степень и интенсивность распространения вируса. Используя эту динамику передачи, мы можем смоделировать любую пандемию.

Как вы можете ясно представить: зараженный гражданин совершает ежедневную поездку и заражает других граждан, которые находились в контакте с ним, с вероятностью передачи в каждой единице.
Нам, по сути, необходимо определить, сколько граждан контактирует с инфицированными и какова вероятность передачи инфекции в каждой единице.

Заражающие компоненты и результаты моделирования

Эти заразные компоненты помогают нам создавать среду. Чтобы лицо, принимающее решение, приняло меры по сдерживанию распространения вируса, он должен понимать состояние зараженного города (например, количество инфицированных граждан, количество зараженных жилых районов, количество граждан, помещенных в карантин и т. Д.).
Эти компоненты упрощают регистрацию информации о зараженных / взаимодействиях в структурированном виде. Мы используем модель отсека для моделирования.
Давайте смоделируем простую модель отделения с бесконечной вместимостью больницы. Мы случайным образом заразим 3 граждан и смоделируем пандемию, следуя указанной выше динамике передачи.

Зараженный отсек: Все активные граждане, которые инфицированы и заразны, включены в этот список
Признанный отсек: Все инфицированные, попавшие в поле зрения правительства.
Госпитальное отделение: Все признанные государством инфицированные граждане будут помещены в больницу. Как только зараженный гражданин войдет в этот список, он будет удален из инфекционного отсека.
Возможности инфраструктуры больницы: вместимость больницы ограничена. Как только вместимость достигнута, новые инфицированные граждане не могут попасть в госпитальное отделение. Это очень важная переменная в нашем моделировании, которую вы увидите на графике 6.
Смерть: зараженный будет мертв по мере прохождения дней с вероятностью, пропорциональной его возрасту.

Давайте посмотрим на результаты моделирования пандемии в городе с населением 1 литр, неограниченной пропускной способностью больничной инфраструктуры и ограниченной (500) вместимостью. Также нам необходимо сравнить это со стандартными эпидемиологическими моделями.

Это простая эпидемиологическая модель. «Заразная линия» в моей имитационной модели (График 6) ближе к «зараженной линии» в модели SIR (График 7). Это явно означает, что моделирование пандемии является точным.

5. Действия

Необходимость создания новой среды для решения проблемы пандемии в основном обусловлена тем, что в идеале мы хотим, чтобы наша среда моделирования пандемии реагировала на действия, предпринимаемые лицом, принимающим решения. Итак, определение пространства действия так же важно, как и определение окружающей среды.
Таким образом, определяя широкое пространство для действий, мы расширяем возможности лиц, принимающих решения, по сдерживанию распространения вируса.

Распространение вируса можно эффективно сдерживать следующими способами:
1. Ограничением передвижения граждан
2. Проведением тестов на вероятных гражданах, чтобы инфицированные граждане обратились к правительству до того, как проявятся симптомы.

Теперь вы ясно понимаете, почему я ввел понятие динамики трансмиссии. Ограничивая передвижение граждан, они больше не подвержены заражению. Это условие можно легко встроить в моделирование, и динамика распространения вируса изменится соответствующим образом.

Это действия, определенные для лица, принимающего решения.
Например, если лицо, принимающее решение, выбирает действие: 8 (изоляция): тогда все жители города не могут двигаться.

Идея определения этого пространства действий заключается в том, что мы хотим найти наиболее оптимальную политику действий по ограничению передвижения граждан. Мы можем разработать больше действий, но пока ограничимся этим пространством действий.

6. Агент и награды

Из 4 основных элементов обучения с подкреплением мы обсудили 1. Окружающая среда 2. Действия по нашей проблеме контроля пандемии. Давайте обсудим агент и награду в этом разделе.

Агент - это, по сути, программа, которую вы обучаете с целью выполнения указанной вами работы. Но как указать задание? Как агент может понять ваши (принимающие решения) цели? Ответ - через вознаграждение. Агент всегда пытается выяснить политику действий, которая максимизирует совокупную сумму вознаграждений. Итак, если мы сможем связать цели проблемы контроля пандемии с функцией вознаграждения, мы сможем обучить агента, который достигнет целей за нас.

Давайте повторим нашу цель: контролировать распространение вируса с наименьшими препятствиями для передвижения населения (наименьшие экономические потрясения).
Таким образом, нам нужно минимизировать:
1. Количество зараженных (𝜨𝒊)
2. Количество людей, помещенных в карантин (𝜨𝒒)
3. Количество людей, умерших из-за инфекции ( 𝜨𝒅)
По сути, мы не даем равные веса каждому числу. Например, правительства не позволяют экономике оставаться здоровой за счет граждан.

При выборе 𝑤𝒊, 𝑤𝒒, 𝑤𝒅 необходимо иметь в виду одну вещь. Помимо своей этической важности, эти веса - просто числа. Нам нужно выбрать их в судебном порядке, чтобы агент действительно научился достигать поставленных нами целей.

В разделе 2 (RL) мы узнали, как обучается агент. Попробуем разобраться в тренировочном процессе в задаче борьбы с пандемией. Я использовал модель DQN для обучения агента. В этой модели DQN агент пробует случайные действия вначале (исследовательский), чтобы изучить оптимальную политику действий. Интересной концепцией в этой модели является дисконтированная сумма вознаграждения: агент придает меньшее значение немедленным вознаграждениям и стремится достичь долгосрочных целей.

Я кратко объясню эту модель RL: Q-Learning изучает функцию ценности действия Q (s, a): , насколько хорошо предпринимать действия в конкретном наблюдении .
Давайте попробуем понять значение Q: рассмотрим среду моделирования пандемии для данного наблюдения:
{инфицированные, госпитализированные, мертвые, подвергшиеся воздействию, зараженные дома, средний возраст инфицированных}
Агент узнает значение Q (ожидаемое вознаграждение) для каждого действия (всего 16 действий). Агент выбирает действие с наибольшим значением Q. Мы ограничимся обсуждением методов моделирования RL и перейдем к результатам и интерпретации.

7. Результаты и интерпретация

Теперь мы подошли к концу и самой интересной части этого блога.

Итак, давайте создадим симулятор пандемии в городе размером 1 лакх. Мы позволим агенту DQN выполнять действия из своего пространства действий A (график 8), чтобы максимизировать вознаграждение R (уравнение 1).

8. Резюме

Это моделирование и моделирование можно распространить на города разных размеров. Действия, предпринимаемые агентом, более интуитивно понятны, поскольку агент лучше понимает / изучает среду моделирования пандемии. Например, агенты предпочитают проводить множество тестов в зараженных областях в начале распространения. Больше пространств для действий и улучшенная функция вознаграждения делают все это моделирование RL еще ближе к реальности.

Как я упоминал в начале, цель написания этого блога - изучить возможность сотрудничества и помочь войне с распространением вируса короны. Если кто-то считает, что он может внести свой вклад в этот проект RL, пожалуйста, напишите мне на [email protected]. Кроме того, я хотел бы получить от вас предложения по лучшему моделированию и моделированию RL.

ссылки:
1. https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology#The_SIR_model
2. https://blogs.mathworks.com/headlines / 2019/05/16 / робот-быстро-учит-сам-ходить-с-обучением-подкреплением /
3. Х.С. Родригес, МТТ Монтейро и Д.Ф.М. Торрес, Динамика эпидемий денге при оптимальном использовании контроль , Математическое и компьютерное моделирование, т. 52, нет. 2010. 9–10. С. 1667–1673.

Обучение с подкреплением для Covid-19: моделирование и оптимальная политика

1. Введение

2. Обучение с подкреплением

3. Проблема контроля пандемии

4. Среда моделирования пандемии

Демографические компоненты

Трансмиссия Динамика

Заражающие компоненты и результаты моделирования

5. Действия

6. Агент и награды

7. Результаты и интерпретация

8. Резюме

Вопросы по теме