В этом году впервые в своей истории KDD Cup проводит соревнование Обучение с подкреплением в партнерстве с IBM Africa, Университетом Оксфорда и Hexagon-ML в гуманитарных целях. Для решения этой задачи мы проводим краудсорсинг применения ИИ и обучения с подкреплением для решения сложной проблемы, которая может спасти жизни многих миллионов людей.

Проблема состоит в том, чтобы поддержать усилия по борьбе с малярией - опасным для жизни заболеванием, передаваемым комарами, от которого только в 2017 году погибло 435 тысяч человек во всем мире (1). Фактически, по данным Всемирной организации здравоохранения (ВОЗ), около 3,2 млрд человек, почти половина населения мира, подвержены риску заразиться малярией.

Сегодня большинство случаев малярии приходится на страны Африки к югу от Сахары. В прошлые годы, до широкомасштабных усилий по профилактике малярии, малярия была убийцей номер один среди детей в этом регионе и уносила 1,2 миллиона человек в год, все из-за укусов комара. Сегодня обработанные инсектицидом сетки (ИНС) стали основным методом профилактики малярии, потому что комар anopheles кусается только после девяти часов ночи, когда большинство детей спят. Как только комар попадает в сеть, он умирает из-за инсектицида, который нарушает репродуктивный цикл. Многие страны в регионе Африки к югу от Сахары в значительной степени полагаются на внешнее финансирование борьбы с малярией и ее профилактики. По данным ВОЗ, в 2017 году на борьбу с малярией было выделено 3,1 миллиарда долларов. Однако в последние годы инвестиции в эту область начали стабилизироваться. В то же время, после периода, в течение которого число случаев малярии неуклонно снижалось, в последние годы эта тенденция начала усиливаться с увеличением в 2017 году. По данным ВОЗ, в 2017 году было зарегистрировано 219 миллионов случаев по сравнению с 217 миллионами случаев в США. 2016. Таким образом, эффективное использование ограниченных ресурсов для борьбы с малярией имеет решающее значение.

Помимо ИНН, к другим мерам профилактики малярии относятся: остаточное опрыскивание помещений (IRS), ларвицид переносчиков инфекции в водоемах и вакцинация от малярии. Однако область возможных политик по профилактике малярии пугает и неэффективна для лиц, принимающих решения, без адекватных инструментов поддержки принятия решений. Исследовательская группа IBM в Африке добилась больших успехов в борьбе с малярией, создав среду мирового класса для распространения надкроватных сеток и репеллентов. Их цель - разработать настраиваемый агент, который поможет определить лучшую политику вознаграждения на основе среды моделирования.

Обучение с подкреплением

Обучение с подкреплением - это подраздел машинного обучения, которое позволяет агенту учиться в интерактивной среде методом проб и ошибок, используя обратную связь, основанную на его собственных действиях и опыте.

[Источник: Dr. Госави ] RL обычно формулируется и решается как марковская проблема решения (MDP). MDP состоит из следующих элементов: (1) состояние системы, (2) действия, (3) вероятности перехода, (4) вознаграждения за переход, (5) политика и (6) метрика производительности.

Состояние. «Состояние» системы - это параметр или набор параметров, которые можно использовать для описания системы. Например, географические координаты робота могут использоваться для описания его «состояния». Система, состояние которой изменяется со временем, называется динамической системой. Таким образом, движущийся робот создает динамическую систему.

Другой пример динамической системы - очередь, которая образуется в супермаркете перед прилавком. Представьте, что состояние системы массового обслуживания определяется количеством людей в очереди. Тогда должно быть ясно, что состояние колеблется со временем, и тогда очередь - это динамическая система. Следует понимать, что переход из одного состояния в другое в MDP обычно является случайным делом.

Рассмотрим очередь, в которой есть один сервер и одна очередь ожидания. В этой очереди состояние x, определяемое количеством людей в очереди, переходит в x + 1 с некоторой вероятностью и в x - 1 с оставшейся вероятностью. Первый тип перехода происходит, когда приходит новый клиент, а второй - когда один клиент покидает систему из-за завершения обслуживания.

Действия: теперь, как правило, движением робота можно управлять, и на самом деле мы заинтересованы в том, чтобы управлять им оптимальным образом. Предположим, что робот может двигаться дискретными шагами, и что после каждого шага робот может двигаться на север, на юг, на восток или на запад. Эти четыре варианта называются действиями или элементами управления, разрешенными для робота.

Для системы очередей, описанной выше, действие может быть следующим: когда количество заявок в строке превышает некоторое число с префиксом (скажем, 10), оставшиеся заявки переводятся на новый счетчик, который открывается. Следовательно, два действия для этой системы можно описать как: (1) Открыть новый счетчик (2) Не открывать новый счетчик.

Вероятность перехода: предположим, что действие a выбрано в состоянии i. Пусть следующим состоянием будет j. Пусть p (i, a, j) обозначает вероятность перехода из состояния i в состояние j под влиянием действия a за один шаг. Эта величина также называется вероятностью перехода. Если MDP имеет 3 состояния и 2 действия, существует 9 вероятностей перехода для каждого действия.

Немедленное вознаграждение. Обычно система получает немедленное вознаграждение (которое может быть положительным или отрицательным) при переходе из одного состояния в другое. Это обозначается r (i, a, j).

Политика. Политика определяет действие, которое должно быть выбрано в каждом состоянии, которое посещает система. Обратите внимание, что в некоторых состояниях нельзя выбирать никакие действия. Состояния, в которых должны приниматься решения, т. Е. Должны быть выбраны действия, называются состояниями принятия решений.

Показатель эффективности. Связанный с любой данной политикой, существует так называемая метрика производительности, с помощью которой оценивается эффективность политики. Наша цель - выбрать политику с наилучшей метрикой производительности.

Время перехода: для MDP предполагается, что время перехода равно единице (1), что означает, что оно одинаково для всех переходов. Следовательно, ясно, что 1 здесь не обязательно означает 1 час, минуту или секунду. Это некоторая фиксированная величина, фиксированная аналитиком.

Кроме того, обучение с подкреплением можно использовать для решения следующих типов задач:

Очень хорошее начальное введение в обучение с подкреплением можно найти здесь.

Конкурс KDD Cup 2019

Цель конкурса KDD Cup 2019 - выполнить поиск правил. Таблица лидеров для первого этапа основана на среднем вознаграждении, полученном в соответствии с политикой.

Организаторы конкурса KDD Cup (команда IBM Research & Hexagon-ML) определяют состояние, агента, вознаграждение и политику для среды моделирования малярии следующим образом:

Состояние

Наблюдения за моделями проблем происходят в течение 5 лет, и каждый год этого периода можно рассматривать как состояние системы с возможностью предпринять одно действие для каждого государства. Следует также отметить, что этот временный переход состояния фиксирован и как таковой не зависит от предпринятого действия.

𝑆∈{1,2,3,4,5}

Действие

Рассматривайте Действия как комбинацию только двух возможных вмешательств, т. Е. распыления инсектицидов (IRS) и распределения надкроватных сеток (ITN) на основе описания нашей модели.

𝑎ᴵᵀᴺ∈ [0,1] и 𝑎ᴵᴿˢ∈ [0,1]

Значения действия от 0 до 1 описывают диапазон охвата вмешательства для моделируемой человеческой популяции.

𝐴s=[𝑎ᴵᵀᴺ,𝑎ᴵᴿˢ]

Награда

Функция вознаграждения определяет стохастическое вознаграждение для политики на протяжении всего эпизода, эта функция действует для определения результатов для здоровья на единицу затрат для вмешательств, реализованных в политике. Чтобы иметь представление о добродетели, увеличивающей Награду, мы отрицаем это значение.

𝑅𝜋∈(−∞,∞)

Политика

Следовательно, Политика (π) для этой задачи состоит из временной последовательности действий, как показано на рисунке ниже.

Время перехода

Время перехода для этой проблемы установлено на 1 год, как показано на диаграмме выше.

Поскольку обучение с подкреплением, основанное на соревнованиях по науке о данных, относительно недавно, для конкурса предоставлено несколько очень хороших руководств с кодом, использующим Генетические алгоритмы, Агент градиента ванильной политики и другие.

В заключение хочу сказать, что в этом году на Кубке KDD мы хотим решить сложную задачу поиска оптимальной политики профилактики малярии, применяя методы искусственного интеллекта и машинного обучения. В частности, путем реализации подходов к обучению с подкреплением для моделирования этой проблемы и оптимизации процесса с минимальными затратами и человеческим трудом.

использованная литература

  1. Https://www.kdd.org/kdd2019/kdd-cup
  2. Https://www.who.int/malaria/en/
  3. Https://www.who.int/news-room/detail/19-11-2018-who-and-partners-launch-new-country-led-response-to-put-stalled-malaria-control-efforts -на ходу
  4. Https://www.ibm.com/blogs/think/2018/02/ai-malaria/
  5. Https://arxiv.org/abs/1712.00428
  6. Https://web.mst.edu/~gosavia/tutorial.pdf
  7. Https://compete.hexagon-ml.com/tutorial/
  8. Https://compete.hexagon-ml.com/tutorial/kdd-cuphumanities-track-tutorial-genetic-algorithm/
  9. Https://compete.hexagon-ml.com/tutorial/kdd-cuphumanities-track-tutorial-policy-gradients/

Примечание автора:

Спасибо моим сопредседателям KDD Cup 2019 (Ирине Скрипник, Венцзюнь Чжоу) и Виталию Добану за вклад в этот пост. KDD Cup 2019 состоит из трех отдельных треков: обычного трека, трека auto-ml и трека Humanity RL.

Тапош Датта Рой, возглавляет группу поддержки принятия решений по инновациям в Kaiser Permanente. Это его мысли, основанные на анализе отрасли. Эти мысли и рекомендации не принадлежат Kaiser Permanente, и Kaiser Permanente не несет ответственности за их содержание. Если у вас есть вопросы, с г-ном Датта Роем можно связаться через linkedin.

Вэньцзюнь Чжоу - доцент и научный сотрудник факультета Роя и Одри Фэнчер в Университете Теннесси в Ноксвилле. Ее общие исследовательские интересы - интеллектуальный анализ данных, бизнес-аналитика и статистические вычисления.

Ирина Скрипник руководит проектами по изучению клинических данных при поддержке искусственного интеллекта в различных терапевтических областях, включая онкологию, иммунологию и воспаление, редкие заболевания и вакцины, в тесном сотрудничестве с исследовательскими и бизнес-подразделениями. Она отвечает за внедрение инновационных технологий искусственного интеллекта и совместные научные исследования в IDEA AI Lab, Global Real World Evidence в Pfizer.