Расследование некоторых основных ограничений, с которыми сталкиваются системы на базе искусственного интеллекта

Вступление

Благодаря недавним достижениям в области искусственного интеллекта (ИИ) мы теперь можем использовать технологии машинного обучения и глубокого обучения как в академических, так и в коммерческих приложениях. Хотя, полагаясь только на корреляции между различными функциями, возможно, можно сделать неправильные выводы, поскольку корреляция не обязательно подразумевает причинно-следственную связь. Двумя основными ограничениями современных моделей машинного обучения и глубокого обучения являются:

  • Надежность: обученные модели могут быть не в состоянии обобщить для новых данных и, следовательно, не смогут обеспечить устойчивую и надежную работу в реальном мире.
  • Объяснимость: сложные модели глубокого обучения сложно анализировать, чтобы наглядно продемонстрировать процесс принятия решений.

Разработка моделей, способных идентифицировать причинно-следственные связи между различными переменными, может в конечном итоге предложить решение для решения обеих этих проблем. Эту идею также поддержали такие исследователи, как Judea Pearl, которые утверждали, что наличие моделей, способных рассуждать в условиях неопределенности, может быть недостаточным для того, чтобы исследователи могли создавать машины, способные действительно выражать разумное поведение [1].

Причинно-следственная связь

Концепции причинности

В настоящее время модели машинного обучения могут учиться на данных, выявляя закономерности в больших наборах данных. Хотя люди могут выполнять ту же задачу, просто изучив несколько примеров. Это возможно благодаря унаследованной от человека способности понимать причинно-следственные связи и использовать индуктивный вывод [2] для усвоения новой информации о мире [3]. Таким образом, создание моделей, способных продемонстрировать причинно-следственные связи, откроет для нас целый новый мир возможностей в исследованиях искусственного интеллекта.

Причинность возникает естественным образом в нашей повседневной жизни каждый раз, когда мы задаем себе какой-либо интервенционный или ретроспективный вопрос (например, что, если я предприму это действие? Что, если бы я действовал иначе?).

Как показано на рисунке 1, причинное рассуждение можно разделить на три различных иерархических уровня (ассоциация, вмешательство, контрфакты). На каждом уровне могут быть даны ответы на различные типы вопросов, и для ответов на вопросы на высших уровнях (например, контрфактические вопросы) необходимы базовые знания с более низких уровней [4]. Фактически, чтобы иметь возможность ответить на ретроспективные вопросы, мы ожидаем, что сначала сможем ответить на вопросы типа вмешательства и ассоциации.

В настоящее время модели машинного обучения могут отвечать только на вопросы вероятностного типа, относящиеся к уровню ассоциации.

Благодаря растущему интересу к этой теме, была построена математическая структура, способная представить причинно-следственные связи (Структурные причинно-следственные модели (SCM) [4]). Используя этот тип структуры, причинные выражения могут быть сформулированы и использованы в сочетании с данными, чтобы делать прогнозы.

Линейная и нелинейная причинность

Причинно-следственную связь можно разделить на два основных типа: линейную и нелинейную (рисунок 2) [5]:

  • В линейной причинности связи между переменными могут быть в одном направлении, и каждый эффект может быть вызван ограниченным числом причин. Причины всегда линейно предшествуют последствиям (приоритет по времени).
  • В нелинейной причинно-следственной связи связи между переменными могут быть двунаправленными, а эффекты могут быть вызваны неограниченным числом причин.

Системы линейной причинности характеризуются пропорциональными отношениями между причинно-следственными переменными (например, детерминированные системы). Вместо этого в нелинейных причинно-следственных системах могут иметь место непропорциональные эффекты (например, недетерминированные системы). Например, небольшие изменения входных условий могут привести к различным последствиям (например, «Эффект бабочки»).

Пример использования: системы рекомендаций

Одним из основных недостатков большинства моделей машинного обучения является предположение, что вводимые данные являются независимыми и одинаково распределенными (IID). Когда это предположение выполняется, достижима сходимость к минимально возможным потерям, но когда это ограничение нарушается, модель может работать плохо даже при попытке выполнения простых задач (например, атак с отравлением) [6].

В качестве примера рассмотрим систему рекомендаций электронной коммерции. В настоящее время системы могут предлагать рекомендации, в основном, на основе продуктов, связанных с теми, которые мы планируем покупать, хотя это не всегда может привести к точным оценкам. Например, мы могли недавно купить новый телефон и теперь ищем чехол для телефона. При поиске чехлов для телефонов наша система рекомендаций может попытаться предложить нам другие предметы, такие как телефоны (просто потому, что они взаимосвязаны), вместо дополнительных элементов, связанных с причинно-следственными связями, таких как защитные пленки.

Методы

Одним из основных методов, используемых для обнаружения причинно-следственных связей, являются графические методы, такие как графы знаний и байесовские сети убеждений. Эти два метода фактически образуют основу уровня ассоциации в иерархии причинно-следственной связи, позволяя нам отвечать на такие вопросы, как: Какие различные свойства составляют сущность и как различные компоненты связаны друг с другом?

В последние несколько лет графические методы сыграли важную роль в применении причинно-следственной связи в машинном обучении. Хотя для перехода от уровня ассоциации к уровню вмешательства в иерархии причинности могут потребоваться альтернативные подходы. Вот некоторые дополнительные методы, которые обычно используются в Объясняемом ИИ и Причинности для ответа на вопросы типа вмешательства (например, что, если?):

  • Методы выбора признаков (например, рекурсивное исключение признаков, значения Шепли).
  • Суррогат глобальной и локальной модели (например, местные интерпретируемые независимые от модели объяснения).
  • Смещение в AI (например, алгоритмы предварительной обработки, внутренней обработки, постобработки).
  • Моделирование скрытых переменных (например, скрытые марковские модели, машина с ограничениями Больцмана).

Наконец, помимо машинного обучения, причинный вывод также может применяться к другим областям искусственного интеллекта, таким как обучение с подкреплением. Фактически, для того, чтобы агенты могли добиться хороших результатов в окружающей среде, они должны уметь думать о том, к каким последствиям приведет их действие [7], что требует причинных способностей, принадлежащих к контрфактуальному иерархическому уровню. Кроме того, причинно-следственная связь может использоваться в этой области также для создания причинно-следственных частичных моделей для прогнозирования будущих наблюдений большой размерности в пространствах меньшей размерности [8].

Сравнение

Со статистической и исследовательской точек зрения, графические методы и методы моделирования для выявления скрытых переменных и предубеждений в настоящее время представляют собой область растущего интереса, поскольку они связаны с областями, которые еще не были изучены в такой степени, как машинное обучение за последнее десятилетие. (хотя все еще возможно интегрировать с этими методами).

С другой стороны, методы выбора характеристик и глобального / локального суррогата модели - это методы, обычно используемые в настоящее время в задачах глубокого обучения, чтобы упростить анализ сложных моделей для понимания процесса принятия решений (например, выяснение того, какие функции имеют больший вес, когда прогнозирование и использование суррогатных моделей для создания линейных моделей в локальном масштабе для нелинейных задач).

Если вам интересно узнать больше о том, как причинно-следственная связь используется в машинном обучении, дополнительную информацию можно найти в моей статье Ответы на причинно-следственные связи в ИИ.

Контакты

Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium и подпишитесь на мой список рассылки. Вот некоторые из моих контактных данных:

Библиография

[1] Создавать действительно интеллектуальные машины, обучать их причинно-следственной связи, журнал Quanta. Доступ по адресу: https://www.quantamagazine.org/to-buildtruly-intelligent-machines-teach-them-cause-and-effect-20180515, март 2020 г.

[2] Индуктивный вывод Ян-Виллем Ромейн, в философии статистики, 2011. ScienceDirect. Доступ по адресу: https://www.sciencedirect.com/topics/mat Mathematics/inductive-inference, март 2020 г.

[3] Изучение концепций на уровне человека посредством индукции вероятностной программы Бренден М. Лейк, Руслан Салахутдинов, Джошуа Б. Тененбаум. Доступ: https://web.mit.edu/cocosci/Papers/Science-2015-Lake-13328.pdf, март 2020 г.

[4] Семь инструментов причинного вывода с размышлениями о машинном обучении ДЖУДЕЯ ПЕРЛ, Департамент компьютерных наук Калифорнийского университета в Лос-Анджелесе, США. Доступ: https://ftp.cs.ucla.edu/pub/statser/r481.pdf, март 2020 г.

[5] Системное мышление. Моделирование систем. Курс понимания систем и создания моделей систем. Лаборатория устойчивого развития. Доступ по адресу: https://systemsinnovation.io/system-dynamics-book/, март 2020 г.

[6] ПРИЧИНА ДЛЯ МАШИННОГО ОБУЧЕНИЯ Бернхард Шёлкопф, Институт интеллектуальных систем им. Макса Планка. Доступ: https://arxiv.org/pdf/1911.10500.pdf, март 2020 г.

[7] Причинные рассуждения на основе обучения с мета-подкреплением Ishita Dasgupta et. al. Глубокий разум. Доступ по ссылке: https://arxiv.org/pdf/1901.08162v1.pdf, март 2020 г.

[8] Причинно-правильные частичные модели для обучения с подкреплением Данило Дж. Резенде, Иво Данихелка и др. al. Доступ: https://arxiv.org/pdf/2002.02836.pdf, март 2020 г.