В этой статье мы увидим, почему ML или AI (который сегодня применяется ML) не может достичь совершенства. Это означает, что разработчики решений ИИ и их клиенты должны снизить свои ожидания; Оказывается, наличие «человека в курсе» — это то, как мы можем снизить риски ИИ. Профессор Том Мэлоун из Массачусетского технологического института Слоан исследует в своем курсе «Искусственный интеллект для бизнеса»: «Как люди и компьютеры могут быть связаны так, чтобы — коллективно — они действовали более разумно, чем любой человек, группа или компьютер когда-либо раньше?» — это приводит к тому, что он называет «Больше ИИ». В этой статье мы узнаем, что «Человек + ИИ» — это путь вперед. . .

После вторичного анализа процесса машинного обучения мы обсудим последствия для бизнеса и предложим некоторые практические решения.

Мы действительно не знаем, как работает Обучение…

Обучение является фундаментальным строительным блоком машинного обучения и искусственного интеллекта. Но знаем ли мы, что такое на самом деле обучение, какие бывают его типы и как они взаимосвязаны?

Когда началась нынешняя революция ИИ, «обучающаяся машина» определялась следующим образом: «Компьютерная программа, которая итеративно изменяет свои операции во время выполнения для достижения цели, может считаться обучающейся машиной». Эта «итеративная модификация» иначе известна как обучение. . . пошаговое обучение, а не пошаговые инструкции для непосредственного достижения этой цели.

ИИ взял пример с обучения животных и человека. Классическое и оперантное научение условному рефлексу характерно для животных и людей. ИИ стремится к более высоким формам обучения у людей — «когнитивному» обучению. Это начало проблемы — эту высшую форму человеческого обучения трудно понять; Я утверждаю, что это НЕВОЗМОЖНО!

В первой половине 20-го века нейрофизиологи, такие как Шеррингтон, Лурия и Пенфилд, добились больших успехов в определении областей человеческого мозга, которые соответствуют человеческой деятельности более высокого порядка. Важно отметить, что исследования проводились в экстремальных неестественныхусловиях — на людях с фрагментами мозга, оторванными ветром во время войны, или с тяжелыми мозговыми расстройствами, такими как большие эпилептические припадки. Они демонстрируют далеко не НОРМАЛЬНУЮ мозговую активность человека! Более поздние исследования изображений также являются чем-то вроде отвлекающего маневра, поскольку задачи, которые необходимо повторять в течение многих десятков минут (в то время как обработка человеческого мозга имеет типичные временные константы в десятки миллисекунд), могут вводить в заблуждение из-за «эффекта размытия». и что они отслеживают только определенные молекулы в мозгу.

В совокупности справедливо будет сказать, что мы НИКОГДА не узнаем, как люди учатся, поскольку исследования in vivo на НОРМАЛЬНЫХ людях невозможно провести. Я исключаю возможность чистая интуиция или проницательные догадки ведут нас к призу. . .

Итак, для AI и ML мы должны жить с подходами к обучению, ВДОХНОВЛЕННЫМИ человеческим обучением. Существует три основных типа: (1) обучение без учителя, (2) обучение с учителем и (3) обучение с подкреплением. Я не буду обсуждать Unsupervised ниже, так как это скорее метод извлечения структуры и закономерностей из данных. Два других — это фактическая «пошаговая модификация операций итеративно во время выполнения» — наше определение обучающейся машины.

Все обучение с учителем основано на методах наискорейшего спуска и наименьших квадратов (в основе наискорейшего спуска лежит твердая теория с использованием матриц Якобиана и Гессе энергии ошибки по отношению к весам, но она не согласуется с нашим пошаговым методом).

В «Самом крутом спуске» вы спускаетесь с (ошибочного) холма и можете видеть ТОЛЬКО на один шаг вперед — таков сценарий. Там, где вы стоите, вы «подгоняете касательную», находите величину наклона касательной, делаете шаг в отрицательном (вниз) направлении, пропорциональном величине наклона. В конце концов, вы можете добраться до самого дна — «глобального минимума».

Не используя жаргон обучения с подкреплением (например, «Политика», «Функция ценности» и т. д.), мы можем примерно понять его в рамках одного и того же сценария. Вместо того, чтобы использовать «мигалки» на один шаг вперед, вам разрешено осмотреться, может быть, даже сделать несколько шагов в разных направлениях и посмотреть, не достигнете ли вы за много шагов более низкой точки на холме; вам, возможно, придется подняться на небольшую насыпь, чтобы найти возможную нижнюю точку в вашем местном исследовании; Обучение с подкреплением — это крутейший спуск, но с дополнительными исследованиями. Подход заключается в том, чтобы «найти баланс между исследованием (неизведанной территории) и использованием (текущих знаний)», что является определением обучения с подкреплением в Википедии.

Переключив передачу, давайте подробно рассмотрим, что имелось в виду, когда я сказал в своем недавнем блоге Пособие по трансформации бизнеса с использованием ИИ для руководителей, что каждая обученная модель машинного обучения будет давать несколько разные результаты из-за стохастического характер процедуры обучения. Эта неопределенность может маскировать более глубокую ненадежность.

Нам нужно немного разобраться с крутым спуском и связанной с ним теорией, чтобы понять, почему методы обучения МО могут привести к непредвиденным последствиям. Позвольте мне прояснить, что я НЕ осуждаю текущие методы обучения — я пытаюсь снизить (до более низкой точки) наши невысказанные ожидания в отношении точности и надежности наших решений ИИ и машинного обучения!

Внимательный взгляд на самый крутой спуск:

Целью любого метода обучения является минимизация «энергии ошибки».

Ошибка на любом шаге обучения, 'n' = e[n]

Квадрат ошибки, E[n] = e[n] * e[n].

В стохастической формулировке, где входные данные являются случайными, энергия ошибки = ожидаемое значение [квадрат ошибки]

В заданных данных (детерминированный случай), когда у нас есть набор для обучения,

Сценарий «подножие холма» соответствует достижению минимума Eav на этапе «Обучение».

Используя знакомый метод наискорейшего спуска, сначала мы находим градиент Eav относительно к весам, используя пары ввода-вывода обучающих данных, по одному за раз.

ПРИМЕЧАНИЕ. При так называемом «пакетном» подходе мы можем найти «идеальные» уклоны, если обработаем ВСЕ тренировочные наборы одним махом; но это НЕ пошаговое обучение!

Однако для пошаговых обновлений мы вынуждены использовать мгновеннуюоценку наклона Eav при текущем весе на текущем шаге обучения, который равен E[n], потому что среднее не будет быть доступным до завершения всех этапов обучения! (Несмотря на то, что у нас есть весь тренировочный набор, мы «делаем вид», что у нас нет всех векторов признаков одновременно, а каждый вектор признаков дается нам по одному — такой подход необходим для разработки пошаговая процедура обучения, иначе получится «блочное» решение). Таким образом, мы вынуждены работать с наклоном E[n] ВМЕСТО наклона Eav.

Теперь мы можем приступить к диагностике проблем, вызванных упрощающими предположениями, которые мы сделали на предыдущих шагах.

Мы начали с желания найти минимум среднеквадратичной ошибки, Eav. Но так как мы хотели выполнять минимизацию шаг за шагом, нам пришлось использовать E[n]. Ясно, что они не одинаковы — один СРЕДНИЙ из ВСЕХ остальных; как мы хорошо знаем, среднее значение, равное каждому измерению, крайне маловероятно, за исключением тривиального случая, когда все измерения ОДИНАКОВЫ!

Концептуально это то, что происходит. Eav имеет квадратичную зависимость от весов, w, и, следовательно, изображение зависимости Eav от w будет параболоидом. Если бы было только 2 веса, мы могли бы легко визуализировать форму Eav как «салатницу» относительно. 2 веса, w1 и w2.

Вот хорошая идеализированная картина зависимости Eav от w для случая с двумя весами. Отношения между входом и выходом действительно линейны (и предполагаются как таковые в ЛИНЕЙНОМ методе наименьших квадратов). Даже в этом гладком корпусе «салатницы»

у нас есть проблема из-за того, что мы используем E[n] вместо Eav, которую мы рассмотрим дальше. Но давайте теперь заметим, что если бы соотношение вход-выход было действительно НЕлинейным, салатница была бы выстлана скомканной алюминиевой фольгой, полной острых выпуклостей и кривых впадин! Когда мы применяем теорему обложки (см. стр. 60 Системная аналитика) для случая многомерной ядерной регрессии или глубоких нейронных сетей, алюминиевая фольга становится немного сглаженной, но не такой гладкой, как линейный случай. . .

Последствия использования E[n] вместо Eav:

Графический анализ может выявить проблему наиболее ясно.

Я создал «Обучающий набор», в котором есть набор «векторов признаков», которые ЧИСТО линейно связаны с выходным «классом». Затем, используя метод наискорейшего спуска в последнем разделе с ОДНИМ грузом, давайте визуализируем процесс (для простоты — поверхность энергии ошибки представляет собой параболу, а не «салатницу»).

Для начала вы выбираете случайный вес — КРАСНЫЙ ромб (кажется, что 0,8 или около того по оси x на рисунке). Вы используете ввод и вывод ПЕРВОГО тренировочного набора, чтобы получить E[1], изменяя вес, w, в диапазоне (здесь от -1 до +1) с ТАКОЙ же парой тренировочного набора, чтобы получить E[1] по сравнению с w, т.е. «поверхность энергии ошибки», как показано выше. Сопоставьте касательную, найдите величину ее наклона и сделайте шаг в отрицательном направлении наклона — это показано пунктирным шагом от КРАСНОГО ромба до ЗЕЛЕНОГО круга.

Взяв ВТОРУЮ пару вход-выход из тренировочного набора, вы строите график зависимости E[2] от w. Здесь шаг берется НЕ из случайной точки, а из w[1] (в ЗЕЛЕНОЙ точке), которую мы нашли с предыдущей (первой) парой тренировочного набора на графике E[1]. Начните с этого веса (примерно 0,55 на рисунке), НО теперь на кривой E[2]. Кривые E[1] и E[2] очень разные (слева внизу СИНЯЯ и КРАСНАЯ) — к счастью, точка минимума кажется одной и той же. . . Вы продолжаете повторять эти шаги и достигаете минимальной ошибки.

Однако это вымысел!

Входные и выходные данные в обучающем наборе (и тестовом наборе) будут содержать шум и ошибки измерения. Кроме того, крайне маловероятно, что истинная связь между входом и выходом является СТРОГО линейной. В середине и справа на панели показана поверхность энергии ошибки, соответствующая парам вход-выход, когда имеется небольшое количество (1) шума и (2) нелинейности соответственно. В случае ШУМА трудно определить минимальную точку ошибки (предварительно отмечена КРАСНЫМ «X»), а в нелинейном случае минимум будет «прыгать» для каждого E[n] для всех n=1–N. , размер тренировочного набора! Когда нелинейность высока, форма может быть сильно деформирована с трещинами, выпуклостями и плоскими областями на поверхности ошибки.

Все это известно специалистам по данным; но мы должны усвоить эту реальность и разработать ИИ-решения, учитывающие ее, в отличие от лабораторных экспериментов и PoC, где мы можем заметать это под ковер!

Поскольку мы используем E[n] вместо Eav, поверхность ошибки, по которой мы пытаемся пройти, перемещается на каждом этапе обучения. Существует кустарная промышленность, разрабатывающая лучшие способы уменьшения поверхности ошибок (вот одна ссылка: Введение в оптимизацию в глубоком обучении: Momentum, RMSProp и Adam). Во всех случаях объяснения основаны на Eav (или Etot), но мы НЕ находимся на этой поверхности. Негласное предположение состоит в том, что каким-то образом, когда мы используем много E[n], вещи усредняются! На самом деле, вместо того, чтобы идти по средней поверхности, мы идем по множеству поверхностей, которые прыгают и деформируются от вектора признаков к входному вектору признаков!

В тестовом наборе, когда мы получаем новый «вектор признаков» для классификации, его СОБСТВЕННАЯ поверхность ошибок, E[.], по всей вероятности, отличается от последней поверхности ошибок обучающего набора; что приводит к использованию неоптимальных весов из тренировочного набора во время тестов и производственных циклов!

Но тогда метод наикрутейшего спуска, кажется, работает! Почему это происходит?! Это связано с тем, что мы можем назвать «регулярностью», «однородностью» или «стационарностью» лежащей в основе системы. Если эти допущения выполняются приблизительно, метод не сработает. Явная нелинейность в модели компенсируется использованием моделей НЕлинейной регрессии или преобразованием проблемы в приблизительно линейную (с использованием многомерной проекции) на основе теоремы о покрытии.

Основными проблемами для создания решений ИИ являются следующие:

· Мы используем E[n] вместо Eav; В решении для пошагового обучения у нас нет другого выбора!

· Постоянно присутствующий шум будет препятствовать достижению глобальных оптимальных весов.

· Небольшая степень нелинейности всегда присутствует, что препятствует достижению глобальных оптимальных весов.

Чтобы решить первую проблему, мы можем использовать блочные методы! Все данные тренировочного набора в любом случае доступны вам с самого начала; вы можете использовать их все для минимизации Eav или некоторых более точных оценок ожидаемого значения [Squared Error]. Затем мы можем использовать эти веса для тестирования и производства. Это правда, что блочные методы станут неуправляемыми, когда нужно будет оптимизировать миллионы и миллионы весов. Однако в ML есть много ситуаций, когда количество весов составляет только тысячи или десятки тысяч. Почему бы не использовать блочные методы в таких случаях; компьютерные системы с большим объемом памяти уже не такая уж редкость!

Единственный случай, когда пошаговое обучение становится НЕОБХОДИМЫМ, — это когда данные НЕстационарны — базовая система меняется от образца к образцу! Для этого у нас есть Динамическое ML.

Другим путем может быть разработка метода приближенного максимального правдоподобия, вдохновленного алгоритмом Витерби, для определения следующего состояния (=шага), чтобы перейти к предположению о некоторых скрытых моделях, а также снять шоры и осмотреться, чтобы найти лучшую долгосрочную окупаемость, как в Обучение с подкреплением. Не удивлюсь, если кто-то это уже делал — приветствую ссылку!

Влияние неточностей обучения на бизнес:

В предыдущих двух разделах мы описали следующие пессимистичные истории:

· Никаких прорывов, копирующих человеческое обучение, не предвидится! Мы НИКОГДА не узнаем, как люди учатся, поскольку исследования in vivo на НОРМАЛЬНЫХ людях провести невозможно.

· Текущие пошаговые методы обучения никогда не могут быть точными на 100% из-за –

o Использовать E[n] вместо Eav — слишком большая пошаговая вариативность.

o Постоянно присутствующий шум будет препятствовать достижению глобальной минимальной ошибки.

o Всегда присутствует небольшое количество нелинейности (даже в многомерных проекционных подходах), что препятствует достижению глобальных оптимальных весов.

Но еще не все потеряно! В некоторых случаях использования машинного обучения у нас может быть 80–90% решений. . . В бизнес-приложениях необходимо учитывать это несовершенство, ОДНАКО используя решения 80%. Мы должны четко понимать ограничения, чтобы знать, в какой степени мы можем в полной мере использовать бизнес-ценность машинного обучения и искусственного интеллекта.

Следует отметить, что уровень точности 90 % или выше необходим не во всех бизнес-ситуациях. Подумайте о механизме рекомендаций, который предлагает потребителям рекламу — если я получу несколько нерелевантных объявлений, ничего особенного не будет потеряно; алгоритм машинного обучения не обязательно должен быть сверхточным, чтобы по-прежнему иметь некоторую ценность для бизнеса.

В других случаях использования, когда многие ошибки обрекают службу на гибель, мы должны принять во внимание необходимость «человека в курсе» — это не ошибка; это долгожданная функция! Мы также должны помочь человеку в цикле «курировать» результаты классификации или прогнозирования машинного обучения.

Рекомендации по системным решениям ИИ:

Решение ИИ как «Система» важно для создания ценности для бизнеса; точечные решения останутся в виде крутых демонстраций или PoC и не поднимутся до уровня, когда бизнес будет полагаться на ИИ.

Как подробно описано в моей недавней статье Справочник по трансформации бизнеса с использованием ИИ для руководителей», здесь представлена ​​концептуальная схема решения *System* на основе ИИ с бизнес-целью Делать больше с более высоким качеством. с лучшим UX». То, за что я выступаю, — это человеческий куратор ИИ в части ERP-аналитики, который оценивает предписания ИИ.

Это требует, чтобы каждый вывод ML (принадлежность к классу или прогноз) сопровождался показателем качества. Если это статистическая величина, вместо точечной оценки может быть указан доверительный интервал. Учитывая, что даже профессиональным статистикам иногда трудно интерпретировать доверительные интервалы, лучше придумать показатель качества (FoM), который колеблется от 0 до 1 (как мера вероятности).

FoM › 0.9, проверка перед следующим этапом обработки не требуется.

FoM > 0,7 и ‹ 0,9, выборочные проверки.

FoM ‹ 0,7, проверяйте каждый раз и привлекайте ответственного специалиста по данным для более глубокого погружения.

У FoM должна быть собственная панель «Операции», отдельная от панелей Analytics. FoM и допуски должны определяться на основе варианта использования; например, если прогноз ML — это «время до отказа» детали машины, FoM должен быть основан на распределении вероятностей Вейбулла и т. д.

ОБЗОР

Когда мы внимательно изучаем обучение в контролируемом машинном обучении, мы обнаруживаем, что ошибки всегда будут сохраняться при использовании в производственной среде. Мы также не видим каких-либо радикальных улучшений, которые могли бы произойти от лучшего понимания того, как люди учатся.

· Когда размерность проблемы поддается управлению, не стесняйтесь использовать блочные алгоритмы. Вдохновленный алгоритмом Витерби, в контролируемом машинном обучении могут произойти некоторые улучшения.

· Решайте проблему ошибок, а не осуждайте ОД. Машинное обучение может помочь упростить многие рабочие задачи, что приведет к практической автоматизации.

· Предприятиям нужны решения ИИ, реализованные как общая система. Эта система должна включать «человека-куратора», который будет модерировать неизбежные ошибки, которые ML будет совершать при использовании в производстве.

· Показатели качества должны быть разработаны в соответствии с вариантом использования, чтобы куратор-человек, не являющийся специалистом, мог выполнять основную работу по обнаружению основных «подводных камней».

· Автоматизация на основе ИИ по-прежнему будет нуждаться в людях, чтобы работать на уровне, приемлемом для большинства предприятий — рабочие места людей изменятся, но не исчезнут полностью, и это ХОРОШО!

Работа над демонстрациями и PoC должна продолжаться. Но нам нужна новая группа экспертов по ИИ-решениям, которые усвоили существенную ошибочность машинного обучения и все еще могут создавать системы ИИ с участием людей и развертывать благотворный цикл предоставления услуг, которые могут «делать больше с более высоким качеством с лучшим UX»!

…………………………………………………………………………………………Доктор. Карьера П. Г. Мадхавана в области корпоративных технологий включает в себя разработку нескольких стартапов в области искусственного интеллекта и машинного обучения для NEC X, Inc., дочерней компании NEC, а также руководящую должность в Microsoft, Bell Labs, Rockwell Automation и GE Aviation. PG основал и был генеральным директором в 2 стартапах (и техническим директором в 2 других), руководя всеми аспектами жизни стартапа.

Он руководил разработкой крупномасштабных продуктов машинного обучения в крупных корпорациях (GE Aviation, Rockwell Automation и NEC, а также других программных решений в Microsoft и Lucent) и стартапах (Syzen Analytics, стартапы NEC и Global Logic), используя алгоритмы машинного обучения для облачных вычислений. разработка программного обеспечения для бизнес-операций в производственной, телекоммуникационной, розничной, рекламной, медицинской и полупроводниковой отраслях.

После получения докторской степени. получил степень бакалавра электротехники и вычислительной техники в Университете Макмастера, Канада, и степень магистра биомедицинской инженерии в ИИТ, Мадрас, П.Г. проводил оригинальные исследования в области теории случайных полей и вычислительной нейронауки в качестве преподавателя Мичиганского университета, Анн-Арбор, и Университета Ватерлоо, Канада, среди прочих.

Недавним важным вкладом PG в науку о данных является создание Системная аналитика, сочетание теории систем и машинного обучения (опубликовано в 2016 г.), обеспечивающее способ формального включения динамики в машинное обучение. .

https://www.linkedin.com/in/pgmad