Ажиотаж искусственного интеллекта: что означает "бомба" недостаточной спецификации Google для повышения надежности машинного обучения?

Практическая точка зрения ИИ на реализацию модели реального мира.

На прошлой неделе Google выпустил документ Недостаточная спецификация представляет собой вызов надежности современного машинного обучения, который вызвал шок в сообществе специалистов по машинному обучению.

В документе освещается особенно острая проблема: даже если модели машинного обучения одинаково хорошо проходят тесты, они не работают одинаково хорошо в реальном мире. О проблемах моделей, не отвечающих требованиям тестирования в реальном мире, известно давно, но эта работа является первой публично доказанной и названной причиной недостаточной спецификации.

Мы в Foundry.ai строим бизнесы в области искусственного интеллекта на основе наших моделей машинного обучения и постоянно внедряем идеи в реальный мир, и хотели подчеркнуть, как мы решаем (недавно названную) проблему недостаточной спецификации в течение последних нескольких лет.

Однако, прежде чем говорить об обработке неполной спецификации, нам нужно описать, как модели машинного обучения собираются вместе и в чем заключается проблема.

Проблема недостаточной спецификации в машинном обучении

Примерно говоря, продукт машинного обучения проходит три стадии от идеи до рынка:

Обучение на примере данных для построения модели;
Тестирование этой модели на данных, которые он никогда раньше не видел, чтобы подтвердить, что модель в целом применима, а не как специфическое соответствие обучающей информации; и наконец
Практическое использование новых данных.

В основе этого процесса лежит принцип, согласно которому хорошая производительность на тестовой выборке означает хорошую производительность на реальных данных, исключая систематические изменения между тестированием и реальным миром (так называемый сдвиг данных или смещение); например, модель, прогнозирующая продажи одежды после трех месяцев зимнего обучения, вероятно, столкнется с трудностями в летнее время, поскольку многое узнала о пальто и очень мало о шортах. Когда нет предвзятости, принцип хорошего тестирования = хорошая реальная производительность становится центральным в разработке машинного обучения.

Исследователи Google взяли на вооружение этот принцип, доказав, что лучшие в своем классе методологии тестирования не являются достаточными предикторами реальной производительности. После тестирования некоторые модели продолжат показывать отличные результаты в реальном мире, но некоторые разочаруют, и они не могут отличить это заранее. Например, модели, которые годами тренировались в продажах одежды, впоследствии демонстрируют неустойчивые результаты в реальном мире.

Наблюдаемое поведение имеет простую причину: повторение процесса обучения может генерировать множество различных моделей идентичного выполнения тестов. Каждая модель отличается только небольшими, произвольными обучающими решениями, вызванными, скажем, случайно установленными начальными значениями или порядком ввода обучающих данных. Эти различия обычно считаются несущественными, но оказывается, что даже после заправки иглы эквивалентной производительности тестирования эти, казалось бы, случайные изменения могут вызвать значительные, непредсказуемые изменения в реальном мире.

Причина этой непредсказуемости - «недостаточная спецификация», и это общая сложность для массивных архитектур моделей, которые в настоящее время модны в технологических компаниях (например, нейронные сети для распознавания изображений, системы рекомендаций и глубокое обучение НЛП). Недостаточная спецификация возникает, когда доступные данные тестирования могут быть одинаково хорошо согласованы с множеством различных конфигураций внутренней вычислительной схемы модели. Когда у моделей есть много разных способов получить один и тот же результат, мы не можем знать, в каком подходе есть навыки, а какой подход оказался удачным. Чем больше удача в прогнозировании тестовых данных, тем больше диапазон вариаций при последующем использовании в реальном мире.

Недостаточная спецификация обеспокоила сообщество машинного обучения, поскольку демонстрирует, что текущие методы тестирования (для крупномасштабных моделей) не гарантируют предсказуемой, эквивалентной реальной производительности.

Чтобы было ясно, наблюдаемая непредсказуемость неприятна, но редко наносит вред; цикла обучения и тестирования было достаточно, чтобы исключить чисто удачные модели, просто некоторым моделям, успешно прошедшим тестирование, повезло больше, чем ожидалось. Бизнесу и сообществу ИИ следует рассматривать это как предупреждение против шумихи, но не как опровержение крупномасштабных моделей.

The Foundry Solution

«С четырьмя параметрами я могу уместить слона, а с пятью я могу заставить его покачивать хоботом» - фон Нейман, предостерегая от свободных параметров

Основная философия Foundry в отношении практического ИИ уже много лет обходится без недооценки. Мы верим в инженерную пословицу «Сохраняйте простоту» и намеренно ограничиваем бесплатные параметры и поведение, доступные для наших моделей. Вышеупомянутая цитата фон Неймана является своего рода термином искусства для разработчиков моделей и специалистов по обработке данных, но она сводится к тому, что «если у вас есть достаточно длинные математические уравнения с достаточным количеством свободных параметров для настройки, вы подберете что угодно», что, конечно же, является всем проблема недостаточной спецификации - слишком много неявных свободных параметров позволяют моделям сочетать подлинные умелые индуктивные выводы с удачей.

Там, где входные данные нашей модели (и внутренние схемы для выполнения математических расчетов на этих входах) требуют более высокой сложности со многими свободными параметрами, мы очень сильно опираемся на причинный вывод, чтобы ограничить поведение моделей разумным, и стремимся уменьшить размерность в входы.

Ограничение сложности модели и поведения требует дополнительной работы, которая не всегда рассматривается как основа инструментария для науки о данных: понимание реального процесса, в который будет встроена ваша модель, общение с экспертами в предметной области и непосредственными пользователями, а затем перевод их идей в код. Иногда бывает трудно определить, как такая работа помогает циклу тест-тренинг, но редко бывает трудно определить, как она помогает конечному продукту.

Короче говоря, каждый этап нашего процесса искусственного интеллекта ориентирован на реальную производительность, а не на производительность тестирования. Настаивать на том, чтобы ваши команды были лучшими из возможных исполнителей в реальном мире, а не лучшими из возможных исполнителей тестов, - это существенное изменение мышления, но оно окупается.

Ни для кого не секрет, что, когда искусственный интеллект не работает в реальном мире, люди теряют к нему доверие, и это доверие трудно восстановить. Команды руководителей, которые потратили большие объемы человеческого и финансового капитала на ИИ, претендовавшие на все признаки успеха, пока не достигли реального мира, не хотят повторять ту же ошибку снова. Вот почему пилотные проекты должны быть небольшими, четко определенными и ориентированными на получение рентабельности инвестиций в короткие сроки [1].

Тем, кто беседует с аналитиками данных, мы советуем задать следующие вопросы:

Почему мы используем эту модельную архитектуру?
Есть ли более простая архитектура, которая должна дать такой же результат?
Можно ли сокращать или комбинировать переменные?
Можем ли мы доказать, что применяемая обработка данных требует навыков?
Может ли группа специалистов по анализу данных кратко объяснить реальный процесс, к которому применяется модель?
Получают ли специалисты по обработке данных, пишущие модель, прямые и частые отзывы от специалиста по предметной области?

В целом, этот новый документ является частью обычной работы в передовой области: восхищение новыми технологиями, бурный рост вариантов использования и результатов за несколько лет, а затем умеренное волнение из-за практических предостережений и предупреждений. обнаруженный. Исследовательские лаборатории идут впереди всех в изучении методов, а предпринимательские фирмы - впереди всех по скептицизму и практическим предостережениям. Как предпринимательская компания, занимающаяся ИИ, мы хотели опубликовать это сообщение в блоге, в котором рассказывалось бы о том, как наш скептицизм и практичность за последние несколько лет ** соотносятся с последними опубликованными результатами.

Конечно, поддержание строго необходимой сложности моделей машинного обучения - это только одна часть того, как заставить ИИ работать в реальном мире. Системы искусственного интеллекта должны иметь поддержку конечных пользователей, процессы приема данных, устойчивые к будущим изменениям, и автоматическую оценку, обеспечивающую постоянный положительный прогресс. Следите за обновлениями или просмотрите некоторые из существующих официальных документов моих коллег, чтобы узнать об упаковке алгоритмов.

Если у вас есть какие-либо вопросы о практическом искусственном интеллекте, обращайтесь к команде Foundry.

** Три основных предложения документа по «тщательному тестированию моделей на конкретных задачах приложения», «обучающих моделях с достоверными индуктивными предубеждениями» и «объединению экспертных знаний в предметной области […] с регуляризацией для конкретных приложений […], которая приблизительно соблюдать причинно-следственную структуру »- это академический перевод классической презентации практического ИИ Foundry.ai для Global 2000.

Ажиотаж искусственного интеллекта: что означает "бомба" недостаточной спецификации Google для повышения надежности машинного обучения?

Практическая точка зрения ИИ на реализацию модели реального мира.

Проблема недостаточной спецификации в машинном обучении

The Foundry Solution

"УЧИТЬ БОЛЬШЕ"

Вопросы по теме