Эта статья изначально была опубликована в блоге Encord, который вы можете прочитать здесь.

Ульрик Стиг Хансен

Нет ничего хуже, чем потратить время, усилия и ресурсы на создание чего-то только для того, чтобы обнаружить, что вы не можете это использовать. Еще хуже, если вы понимаете, что не можете его использовать, потому что упустили важный шаг, который должен был быть запечен с самого начала.

Когда дело доходит до создания систем ИИ, вы должны с первого дня учитывать соображения соответствия данных; в противном случае ваш проект будет завершен, даже не начавшись.

Правила соответствия существуют по уважительной причине. Они гарантируют, что компании, правительства и исследователи ответственно и этично обращаются с данными. Однако разработка моделей машинного обучения, которые извлекают значимую информацию из изображений, сама по себе является сложной задачей, и при разработке этих систем для производственного ИИ соблюдение правил может создать дополнительные проблемы.

Производственные модели работают в реальном мире на данных вне выборки. Они оценивают невиданные ранее данные, чтобы делать прогнозы и генерировать результаты, и они могут делать прогнозы только на основе своего предыдущего обучения. Они не могут рассуждать, когда сталкиваются с новой информацией, для которой у них нет системы отсчета.

Для наилучшей производительности эти модели должны обучаться на огромном количестве и разнообразии данных. Однако разные нормативно-правовые базы регулируют данные по-разному. При построении и обучении модели используемые данные должны соответствовать нормативно-правовой базе, в которой они были получены, даже если модель создается или развертывается в другом месте. Например, в некоторых юрисдикциях действуют более строгие законы о защите информации, позволяющей установить личность граждан, чем в других. Модели, обученные на данных, собранных в этих юрисдикциях, могут быть недоступны для отправки в другие страны. Точно так же системы искусственного интеллекта здравоохранения, обученные на данных США, часто должны соответствовать требованиям HIPAA, которые имеют уникальные критерии для медицинских данных пациентов и, следовательно, создают ограничения в отношении того, где может быть развернута модель.

Инженеры по машинному обучению должны успешно справиться с неотъемлемым противоречием между получением как можно большего количества данных и соблюдением нормативных требований. Имея это в виду, вот три соображения соответствия, которые следует учитывать при создании производственного ИИ.

Разделение обучающих данных

Чтобы следовать передовым методам работы с ИИ, ориентированным на данные, вы должны обучать модель на большом количестве разнообразных и высококачественных данных; однако вы не можете просто смешивать и сопоставлять данные по мере необходимости, чтобы заполнить свой набор данных для обучения. Вы должны быть уверены, что данные, которые вы используете, соответствуют нормативным требованиям их происхождения. В каждой стране происхождения различные учреждения и руководящие органы также могут предъявлять различные требования к обработке данных.

Например, допустим, вы создаете модель компьютерного зрения для медицинской визуализации. Вы получили миллион изображений из данных пациентов для обучения модели. Однако одна треть изображений была создана в США, поэтому данные подпадают под действие правил HIPAA, а еще одна треть — из ЕС, поэтому они подпадают под действие правил GDPR. При этом последняя треть свободно лицензируется.

К сожалению, было бы сложно обучить одну модель на всех этих изображениях и сохранить ее соответствие требованиям. Лучше разделить данные на отдельные сегменты и построить три отдельные модели, чтобы каждая из них соответствовала соответствующей нормативной базе, определяемой источником данных.

Вы также должны будете иметь возможность продемонстрировать свою работу и доказать, что вы следовали соответствующим правилам соответствия с нуля, поэтому записывайте данные обучения, используемые для каждой модели. Прослеживаемость может создать серьезную проблему с инженерной точки зрения. Это громоздкая и трудная задача, но она также требует серьезного внимания при создании производственного ИИ. Если вы тратите ресурсы на создание модели только для того, чтобы позже понять, что один фрагмент данных в обучающем наборе данных не соответствует требованиям, вам придется отказаться от этой модели. Из-за несоответствующих данных вам пришлось бы заново проходить весь процесс построения, переобучая модель без него.

Аудит аннотаций к данным

При внедрении ИИ в производство вы должны учитывать возможность аудита данных, а не только моделей. Убедитесь, что существует точный контрольный журнал того, как был сгенерирован каждый отдельный фрагмент обучающих данных и его метка, потому что и метки, и данные должны соответствовать процессу, для которого вы пытаетесь оптимизировать.

Например, когда дело доходит до разработки медицинского ИИ, некоторые регулирующие органы внедрили процесс утверждения алгоритмов, который требует независимой экспертной оценки. Эти процедуры предназначены для того, чтобы модель научилась делать прогнозы на основе обучающих данных, которые либо были помечены, либо проверены сертифицированным специалистом.

Таким образом, когда медицинские компании создают производственный ИИ, определенное количество медицинских специалистов должно просмотреть помеченные обучающие данные, прежде чем компании будет разрешено использовать их в последующих приложениях для построения моделей. Они также должны вести учет того, как был помечен каждый фрагмент данных, кем он был проверен и сколько раз он был проверен.

Жизненный цикл выпуска: от аннотации до развертывания

Перед построением модели целесообразно рассмотреть населенные пункты, которые будут задействованы на каждом этапе производственного цикла. Спросите себя: Где обучается модель? Проводится ли обучение в той же юрисдикции, где были сгенерированы метки и данные обучения? Где развертывается модель после обучения?

С производственной точки зрения ответы на эти вопросы важны для предотвращения проблем в будущем. Например, если ваши обучающие данные находятся в США, но ваша инфраструктура обучения модели настроена в Великобритании, вам нужно знать, разрешено ли вам обрабатывать эти данные, отправляя их в Великобританию. Даже если вы не собираетесь хранить данные в Великобритании, вам все равно необходимо установить, разрешено ли вам обрабатывать эти данные, например. обучать модель и проводить различные эксперименты над моделью — там.

Практическим следствием для компаний, занимающихся искусственным интеллектом, является то, что они либо должны иметь типовую инфраструктуру, развернутую в разных юрисдикциях, чтобы они могли обрабатывать данные локально, либо они должны убедиться, что у них есть соглашения об обработке данных с клиентами, в которых четко указано, где и где они собираются обработать данные.

В некоторых юрисдикциях действуют гораздо более строгие правила в отношении обработки и хранения данных, чем в других, и важно знать правила сбора, использования, обработки и хранения данных для всех соответствующих юрисдикций.

Соблюдение нормативных требований может создать головную боль при создании производственного ИИ, поскольку они добавляют операционные издержки при практической работе модели. Тем не менее, лучше знать правила с самого начала и снизить риск отказа от модели из-за нарушения правил соответствия.

В Encord мы работали с несколькими клиентами из разных юрисдикций и с разными требованиями к данным. С помощью нашей удобной для пользователя платформы, ориентированной на компьютерное зрение, и собственного опыта мы помогаем компаниям развивать конвейер обучающих данных, избавляя их от головной боли, связанной с соблюдением нормативных требований.

‍‍‍Команды машинного обучения и обработки данных любого размера используют приложения Encord для совместной работы, функции автоматизации и API-интерфейсы для создания моделей, аннотирования, управления и оценки своих наборов данных. Загляните к нам здесь.