TL;DR

Новые пользователи с искусственным интеллектом более чем подвержены ошибкам при создании собственных моделей искусственного интеллекта. Большие ошибки случаются даже с лидерами искусственного интеллекта, которые вызывают возмущение в самой ткани общества. Тем не менее, есть несколько советов и рекомендаций, которые могут уберечь вашу модель от недостаточной производительности или решить совершенно другую проблему, для которой вы ее не планировали.

вступление

В предыдущем сообщении в блоге я кратко затронул тему демократизированного ИИ и его инструментов, которые позволили специалистам, не занимающимся ИИ, запачкать руки созданием собственных моделей. В этом посте я объясню, насколько сложным может быть обучение модели.

Расистская ошибка Google

Возможно, вы слышали о приложении Google Photo, которое классифицирует двух афроамериканцев как горилл. Если нет, то вот история. В 2015 году инженер смутил Google в Твиттере, указав, что приложение Photo назвало двух несчастных молодых людей гориллами.

Три года спустя Wired провела серию тестов, чтобы проверить, существует ли проблема. Ну, это все еще было там. Google заблокировал такие категории изображений, как горилла, шимпанзе, шимпанзе и обезьяна. Это было быстрое и грязное исправление, которое решило проблему.

В сообществе дата-сайентистов ходит городская легенда об учебных танках. История рассказывает о человеке, создавшем классификатор танков для военных, который обучался на изображениях танков только в лесах. Когда модель увидит изображение пустого леса, она все равно классифицирует его как танк. Другими словами, классификатор научился классифицировать лес, а не танк. Эта история служит предостережением для молодых специалистов по данным.

Машины учатся у людей

Большую часть времени люди являются источником знаний для компьютеров, что означает, что мы предоставляем аннотированные наборы данных, на которых учатся машины. Наши предубеждения становятся частью технологии, и крайне важно обучать новых людей способностям создавать решения ИИ.

Что должны знать новички без знаний ИИ

ИИ в руках неопытных новичков, которые демократизировали ИИ упростили в использовании, должен остерегаться нескольких основ при подготовке своего набора данных, набора данных, на которых машина может учиться. Например, в контексте компьютерного зрения набор данных — это набор изображений/видео, а текст и речь относятся к сфере обработки естественного языка. Я сосредоточусь на случае создания набора данных для компьютерного зрения, поскольку инструменты, которые я перечислил в предыдущем сообщении в блоге, ориентированы на компьютерное зрение.

Первый вопрос, который задают большинство людей, — это количество изображений/видео, которые им нужно аннотировать. Официальный ответ на этот вопрос — «никто не знает». Это честный ответ. Все зависит от проблемы, которую вы пытаетесь решить. Тем не менее, есть некоторые практические правила и соображения.

С одной стороны, использование трансферного обучения может уменьшить количество изображений/видео, которые необходимо аннотировать в наборе данных. Если вам интересно, почему это происходит из-за того, что трансферное обучение — это метод переобучения предварительно обученных нейронных сетей (обученных на очень больших объемах данных) с вашим набором данных, чтобы вам не приходилось начинать обучение нейронной сети с нуля .

С другой стороны, аннотирование очень похожих объектов на изображениях может увеличить количество изображений/видео, которые необходимо аннотировать в наборе данных. Чем больше совпадений (т.е. похожих функций) между объектами, тем больше данных вам потребуется, например. если вы хотите классифицировать породы кошек, вам понадобится больший набор данных, чем в случае классификации кошек и собак.

Эти аспекты касаются только размера вашего набора данных, однако качество вашего набора данных также играет ключевую роль в уравнении создания хорошего набора данных. В информатике есть известная поговорка «мусор на входе, мусор на выходе». Это означает, что плохие исходные данные приводят к плохим результатам. Если вы снабжаете свою модель неточными образцами, независимо от того, насколько хороши ваша платформа для разработки ИИ, ваша команда ИИ или ваши специалисты по данным, результаты будут далеки от желаемых.

Во-первых, убедитесь, что ваш набор данных содержит соответствующие образцы. Если вы хотите построить модель, различающую несколько пород кошек, убедитесь, что вы собираете изображения и видео кошек, а не собак. Впоследствии убедитесь, что вы собираете разнообразный набор данных с уникальными представлениями. вам нужно собрать достаточное количество уникальных представлений пород кошек, которые вы хотели бы различать. Когда вы думаете о кошке, вы можете думать о своей или соседской кошке. Однако кошки (Felidae) разнообразны по размеру, цвету меха и виду. Львы отличаются от гепардов, не говоря уже о породах домашних кошек.

Когда вы создаете свой набор данных, вам также нужно подумать о фоне, на котором представлены интересующие объекты, например. вам нужно иметь изображения кошек в различных условиях, например, в саду, в здании, на диване, в траве и т. д. Освещение и ракурсы, под которыми сделаны изображения, также играют важную роль. Итак, вам необходимо предоставить изображения кошек средь бела дня, ночью, в сумерках и на рассвете с разных ракурсов. В целом набор данных должен отражать качество изображения и содержание, с которыми вы столкнетесь при применении модели на практике.

Камера, с которой были сделаны фотографии, также играет важную роль в создании набора данных. Насыщенность изображения, температура, разрешение и другие свойства изображений влияют на прогностическую способность модели. Рекомендуется использовать в наборе данных изображения того же качества, по которым модель будет делать прогнозы. Если вы записываете видео на свой смартфон и обучаете свою модель изображениям со своего смартфона, модель может проявлять неожиданное поведение, когда вы запускаете прогнозы на изображениях с профессиональной студийной камеры.

Вот и все, что нужно учитывать при сборе набора данных. Как новичок в сфере демократизированного ИИ, вы можете положительно повлиять на свою модель, дважды проверяя аннотации, созданные вами или вашими коллегами. Если вы случайно неправильно аннотируете целую связку апельсинов и обозначите их как мандарин, модель выдаст ошибочные прогнозы.

Когда вы работаете с другими над аннотированием одного и того же набора данных, вы должны установить общие рекомендации по аннотированию объектов. Без этих указаний аннотаторы будут интерпретировать задачу самостоятельно и могут использовать неоптимальные методы аннотации или полностью неправильно понять задачу.

Что также стоит иметь в виду при маркировке, так это эффективное распределение рабочей нагрузки по аннотации между аннотаторами. Для аннотирования некоторых наборов данных требуются специальные знания, и вы можете разделить набор данных в зависимости от уровня знаний, необходимого для аннотирования элемента мультимедиа в наборе данных.

Заключение

Как молодой адепт демократизированного ИИ, я прошел долгий путь от своих наивных предположений об инструментах демократизированного ИИ к более зрелому пониманию того, насколько сложным является создание масштабируемого решения ИИ. Популяризация инструментов искусственного интеллекта без кода — это действительно здорово. Однако, точно так же, как камера смартфона с включенными фильтрами Instagram в вашем кармане не сделает вас автоматически великим фотографом, так и демократизированные инструменты искусственного интеллекта не превратят вас в специалиста по данным.