Искусственный интеллект (ИИ) открывает новые возможности прямо на наших глазах. Ясно, что от виртуальных помощников, присутствующих в каждом смартфоне, до умных динамиков, они могут облегчить жизнь. Однако, учитывая тот факт, что это все еще развивающаяся технология и машина, у нее неизбежно будут некоторые ограничения.

Виртуальные помощники, такие как Siri и Alexa, зависят от Интернета для выполнения поиска, проверки обновлений погоды и рабочих часов. Другие подобные технологии, такие как машины глубокого обучения, также следуют тому же направлению, им мешает тот факт, что они разрабатывают новые технологии, а их недостатки обнаруживаются только по мере их использования.

Розенфельд и его коллеги из Йоркского университета в Торонто заметили то же ограничение и задались вопросом, применимо ли это к возможностям машин глубокого обучения в области компьютерного зрения. В своем исследовании 2018 года Как все выглядит - как люди сравниваются в сравнении с машинами (ссылка на исходную статью) они стремились выяснить, как люди и машины оценивают сходство изображений. Их цель - сделать вывод о том, способен ли человеческий разум лучше, чем глубокая нейронная сеть, определять сходства в наборе данных изображений.

Исследователи использовали изображения, хранящиеся на TotallyLooksLike (TLL), развлекательном веб-сайте, на котором размещены пары изображений, которые были идентифицированы пользователями как похожие друг на друга. На сайте представлены изображения объектов, животных и лиц. Несмотря на то, что изображения, включенные в TLL, не так обширны, как хотелось бы, Розенфельд и его коллеги заявили, что разнообразие и сложность изображений в наборе данных неявно отражает многие аспекты человеческого восприятия сходства изображений, помимо текущих наборов данных, которые больше, но в то же время более узкая сфера применения .

В общей сложности 6016 изображений были объединены, чтобы стать частью исследования, которые были представлены для выявления сходства с людьми и машинами глубокого обучения. Учитывая, что машины глубокого обучения достигли значительных успехов в последние годы, общий вывод будет заключаться в том, что они соответствуют или работают лучше, чем способности человеческого разума, с точки зрения определения сходства изображений.

Но у кого получилось лучше? У людей и машин глубокого обучения были свои преимущества друг перед другом. Люди для начинающих имеют в своем распоряжении обширную базу данных изображений до того, как они будут подвергнуты тесту. Это означает, что их способность определять сходство между изображениями далеко развита даже после точной настройки возможностей машины глубокого обучения. «(Мы) мы считаем, что достаточно общие визуальные функции должны иметь возможность воспроизводить те же измерения сходства без явного обучения этому, как это делают люди». говорят Розенфельд и его коллеги.

Еще одно преимущество человеческого разума, определяющего сходство изображений, - это когда и людям, и машинам были представлены мультипликационное изображение и фотография лица актера Николаса Кейджа. В этом эксперименте люди жили лучше, чем машины, отчасти из-за того, что человеческий разум может легко указать на черты лица, в которых персонаж мультфильма и человеческое лицо имеют общие черты.

Но это не означает, что машины с глубоким обучением неспособны работать с компьютерным зрением. Исследование также показало, что в отождествлении с Николасом Кейджем машины глубокого обучения не сильно отстают от возможностей людей. «(B) другие люди и машины должны быть« мультимодальными и обусловлены обоими изображениями: примерами таких факторов являются (1) черты лица (2) выражения лица (3-я строка на рисунке 4), требующие надежного сравнения выражений лиц. в разных модальностях (3) сходство текстуры или структуры части изображения (последний ряд, волосы человека) », - добавляют исследователи.

Это не первое начинание. Несколько исследований, в которых изучались возможности человека и машины при выполнении некоторых действий, связанных с ассоциацией высокоуровневых атрибутов изображения. Один выявил несколько несоответствий в способностях людей и вычислительных машин при измерениях сходства с людьми, в то время как другой обнаружил, что человеческие способности показали себя лучше, чем машины, когда они были подвергнуты сравнению нормального изображения и его искаженной версии.

Вывод Розенфельда и его коллег недалек от открытий других исследователей в области компьютерного зрения. Совершенно очевидно, что человеческий разум подвергался воздействию ряда факторов задолго до проведения исследования. Учитывая это, предубеждения очевидны, когда они противопоставляются недавно разработанной технологии.

Будущее машин глубокого обучения в области компьютерного зрения по-прежнему остается многообещающим. Необходимо выполнить некоторую тонкую настройку. Это позволит этим машинам быть такими же способными, как человеческий разум, с точки зрения идентификации сходства изображений. Отвечая на вопрос о рекомендациях относительно будущих исследований аналогичного характера, «(W) e предполагают, что сравнение будет похоже на визуальный ответ на вопрос (VQA) в форме« почему изображение A должно рассматриваться как подобное / отличное от изображения B ». ? » говорят исследователи.

Это первоначальное исследование дает нам представление о том, чем компьютерное зрение отличается от человеческого зрения для задач схожести. Необходимы дополнительные исследования и исследования для дальнейшего изучения и создания компьютерного зрения, которое соответствует возможностям человека.