Эта статья представляет собой краткое изложение статьи, которую я прочитал в рамках 30-дневного задания по чтению статей в области машинного обучения. Это день 1.

Этот документ представляет собой отчет о работе, проделанной пятью исследователями, которые заинтересованы в том, как можно научить компьютеры делать два изображения разных объектов, таких как лев и орел, и создавать гибридное изображение обоих объектов.

Большой прогресс был достигнут в обучении компьютеров тому, как различать любые два объекта, не зная о них никаких особенностей. Первоначально это было сделано путем сравнения яркости цвета и пикселей. В последнее время это делается с помощью техники, аналогичной просмотру изображения с разными уровнями увеличения. Эти увеличения называются слоями.

У нашего первого слоя самый высокий уровень увеличения, и он уменьшается по мере добавления слоев. На каждом слое мы учимся обнаруживать различные особенности изображения, такие как прямые линии, кривые и края. Мы также узнаем важность каждой обнаруженной нами функции. Такой подход к сообщению объектов подробностей различий называется сверточной нейронной сетью или CNN.

Недавно в новостях были упомянуты две вещи, касающиеся обнаружения деталей на изображениях, на которых изображены люди. Первый называется оценкой позы человека, а второй - определением ориентира.

При оценке позы человека компьютер учится смотреть на изображение и сообщать вам, что делает человек; например, поднятие пальца или прикосновение пальца к носу

При обнаружении ориентира компьютер узнает расположение важных черт человеческого лица, например, расположение глаз, носа и рта, а также то, закрыты они или открыты.

Эти два важны, потому что вы можете сравнить два изображения людей и спросить, где находятся глаза на первом изображении и где они находятся на втором изображении. Следовательно, вы можете манипулировать изображениями, чтобы показать, как первое может стать вторым. Все это переписка. Но это переписка в одном домене!

Когда вы пытаетесь найти схожие черты, скажем, между человеком и его любимым питомцем, это становится междоменной проблемой. Когда вас интересует только определенное количество функций, а не все возможные функции, это становится редкой проблемой.

Вспомните наш предыдущий CNN и его слои. Пытаясь найти соответствующие особенности, например, где глаз на этого льва и где глаз на этого орла, авторы статьи попытались выделить особенности на каждом уровне CNN, который они использовали.

Для каждого слоя на двух изображениях они задавали вопрос: «Какой элемент здесь больше всего похож на этот элемент». Они объединили эти детали в пары. Их называют лучшими друзьями. Поскольку они обнаруживаются с помощью нейронной сети, их называют лучшими нейронными друзьями.

Затем они составили рейтинг этих характеристик в зависимости от того, насколько важными, по мнению CNN, они были.

Это, конечно, нетехническое упрощение того, что они сделали. Я решил опустить технические термины.

Весь смысл этого исследования состоял в том, чтобы найти способ научить компьютеры брать два разных изображения и находить способ их слияния или преобразования одного в другое.

Если вам интересно прочитать оригинал статьи, вы можете найти ее здесь.