Завтра утром Apple анонсирует iPhone X, скорее всего, с Face ID. Спустя несколько лет после того, как Google незаметно внедрила распознавание лиц в качестве опции разблокировки экрана в Android (небезопасно и не просто в настройке), и через несколько месяцев после того, как Samsung внедрила распознавание лиц в Galaxy S8 (который сразу же потерпел поражение), Apple, наконец, попытка принести распознавание лиц в мир потребителей. Если слухи о том, что iPhone X оснащен фронтальной 3D-камерой, верны, то я верю в успех Apple.

В Vcognition мы тратим много времени на решение реальных задач с помощью компьютерного зрения. Распознавание лиц — одна из первых задач, которые мы рассмотрели. Мы разработали очень успешный алгоритм, объединив некоторые традиционные методы компьютерного зрения с глубоким обучением. Наша цель состояла в том, чтобы идентифицировать лица на видеоматериалах с обычных сетевых камер с контролем доступа (вход в дверь или автомобиль) в качестве основного рынка. Эта проблема, также называемая неограниченным распознаванием лиц, является одной из самых сложных проблем компьютерного зрения.

По сравнению с неограниченным вариантом мобильное распознавание лиц является более простой задачей, по крайней мере, с точки зрения точности. Что делает его сложным, так это ограниченная память и вычислительная мощность мобильного устройства. Мало того, что надежное распознавание лиц требует больших вычислительных ресурсов, ограниченные ресурсы устройства также необходимы для проверки живости объекта в режиме реального времени, чтобы избежать спуфинга. Если Apple хочет избежать судьбы Samsung Galaxy S8 из-за его функции распознавания лиц, iPhone должен уметь различать живое человеческое лицо и видео (а не просто изображение) человеческого лица, показанное ему на другом экране. И все это должно происходить в реальном времени, то есть в течение миллисекунд.

3D-камера может оказать огромную помощь в усилиях Apple по распознаванию лиц. Информация о глубине не только повысит точность распознавания, но и поможет более надежно идентифицировать атаки с использованием видео и защищаться от них. Еще одним вероятным преимуществом может быть скорость. Наличие дополнительного измерения данных (в данном случае информации о глубине) может упростить количество шагов в алгоритме или уменьшить количество слоев, необходимых в модели, чтобы достичь той же точности, что и раньше. Конечно, дополнительные данные означают дополнительные операции ввода-вывода; так что здесь, безусловно, есть небольшой компромисс, но, по большей части, я думаю, что получение данных о глубине ускорит операцию.

Мы взволнованы и с нетерпением ждем завтрашнего мероприятия Apple. Все, что может вывести компьютерное зрение (особенно распознавание лиц) из призрачной области наблюдения и сделать его удобным и приятным, станет желанным событием для всех в компьютерном зрении.