Краткая история распознавания лиц

Демистификация серии блогов Clearview AI (часть 1)

"Оглавление"

Предыдущая: Конец конфиденциальности, какой мы ее знаем

Далее: Сбор данных для разработки глубокого обучения

От панорамы к всемирной паутине

Распознавание лиц в США восходит к 1960-м годам, когда математик и ученый-компьютерщик Вудро «Вуди» Бледсо пробудил интерес Центрального разведывательного управления своими исследованиями в области автоматизированного мышления и искусственного интеллекта. Чтобы продвигать свои исследования, Вуди основал Panoramic Research Incorporated с заявленной миссией «опробовать идеи, которые «перевернут мир»».

Большая часть истории Panoramic окутана тайной. Однако запрос о свободе информации и рассекреченные документы показывают, что с момента создания Panoramic получала многочисленные проекты и финансирование через подставные компании ЦРУ, такие как Фонд исследований медицинских наук и Исследовательская группа Кинга-Херли. В 2005 году ЦРУ рассекретило документ 1968 года, в котором упоминается «внешний контракт», направленный Panoramic на систему распознавания лиц, которая сократит время поиска в сто раз. Так началось самое откровенное набег правительства США на технологию распознавания лиц.

В рамках сотрудничества с Лабораторией прикладной физики Стэнфордского научно-исследовательского института (в настоящее время известной как SRI International) Panoramic в конечном итоге разработала машину, которая «значительно превосходила» и «доминировала» над людьми в распознавании лиц.

В первые дни технология распознавания лиц была не очень эффективной. В то время даже идея распознавать всего десять лиц была невероятно амбициозной. Наборы исследовательских данных Panoramic начинались всего со 122 фотографий, постепенно увеличившись до 2000 изображений в течение нескольких лет. Такие ограничения данных были в первую очередь связаны с ручным трудом, необходимым для предварительной обработки изображений, а также с отсутствием общедоступных изображений высокого качества.

Два самых значительных прорыва в технологии распознавания лиц произошли в начале 2000-х годов с появлением Google, Facebook и всемирной паутины.

С момента основания в 1998 году корпоративная миссия Google всегда заключалась в том, чтобы «организовать мировую информацию и сделать ее общедоступной и полезной». Тем временем Facebook страстно отстаивал идею «сделать мир более открытым и взаимосвязанным».

К 2008 году Google обрабатывал более 8 миллиардов поисковых запросов в год, а Facebook подключил более 150 миллионов пользователей по всему миру. Комбинация этих двух платформ и различных других во всемирной паутине эффективно преодолела ограничения набора данных и предварительной обработки более ранней работы Вуди.

От ФБР до Клирвью

Подразделение информационных служб уголовного правосудия (CJIS), крупнейшее подразделение ФБР, было создано в 1992 году в качестве координационного центра и центрального хранилища информационных служб уголовного правосудия, таких как отпечатки пальцев и идентификация лица.

В 2008 году, в соответствии с Законом о конфиденциальности 1974 года, подразделение CJIS ФБР впервые выпустило Оценку воздействия на конфиденциальность (PIA) с подробным описанием своей Межгосударственной фотосистемы идентификации следующего поколения (NGI-IPS). Еще в 2008 году выяснилось, что NGI-IPS ФБР состоит в основном из нескольких миллионов криминальных «фотографий» и других идентифицирующих изображений, таких как шрамы, следы и татуировки.

ФБР впервые запустило компонент распознавания лиц NGI-IPS в 2011 году с базой данных, содержащей более 10 миллионов изображений. По мере того как база данных NGI-IPS с годами росла, ФБР в нарушение федеральных законов и законов ведомства не предоставляло обновленные PIA.

В 2016 году Счетная палата правительства (GAO) в конечном итоге обнаружила, что в дополнение к 30 миллионам фотографий из криминальных баз данных ФБР получило доступ к 412 миллионам изображений гражданских лиц, не связанных с преступностью, как часть своей базы данных. Эти изображения включали фотографии водительских прав из 16 штатов, базу данных виз и паспортов Государственного департамента и биометрическую базу данных Министерства обороны.

Из-за разногласий вокруг отчета GAO ФБР переключилось на партнерство с частными организациями, такими как Microsoft, Amazon и Google, для лицензирования технологий распознавания лиц вместо разработки таких систем собственными силами. Несмотря на это изменение, база данных изображений распознавания лиц ФБР продолжала расти.

Совсем недавно на слушаниях в Комитете по надзору Палаты представителей в 2019 году ФБР подтвердило, что его база данных изображений выросла до более чем 640 миллионов фотографий. Эта база данных теперь включала фотографии водительских прав из 21 штата, включая штаты, в которых нет законов, прямо разрешающих использование их хранилищ водительских прав для распознавания лиц.

Слушания 2019 года очень мало рассказали об эффективности системы распознавания лиц ФБР и ее соответствии конституционным обязательствам или «компаниям, которые лоббируют или общаются» с ФБР в отношении системы.

В отличие от многолетнего неуклонного роста базы данных раскрытых изображений ФБР с 10 миллионов в 2011 году до 640 миллионов в 2019 году, база данных изображений Clearview выросла с сотен миллионов до нескольких миллиардов менее чем за три года. Такой взрывной рост обусловлен Всемирной паутиной, как обсуждалось ранее, и характером технологий глубокого обучения и искусственного интеллекта в целом.

Большинство систем становятся менее производительными по мере увеличения базового набора данных. Поиск по 3 миллиардам изображений будет медленнее и менее эффективен, чем поиск по 640 миллионам изображений. С Deep Learning реальность другая. Обучение модели и поиск в наборе данных происходят отдельно, и изображения часто предварительно обрабатываются в промежуточный формат, чтобы значительно ускорить процесс.

По мере роста размера базового набора обучающих данных точность и производительность модели глубокого обучения будут продолжать улучшаться. Такая масштабируемость производительности данных глубокого обучения контрастирует с классическими моделями машинного обучения, которые выходят на уровень гораздо быстрее и, как правило, требуют большего комплексные методы повышения точности.