Демистификация серии блогов Clearview AI (часть 1)
"Оглавление"
Предыдущая: Конец конфиденциальности, какой мы ее знаем
Далее: Сбор данных для разработки глубокого обучения
От панорамы к всемирной паутине
Распознавание лиц в США восходит к 1960-м годам, когда математик и ученый-компьютерщик Вудро «Вуди» Бледсо пробудил интерес Центрального разведывательного управления своими исследованиями в области автоматизированного мышления и искусственного интеллекта. Чтобы продвигать свои исследования, Вуди основал Panoramic Research Incorporated с заявленной миссией «опробовать идеи, которые «перевернут мир»».
Большая часть истории Panoramic окутана тайной. Однако запрос о свободе информации и рассекреченные документы показывают, что с момента создания Panoramic получала многочисленные проекты и финансирование через подставные компании ЦРУ, такие как Фонд исследований медицинских наук и Исследовательская группа Кинга-Херли. В 2005 году ЦРУ рассекретило документ 1968 года, в котором упоминается «внешний контракт», направленный Panoramic на систему распознавания лиц, которая сократит время поиска в сто раз. Так началось самое откровенное набег правительства США на технологию распознавания лиц.
В рамках сотрудничества с Лабораторией прикладной физики Стэнфордского научно-исследовательского института (в настоящее время известной как SRI International) Panoramic в конечном итоге разработала машину, которая «значительно превосходила» и «доминировала» над людьми в распознавании лиц.
В первые дни технология распознавания лиц была не очень эффективной. В то время даже идея распознавать всего десять лиц была невероятно амбициозной. Наборы исследовательских данных Panoramic начинались всего со 122 фотографий, постепенно увеличившись до 2000 изображений в течение нескольких лет. Такие ограничения данных были в первую очередь связаны с ручным трудом, необходимым для предварительной обработки изображений, а также с отсутствием общедоступных изображений высокого качества.
Два самых значительных прорыва в технологии распознавания лиц произошли в начале 2000-х годов с появлением Google, Facebook и всемирной паутины.
С момента основания в 1998 году корпоративная миссия Google всегда заключалась в том, чтобы «организовать мировую информацию и сделать ее общедоступной и полезной». Тем временем Facebook страстно отстаивал идею «сделать мир более открытым и взаимосвязанным».
К 2008 году Google обрабатывал более 8 миллиардов поисковых запросов в год, а Facebook подключил более 150 миллионов пользователей по всему миру. Комбинация этих двух платформ и различных других во всемирной паутине эффективно преодолела ограничения набора данных и предварительной обработки более ранней работы Вуди.
От ФБР до Клирвью
Подразделение информационных служб уголовного правосудия (CJIS), крупнейшее подразделение ФБР, было создано в 1992 году в качестве координационного центра и центрального хранилища информационных служб уголовного правосудия, таких как отпечатки пальцев и идентификация лица.
В 2008 году, в соответствии с Законом о конфиденциальности 1974 года, подразделение CJIS ФБР впервые выпустило Оценку воздействия на конфиденциальность (PIA) с подробным описанием своей Межгосударственной фотосистемы идентификации следующего поколения (NGI-IPS). Еще в 2008 году выяснилось, что NGI-IPS ФБР состоит в основном из нескольких миллионов криминальных «фотографий» и других идентифицирующих изображений, таких как шрамы, следы и татуировки.
ФБР впервые запустило компонент распознавания лиц NGI-IPS в 2011 году с базой данных, содержащей более 10 миллионов изображений. По мере того как база данных NGI-IPS с годами росла, ФБР в нарушение федеральных законов и законов ведомства не предоставляло обновленные PIA.
В 2016 году Счетная палата правительства (GAO) в конечном итоге обнаружила, что в дополнение к 30 миллионам фотографий из криминальных баз данных ФБР получило доступ к 412 миллионам изображений гражданских лиц, не связанных с преступностью, как часть своей базы данных. Эти изображения включали фотографии водительских прав из 16 штатов, базу данных виз и паспортов Государственного департамента и биометрическую базу данных Министерства обороны.
Из-за разногласий вокруг отчета GAO ФБР переключилось на партнерство с частными организациями, такими как Microsoft, Amazon и Google, для лицензирования технологий распознавания лиц вместо разработки таких систем собственными силами. Несмотря на это изменение, база данных изображений распознавания лиц ФБР продолжала расти.
Совсем недавно на слушаниях в Комитете по надзору Палаты представителей в 2019 году ФБР подтвердило, что его база данных изображений выросла до более чем 640 миллионов фотографий. Эта база данных теперь включала фотографии водительских прав из 21 штата, включая штаты, в которых нет законов, прямо разрешающих использование их хранилищ водительских прав для распознавания лиц.
Слушания 2019 года очень мало рассказали об эффективности системы распознавания лиц ФБР и ее соответствии конституционным обязательствам или «компаниям, которые лоббируют или общаются» с ФБР в отношении системы.
В отличие от многолетнего неуклонного роста базы данных раскрытых изображений ФБР с 10 миллионов в 2011 году до 640 миллионов в 2019 году, база данных изображений Clearview выросла с сотен миллионов до нескольких миллиардов менее чем за три года. Такой взрывной рост обусловлен Всемирной паутиной, как обсуждалось ранее, и характером технологий глубокого обучения и искусственного интеллекта в целом.
Большинство систем становятся менее производительными по мере увеличения базового набора данных. Поиск по 3 миллиардам изображений будет медленнее и менее эффективен, чем поиск по 640 миллионам изображений. С Deep Learning реальность другая. Обучение модели и поиск в наборе данных происходят отдельно, и изображения часто предварительно обрабатываются в промежуточный формат, чтобы значительно ускорить процесс.
По мере роста размера базового набора обучающих данных точность и производительность модели глубокого обучения будут продолжать улучшаться. Такая масштабируемость производительности данных глубокого обучения контрастирует с классическими моделями машинного обучения, которые выходят на уровень гораздо быстрее и, как правило, требуют большего комплексные методы повышения точности.
"Оглавление"
Предыдущая: Конец конфиденциальности, какой мы ее знаем
Далее: Сбор данных для разработки глубокого обучения
использованная литература
Глубокое обучение против классического машинного обучения
Заявление перед Судебным комитетом Сената, Подкомитетом по конфиденциальности, технологиям и закону
Улыбнись, ты в базе данных распознавания лиц ФБР
Глубокое обучение против классического машинного обучения
ФБР — идентификация следующего поколения
Новый отчет: ФБР может получить доступ к сотням миллионов фотографий с распознаванием лиц
Re: Система идентификации следующего поколения (NGI) ФБР
ФБР держит в секрете, как будет работать массивная база данных распознавания лиц
База данных ФБР по распознаванию лиц будет содержать 52 миллиона фотографий американцев
Приложение Faces of Facebook показывает всех 1,2 миллиарда пользователей
Тайная история распознавания лиц