https://taggedtech.files.wordpress.com/2016/03/joe_dew.mp3

Хенрик де Дьер: [00:00] Это Tagged.tech. Я Хенрик де Дьер. Сегодня я разговариваю с Джо Дью. Джо, как дела?

Джо Дью: [00:07] Я в порядке. Как дела?

Хенрик: [00:08] Хорошо. Джо, кто ты и чем занимаешься?

Джо: [00:11] Я руководитель отдела продуктов в компании JustVisual. JustVisual — компания, специализирующаяся на глубоком обучении, специализирующаяся на компьютерном зрении и распознавании изображений. Мы занимаемся этим почти восемь лет. Какова моя роль в компании… думайте обо мне как о посреднике между инженерами и учеными в области компьютерного зрения и конечными клиентами.

[00:34] У нас есть очень глубокая технологическая база и стек технологий, которые делают очень сложные вещи, но перевод многих из этих технологий и возможностей конечным потребителям может быть проблемой. Точно так же у нас есть клиенты, которые заинтересованы в пространстве, но не совсем понимают, как его использовать. Моя роль заключается в том, чтобы перевести их потребности в требования к разработке.

Хенрик: [01:00] Джо, каковы самые большие проблемы и успехи, связанные с распознаванием изображений и видео?

Джо: [01:05] Я думаю, что самая большая проблема заключается в том, что человеческий мозг развивался в течение миллионов миллионов лет, чтобы иметь возможность очень легко обрабатывать и обрабатывать визуальную информацию. . Многое из того, что мы, люди, можем распознать и сделать (под силу даже двух- или трехлетнему ребенку), на самом деле довольно сложно сделать на компьютере и требует много работы.

[01:30] Следствием этого является то, что ожидания пользователей в отношении точности и достоверности, когда дело доходит до визуального распознавания, очень и очень высоки. Я люблю говорить, что нет такой вещи, как визуальный омоним.

[01:45] Это означает, что если вы выполнили текстовый поиск, например, и вы набрали слово ягуар, и оно вернулось с машиной, а оно вернулось с кошкой, вы можете понять, почему результат поиска вернулся туда. Если бы я задал вопрос с изображением — если бы я запросил изображение в поисковой системе — и он выдал бы автомобиль, когда я имел в виду кошку, это был бы полный провал.

[02:11] Когда мы проводили тестирование с пользователями, например, на визуальное сходство, ожидания сходства были очень и очень высокими. Они ожидают чего-то вроде почти точного совпадения, когда спрашивают. Во многом потому, что мы, люди, ожидаем этого. Опять же, если подумать о том, как мы взаимодействуем с миром в цифровом виде, это на самом деле очень неестественно.

[02:35] Когда вы что-то ищете, вам часто приходится переводить это в слово или фразу. Вы вводите его в поле, и он возвращает слова и фразы, после чего вам нужно снова перевести их в реальный мир.

[02:49] В реальном мире вы просто смотрите на что-то и говорите: «Эй, я хочу что-то подобное». Это образ в вашем уме, и вы ожидаете получить что-то подобное. Что мы пытаемся сделать, так это решить эту проблему, что на данный момент является очень сложной задачей для компьютеров. Но, сказав это, в этой области произошли огромные улучшения в этой возможности.

[03:12] Компании от Google до Facebook и Microsoft, например, проводят очень интересную работу в этой области.

Хенрик: [03:18] Джо, по состоянию на март 2016 г., как вы видите изменение изображения при распознавании видео?

Джо: [03:23] Я думаю, что три основных фактора, влияющих на эту область, — увеличение вычислительной мощности оборудования, просто технология чипа, закон Мура и тому подобное.

[03:35] Во-вторых, это значительное улучшение сложности алгоритмов или, в частности, алгоритмов глубокого обучения, которые становятся все умнее и умнее в процессе обучения.

[03:44] В-третьих, увеличение данных. Сейчас существует так много визуальных данных — чего не было в прошлые годы — которые можно использовать для обучения и повышения точности и памяти. Это то, что происходит в сфере технологий.

[03:59] Переводом всего этого является точность распознавания изображений, и, если уж на то пошло, распознавание видео увидит экспоненциальные улучшения даже в ближайшие несколько месяцев, не говоря уже о годах. Вы уже начали это видеть. Вы начинаете видеть это в клиентских приложениях и робототехнике, на веб-сайтах и ​​в возможности извлекать фрагменты из изображения и видеть визуально похожие результаты.

Хенрик: [04:26] Джо, какой совет вы бы хотели дать людям, занимающимся распознаванием изображений и видео?

Джо: [04:30] Я думаю, что понимание варианта использования — это, наверное, самая важная вещь, о которой нужно думать. Часто вы слышите о технологии и о том, что она может сделать, но вам нужно действительно тщательно подумать о том, что именно вы хотите, чтобы эта технология делала.

[04:45] Например, многие из существующих сегодня технологий делают то, что мы называем распознаванием изображений, или идея взять изображение или видеоклип и, по сути, пометить его словами английского языка. Думайте об этом как о переводе изображения в текст. Это очень полезно во многих случаях, но часто из варианта использования — от пользователя — это не так уж и полезно.

[05:12] Если вы сфотографируете стул, например, и он вернет задний стул, пользователи скажут: «Я знаю, что это стул. Зачем мне эта технология, чтобы сказать мне, что это стул?» Но «Что я действительно ищу, так это стул, который выглядит вот так. Где я могу найти его?" На этот вопрос сложнее ответить, и это не упражнение, в котором вы просто переводите его в слова.

[05:37] Мы обнаружили, что есть компании, которые используют методы Mechanical Turk и т. д., чтобы по существу пометить изображения, но пользователи на самом деле не привыкли к этому, потому что, опять же, это не так уж полезно. Во-первых, подумайте о сценарии использования того, что именно вы хотите, чтобы технология делала.

[05:56] Многие системы машинного обучения и глубокого обучения требуют много тренировок. Другая часть, о которой вам нужно подумать, это то, для чего вы хотите, чтобы алгоритм обучался? Это просто пометка или извлечение определенных визуальных атрибутов? Это шаблон? Это цвет? Что вы на самом деле хотите, чтобы алгоритм увидел?

[06:20] В-третьих, сейчас уровень внедрения технологии пользователями все еще довольно низок. Я думаю, что по мере того, как он становится все шире и шире и более распространенным, вы начинаете видеть его во все большем количестве приложений, он будет более широко применяться, но концепция использования изображения в качестве запроса все еще очень чужда большинству людей.

[06:42] Когда вы говорите о визуальном поиске, для них это ничего не значит. Существует целая кривая принятия пользователями, которая должна произойти, прежде чем они смогут догнать технологию.

Хенрик: [06:53] Где мы можем найти дополнительную информацию о распознавании изображений и видео?

Джо: [06:56] Вы можете зайти на наш сайт, justvisual.com, чтобы дать вам представление о том, что мы делаем. Просто сейчас в этой области происходит много интересных компаний и исследований. Это немного повсюду, поэтому не обязательно есть одно место, где есть вся информация, потому что поле меняется очень быстро. Это захватывающее время для этой области.

Первоначально опубликовано на tagged.tech 22 марта 2016 г.