Текущее состояние ИИ: исторические тенденции и исследования в области голоса, зрения и робототехники

На недавнем AI Summit в Нью-Йорке Future Labs организовала и провела исследование AI Research to Real World. В рамках трека мы собрали докладчиков из академических кругов и представителей индустрии. В рамках дня я представил эту тему и хотел написать о том, почему мы назвали наш трек AI Research to Real World и почему вам это должно быть небезразлично.

Ваши прогнозы искусственного интеллекта основаны на интуиции

Многие организации составляют прогнозы о том, как ИИ повлияет на бизнес, жизнь и будущее технологий. К сожалению, ИИ так же трудно предсказать, как влияние электричества, когда он был впервые коммерчески развернут. Конечно, были аспекты, которые можно было предсказать - везде будут огни, и в какой-то момент это будет достаточно недорого, чтобы думать о нем позже, - но никто не мог предсказать сотовые телефоны, пусть все телефоны, которые были разработаны 100 лет спустя. Знаменитый ключевой эксперимент Бенджамина Франклина.

В результате наша неспособность предсказать будущее означает, что мы склонны в значительной степени полагаться на нашу интуицию и чутье, чтобы принять решение. Это не наша вина, мы просто ограничены нашими текущими знаниями и нашим лингвистическим описанием этих знаний. В качестве эксперимента рассмотрите возможность объяснения генеративных состязательных сетей (GAN) вашей версии 15 лет назад. Вместо этого мы должны учитывать две переменные в нашем решении: как мы можем извлечь уроки из исторических технологических тенденций из прошлого с поправкой на время и тенденции в исследованиях с поправкой на реальность.

Исторический технологический тренд - электричество

Все мы видели или слышали знаменитую цитату Эндрю Нга о том, что ИИ - это новое электричество. Но многие ли из нас уделили достаточно времени, чтобы провести параллель между ИИ и электричеством? Не вдаваясь в подробности, я попытаюсь провести эти параллели и позволю вам сделать собственные выводы.

Есть ряд замечательных статей об электричестве, включая этот график, но я подведу итоги своих уроков, извлеченных из бизнес-приложений.

Когда электричество впервые было введено на предприятиях, это была адаптация технологии к их существующей инфраструктуре - пару. Хотя это увеличивало возможности заводов, они все еще были ограничены их инфраструктурой. Результат был аналогичен тому, что мы видим сегодня у ведущих компаний. ИИ дополняет компании, обратите внимание, сколько из них быстро меняют номенклатуру, когда их спрашивают о том, как ИИ поддержит их бизнес. Прошли годы, прежде чем заводы были перестроены вокруг электричества, чтобы максимально использовать его потенциал. Этот процесс начали внедрять немногие компании по всему миру, но он станет настоящим поворотным моментом в потенциальном влиянии ИИ на бизнес. До тех пор прогнозы являются предположениями, по крайней мере, до тех пор, пока мы не увидим, как такое развертывание повлияет на промышленность и общество.

Текущее состояние исследований в области искусственного интеллекта

Когда Ян Лекун впервые продемонстрировал, как сверточные нейронные сети (CNN) могут использоваться для распознавания символов, технология не была достаточно универсальной, чтобы произвести фурор. Потребовались годы, чтобы реализовать потенциал технологии и получить заслуженное признание Янном. На протяжении десятилетий до и после того, как академические круги были питательной средой для исследований в области искусственного интеллекта. Все крупные технологические компании в мире обращаются к академическим кругам для исследований и талантов в области искусственного интеллекта, но наши публикации в СМИ публикуют подавляющее большинство своих прогнозов, основанных на теориях, не основанных на исследованиях. Хотя не всем под силу читать исследовательские работы, они содержат ключ к прогрессу и прогнозам ИИ. Чтобы помочь, я собираюсь погрузиться в исследования голоса, языка, зрения и робототехники и поделиться тем, что я представил на AI Summit, об ожиданиях прогресса от передовых исследований.

Видение

Чтобы понять проблему зрения, вы должны понять одну концепцию - модели мира. Не читая всю статью, что невероятно, переведите, как люди развивают мысленную модель мира, основанную на нашем опыте, чтобы иметь возможность функционировать в мире, в модель машины. Причина, по которой этот документ важен, заключается в том, что он подчеркивает один из многих барьеров искусственного интеллекта, особенно в области зрения. Чтобы наше видение работало, у нас должна быть надежная модель мира, достаточная для инстинктивного поведения.

На сегодняшний день мы не можем делать две вещи; Создавать общие модели для приложений компьютерного зрения, набор данных для понимания всего мира; и перенести обучение из одной модели или приложения в другое. В результате приложения компьютерного зрения очень узки. Они необычайно эффективны в этих приложениях, но вы не можете взять модель, обученную для приложения автономного вождения, и использовать ее для обнаружения опухолей при компьютерной томографии. Честно говоря, даже людям нужна специализация, чтобы отличить разницу, но наши общие модели мира означают, что нам нужно гораздо меньше данных. Мы не обязательно будем более точными, но нам нужно гораздо меньше данных, чтобы быть полезными для приложения.

Это еще одна довольно удобоваримая статья о глубоком обучении для компьютерного зрения и Теоретические гарантии трансферного обучения.

Подробнее о сегменте видения с Летнего этапа Future Labs AI здесь

Голос / язык

Прогресс голоса и языка важен для ИИ. Без него мы не сможем взаимодействовать с тем, что происходит под капотом. Технологии в этой сфере прошли долгий, долгий путь за многие годы, но все еще ограничиваются предоставлением ответов, а не разговором в свободной форме. Отчасти проблема в том, что вести беседу сложно, гораздо труднее, чем визуально идентифицировать предметы. Помимо режима общего мира, описанный ниже процесс происходит в обычном разговоре, а мы этого не осознаем;

Сложность этого процесса представляет собой непопулярную реальность, современное состояние систем все еще далеки от участия в по-настоящему естественном повседневном разговоре с людьми. Помимо сложности описанного выше процесса, это происходит по двум причинам;

· В естественном разговоре намерения и темы меняются в зависимости от интереса или собеседников и состояния разговора.

· Беседы также сильно зависят от пути. Два набора взаимодействующих со схожим опытом и знаниями могут по-прежнему вести два совершенно разных разговора.

Это было еще раз доказано в конкурсе Amazon Alexa Prize несколько месяцев назад. Вот исследовательская работа для тех, кто хочет в нее глубоко погрузиться, но ключевые результаты; Все 15 социальных ботов имели средний рейтинг клиентов 2,87 (из 5 возможных) вместе с продолжительностью разговора 1:35 мин (медиана) и 5:43 мин (90-й процентиль) к концу полуфинальной фазы. Продолжительность разговора финалистов на протяжении всего соревнования составила 1:53 мин (медиана) и 8:08 мин (90-й процентиль), улучшившись с начала соревнования на 14,0% и 56,8% соответственно, с 11 поворотами (медиана) на разговор. Позвольте мне перефразировать, 8 минут были потолком для современного состояния технологий после того, как я узнал из предыдущего разговора продолжительностью 5:43 минуты. Это может показаться отличным, но проблема становится экспоненциально сложнее с каждым ходом. Не волнуйтесь, исследования в этой области обширны. Некоторые из моих любимых перечислены ниже. Выберите тот, который вам особенно интересен, и погрузитесь в него!

· Автоматическое распознавание речи для многооборотной речи и диалогов в произвольной форме.
· Обоснование здравого смысла для понимания концепций; контекстное моделирование для взаимосвязи прошлых концепций
· Генерация ответов и генерация естественного языка для генерации релевантных, грамматических и неуниверсальных ответов
· Обнаружение настроений для систематической идентификации, извлечения, количественной оценки и изучения аффективных состояний и для обработки конфиденциального контента (например, ненормативная лексика, подстрекательские мнения, неуместные шутки, обнаружение языка ненависти), качественное ведение беседы и
· Дизайн взаимодействия с участниками, обеспечивающий удобство взаимодействия.

Узнайте больше о сегментах голоса / языка на этапе Future Labs AI Summit здесь.

Робототехника

Робототехника, хотя и не в том же духе, что голос, язык или зрение, зависит от них, чтобы хорошо функционировать для приложения, которое я хочу охватить, - автономного вождения. Машины могут не выглядеть как роботы, но еще в 2012 году эта идея была представлена как первый робот, с которым люди научатся взаимодействовать. Что-то в отсутствии лица делает его менее враждебным.

По мере того как эти системы самоуправления внедряются и работают, одновременно увеличивается количество датчиков, необходимых для их работы. Это представляет собой интересную, но непредвиденную проблему, поскольку технология еще далека от зрелости. Чтобы повысить точность систем, необходимо больше датчиков. Чем больше датчиков, тем сложнее программное обеспечение (модели) и увеличивается вероятность ошибок. График ниже из этой статьи ясно показывает многомерную проблему, которая решается этими машинами в реальном времени.

Еще одно замечание: растет число сторонних производителей оборудования для робототехники, что усложняет многомерную проблему, о которой я упоминал выше.

По крайней мере, мы на правильном пути (каламбур!). Ниже приведены некоторые интересные направления исследований.

· Быстрое обучение с подкреплением
· Быстрое обучение с помощью имитации
· Использование моделирования
· RL на основе моделей
· Долгий горизонт / иерархическое мышление
· Безопасное и непрерывное обучение
· Выравнивание ценностей

Несмотря на то, что это был обстоятельный обзор, есть главный вывод, когда сомневаешься, с ажиотажем вернемся к двум вещам; Исторический технологический тренд и текущие исследования, все остальное - просто шум.

Текущее состояние ИИ: исторические тенденции и исследования в области голоса, зрения и робототехники - AI Summit…

Вопросы по теме