Мнение

Почему специалистам по машинному обучению следует посмотреть фильм «Она»

Встречайте виртуального помощника будущего

Введение

Исправлены основные ошибки, производственное приложение выглядит хорошо, и я только что нажал на последний коммит 2020 года, сезон праздников в силе. Итак, я готовлюсь ненадолго отключиться от постоянно меняющегося мира ИИ.

Как отключить питание и дать мозгу перезарядиться?

Как и любой увлеченный специалист по машинному обучению, я смотрю телешоу и фильмы с аспектами ИИ.

Ты угадал; Я не отключаю, по крайней мере, не полностью.

Итак, я не даю своему мозгу передохнуть от ИИ, но в этой статье я хочу указать (и извиниться за то, что не отключался), насколько актуальны некоторые фильмы с функциями ИИ. для практикующих ОД.

Прочитав эту статью, вы обретете необходимый настрой, чтобы черпать вдохновение из научно-фантастических фильмов. В частности, я собираюсь обратить ваше внимание на надвигающуюся конвергенцию содержания ИИ, передаваемого в фильмах, и траекторию текущих разработок в области ИИ.

Удачного чтения.

Ее (2013)

Прежде чем вы начнете читать дальше, позвольте мне сделать предупреждение и заявить, что с этого момента в содержании, представленном в фильме, появятся небольшие спойлеры.

В фильме Она рассказывается о Теодоре Твомбли, чья работа заключается в создании праздничных открыток / событий и развитии его отношений с виртуальным помощником с искусственным интеллектом (Самантой).

С точки зрения искусственного интеллекта, есть так много всего, что можно раскрыть во всех технологиях, представленных в этом фильме, хотя вы должны не обращать внимания на усы Теодора 80-х и тревожное количество брюк с завышенной талией, которые носят несколько персонажей.

Технология ИИ

К сожалению, в этом фильме нет летающих машин. Тем не менее, у нас есть несколько интуитивно понятных программ с искусственным интеллектом, которые представлены в виде личных помощников, персонажей видеоигр, систем управления домом и т. Д.

Вот краткое изложение соответствующей технологии искусственного интеллекта, включенной в эту статью:

  • Персональные помощники AI: система, разработанная для предоставления приложений и выполнения определенных команд, произнесенных или написанных пользователем.
  • Распознавание голоса / речи: процесс, с помощью которого компьютерные системы распознают разговорный язык.
  • Обработка естественного языка (НЛП): ветвь искусственного интеллекта, связанная с методами, с помощью которых системы обрабатывают и исследуют большой объем текста для получения понимания и контекста.
  • Компьютерное зрение: область, связанная с искусственным интеллектом, связанная с включением в компьютерную систему возможностей понимания сцены.
  • Общий искусственный интеллект (AGI): разновидность ИИ, которая выполняет задачи, которые под силу человеку.

AI Personal Assistants (операционная система искусственной жизни)

Саманта, виртуальный помощник, представленная в начале фильма, представляет собой операционную систему с искусственным интеллектом, которую ее создатели называют OS1.

Мы уже знакомы с Google Assistant, Alexa, Cortona и Siri, но Саманта находится в совершенно другой лиге. Она осведомлена о себе и может просматривать огромное количество текстов в Интернете за секунды.

Вначале знания Саманты состояли из информации, полученной из Интернета. Этот метод получения информации аналогичен процессу обучения пресловутой языковой модели GPT-3.

Давайте поговорим о GPT-3.

Хотя GPT-3 не является виртуальным помощником, он показывает потенциал для использования в качестве основы здравого смысла / базы знаний в виртуальных помощниках. GPT-3 состоит из 175 миллиардов обученных параметров и отлично справляется с различными задачами, основанными на НЛП, особенно с ответами на вопросы.

Большинство взаимодействий с виртуальными помощниками основаны на вопросах-ответах, с типичными вопросами, такими как «Какая погода сегодня?», «Сколько у меня встреч сегодня?» и т.п.

Исследователи из Open AI оценивали возможности обучения GPT-3 по-разному: обучение за несколько шагов, обучение за один прием и обучение без выстрела.

  • Быстрое обучение: процесс обучения нейронной сети, который включает в себя представление модели ограниченного набора обучающих данных, относящегося к решаемой задаче.
  • One-Shot Learning: процесс обучения, который включает представление модели одного экземпляра обучающих данных.
  • Zero-Shot Learning: это относится к нехватке обучающих данных, представленных модели, и единственный компонент, загружаемый в модель, - это инструкция с подробным описанием задачи, которую необходимо выполнить.

Саманта (виртуальный помощник OS1) использует метод обучения, похожий на методику обучения по принципу «несколько выстрелов». Когда Теодор запускает виртуального помощника, ему задают несколько абстрактных вопросов, которые определяют его социальный уровень и уровень взаимодействия, это можно рассматривать как некую форму начальной стадии обучения.

Вот интересное предположение, недавно Microsoft предоставили эксклюзивный доступ к исходному коду GPT-3, возможно, вскоре мы увидим Cortona со встроенной языковой моделью серии GPT-n для управления когнитивными возможностями.

Распознавание голоса / речи

В настоящее время в смартфоны встроено программное обеспечение для распознавания голоса, которое ничем не отличается от фильма «Она». Возможности распознавания голоса на устройствах, представленных в фильме, не слишком сильно отличаются от возможностей систем в наших смартфонах.

Главный герой Теодор - писатель праздничных открыток. Теодор использует интуитивно понятную технологию преобразования речи в текст, чтобы создавать проникновенные послания в написанных им письмах. Саманта использует свою функцию преобразования текста в речь (TTS), чтобы читать электронные письма Теодору.

  • Преобразование текста в речь: процесс преобразования оцифрованного текста / письма в звук.
  • Преобразование речи в текст: процесс преобразования произнесенных звуков в оцифрованный текст.

Синтез текста в речь - постоянная область исследований. Модели машинного обучения TTS имеют сетевую архитектуру, которая использует рекуррентные нейронные сети из-за временной и последовательной природы входных данных. В последнее время появились архитектуры, использующие глубокие сверточные сети и трансформаторы.

Технология TTS, изображенная в фильме «Она», не так уж далека от возможностей решений, встроенных в такие приложения, как Google Docs.

Саманта читала электронные письма, используя возможности TTS, и я не думаю, что Gmail имеет эту функцию - я могу ошибаться. Если вы хотите испытать ощущение, что ваше письмо читают, попробуйте это расширение для Chrome.

Атрибут Саманты, которого не хватает в современных технологиях, - это имитация вдоха и выдоха воздуха через носовой ход во время разговора.

Способность Саманты имитировать звуки дыхательного процесса во время разговора делает взаимодействие с этим виртуальным помощником еще более человечным.

Возможно, чтобы сделать Google Assistant, Siri и им подобных людей более человечными, нам следует подумать о внедрении системы, которая может имитировать звуки голосового тракта при произнесении слов.

Обработка естественного языка (NLP)

Обработка естественного языка - это отрасль искусственного интеллекта, связанная с методами, с помощью которых системы обрабатывают и исследуют большой объем текста для получения понимания и контекста.

Саманта, виртуальный помощник в фильме, изображает способность понимать человеческий язык с помощью произнесенных слов или текстов.

Если пойти дальше, Саманта, кажется, обладает способностью сопереживать или в некоторой степени имитировать чувство сопереживания при чтении эмоциональных писем, написанных Теодором.

Процесс, с помощью которого системы могут анализировать текст с помощью НЛП и извлекать эмоциональную информацию о предмете, называется анализом настроений. Возможности Саманты по анализу настроений совершенно схожи с человеческими с точки зрения производительности.

Анализ тональности не ограничивается текстовой информацией. Существует много исследований, направленных на извлечение информации о настроениях из музыки.

В фильме «Она» есть сцена, где Теодор инструктирует музыкальную программу проиграть грустную песню.

Хотя произнесенная команда и конкретная сцена длятся не более 5 секунд. Я был заинтригован механизмом, который потребуется системе для извлечения настроения из музыки и возможности индексирования музыкальной базы данных на основе эмоций.

Одна конкретная мысль, которая пришла в голову, заключается в том, как структурированы данные обучения для такой модели; песни могут вызывать у разных людей разные эмоции.

Компьютерное зрение

Компьютерное зрение - это область, связанная с включением в систему возможностей понимания сцен. Задачи компьютерного зрения, такие как обнаружение лиц, обнаружение объектов или оценка позы, в первую очередь решаются с использованием методов глубокого обучения.

Чтобы воспринимать Саматну, Теодор носит наушник - напоминает AirPods и использует изящное устройство квадратной формы с экраном для визуализации произведений Саманты. Это устройство также имеет камеру, которая дает Саманте окно для визуализации человеческого мира.

Насколько хороши функции компьютерного зрения Саманты?

Помимо типичных способностей к распознаванию лиц и объектов, Саманта может перемещаться по Теодору с закрытыми глазами по оживленному парку, заполненному людьми.

Способность проводить человека сквозь толпу с идеальной точностью - это технология, которой у нас сейчас нет.

Ближайшие варианты этой технологии, которая приближается к возможностям Саманты, существуют в Google Maps. Google Maps AR может обеспечивать навигацию в реальном времени.

При использовании Google Voice Navigation вы могли бы получить, скажем, 10% возможностей системы компьютерного зрения и навигации Саманты - здесь не обижайтесь на Google.

Общий искусственный интеллект

Я упоминал, что Саманта назвала себя?

Подожди секунду…

Я просто попросил Google Assistant назвать себя, и она вернулась с некоторыми результатами поиска по запросу «назови себя». Не совсем то, чего я ожидал.

Затем я спросил ее: «Как вас зовут?». Ниже приведены несколько фрагментов, которые описывают это конкретное взаимодействие.

Таким образом, Google Ассистент не может назвать себя, но может дать вам несколько псевдонимов. Не близко к той сверхъестественной демонстрации самосознания, которой обладает Саманта.

AGI - это ИИ, который может выполнять общие задачи, связанные с человеком, на уровне производительности человека. Большинство форм ИИ, которые у нас есть сегодня, - это слабый ИИ. Слабые агенты ИИ обучаются под конкретную задачу.

Саманта на поверхности может восприниматься как форма ОИИ, она может выполнять большинство задач, связанных с человеком, но я быстро понял, что Саманта - это мост между ОИИ и Суперискусственным интеллектом.

Super AI - это интеллектуальная система, превосходящая возможности человека во всех мыслимых задачах.

Возможно, мы никогда не разработаем какую-либо форму Super AI, но есть ли надежда, что люди однажды разовьют AGI?

Что ж, в 2020 году выпуск GPT-3 возродил разговор об AGI и о том, насколько далеки исследователи от разработки агента, который действительно может выполнять все задачи, связанные с человеком, с приличным уровнем производительности.

Заключение

В фильме «Она» великолепно изображен виртуальный помощник ИИ с супер-интеллектом. Samantha - это поиск Google, Gmail, Grammarly, будильник, напоминание, календарь и многое другое, упакованные в один сверхразумный агент.

Для Теодора она была товарищем, другом, любовником, терапевтом и многим другим.

Тем не менее, трудно представить себе отношения с Siri или Alexa, кроме типичных разговоров «Какая сегодня погода?».

И даже совершенно непостижимо представить человека, влюбленного в ИИ.

Тем не менее, возможности искусственного интеллекта, раскрытые в этом захватывающем фильме, можно почерпнуть изобилие информации и вдохновения.

Практики машинного обучения могут получить представление о том, как режиссеры визуализируют проекцию приложений искусственного интеллекта в будущем на основе технологий, которые у нас есть сегодня. Что, в свою очередь, может вдохновить практиков и исследователей машинного обучения на разработку новых методов и приложений.

Этот процесс представляет собой замкнутый вдохновляющий цикл, который существует у нас, людей, на протяжении десятилетий. Фильмы питают воображение исследователей, изобретателей и ученых, а современные технологии вдохновляют режиссеров и писателей.

Как уже было сказано, у нас до сих пор нет ховербордов.

Спасибо за внимание

Ещё от меня

Чтобы связаться со мной или найти другой контент, похожий на эту статью, сделайте следующее:

  1. Подпишитесь на мой список рассылки для получения еженедельных информационных бюллетеней
  2. Следуйте за мной на Medium
  3. Свяжитесь со мной и свяжитесь со мной в LinkedIn