Введение в AI/ML для дизайнеров UX

Автор: Борис Вольфсон

Это первая часть из двух статей, которые вместе обобщают недавнюю презентацию Baltimore UX. Эта часть знакомит UX-специалистов с миром искусственного интеллекта (ИИ)/машинного обучения (МО)/глубокого обучения (ГО). Если вы уже хорошо разбираетесь в AI/ML/DL — переходите к Части 2, где я обсуждаю, когда и как UX-специалисты должны и НЕ должны использовать модели DL в своих продуктах и/или в своей повседневной работе.

BUX также сделал презентацию аудио/транскрипт и слайды доступными для всех. Вы можете использовать слайды в любых некоммерческих образовательных целях (но, пожалуйста, укажите авторство).

Информацию, представленную здесь, можно найти более подробно в различных источниках. Готовясь к презентации, я изо всех сил пытался найти правильный баланс между тем, чтобы дать слишком мало и слишком много информации для UX-аудитории. Я был бы очень признателен за отзывы о том, насколько полезной была информация, представленная в этой статье.

Неоднозначность терминологии

Знакомство с AI/ML/DL начинается (или должно начинаться) с визуализации того, как различные термины/жаргон соотносятся друг с другом.

Искусственный интеллект (ИИ) — это способность машин имитировать человеческие способности или представлять человеческие знания. Хотя ИИ обычно является цифровым, он просто должен исходить от интимных объектов. Познакомьтесь с историей ИИ.

Машинное обучение (ML): это подмножество ИИ. Это относится к способности системы автоматически учиться и совершенствоваться. Основа для области предшествует цифровым компьютерам. Познакомьтесь с историей ML.

Глубокое обучение (ГО): это подмножество машинного обучения. Он основан на сложных искусственных сетях, которые представляют данные повышенной сложности. Познакомьтесь с историей DL.

💡 Практический совет. AI, ML и DL взаимозаменяемы в обычном дискурсе. Однако большинство решений ИИ, привлекших внимание СМИ в последнее время (включая ChatGPT), являются моделями глубокого обучения.

Разница между ML и DL

Разница между ML и DL невелика. Ключевое отличие состоит в том, что модели глубокого обучения извлекают функции (или категории) автоматически, в то время как модели машинного обучения обычно полагаются на людей-экспертов, которые помогают определить функции, на которых должна сосредоточиться модель. Другой взгляд на различия состоит в том, что чем глубже модель, тем меньше требуется руководство от людей. Это автоматическое извлечение функций осуществляется с помощью искусственных нейронных сетей (ИНС). Эти сети содержат «скрытые» (глубокие) слои, которые выполняют извлечение признаков.

💡 Практический совет:независимо от определения, модели DL БУДУТ иметь некоторый уровень ручного ввода данных человеком, и очень часто модели, которые называются «ML», будут иметь некоторые автоматические функции. извлечение.

Искусственная нейронная сеть (ИНС) и ее сложность

Искусственные нейронные сети моделируются на основе биологических нейронных сетей, также известных как мозг. И искусственные нейроны, и биологические нейроны имеют много общего (см. Диаграмму ниже): входы (дендриты в биологических нейронах), функция суммирования/счета/активации входа (ядро и тело клетки) и выходы (аксон и окончания аксона).

Каждый отдельный (биологический или искусственный) нейрон содержит очень ограниченное количество данных. Однако тот факт, что они соединяются со многими другими нейронами (а эти нейроны соединяются со многими другими нейронами), приводит к появлению эмерджентного свойства (часто называемого интеллектом).

В последние годы сложность ИНС возрастает на порядки. Сейчас он приближается к сложности человеческого мозга. Например, в нашем мозгу около 85 миллиардов нейронов, которые вместе имеют около 150 триллионов соединений. В ИНС функция параметров аналогична биологическим нейронным связям. Достижения в алгоритмах обучения и вычислениях на GPU привели к ошеломляющим цифрам: GPT-3 (впервые выпущенный в 2020 году) имеет около 175 миллиардов параметров. GPT-4 (ожидается, что он появится в 2023 году) имеет около 100 триллионов параметров. 🤩

⚠️ Важно: ИНС НЕ являются биологическим мозгом. Их сложность разная. Это означает, что наличие ИНС с параметром в 100 000 триллионов НЕ приведет к автоматическому созданию ИИ, который соответствует интеллекту среднего человека или превосходит его (в том, как мы измеряем интеллект) .

Как учатся модели (версия ELI5)

Вы можете написать много статей о том, как учатся ИНС. Тема сложная, но общая черта заключается в том, что эти модели обучаются через цикл обратной связи, который постепенно улучшает модели. Чтобы проиллюстрировать этот тип петли обратной связи, давайте рассмотрим следующий простой сценарий:

  1. Мишка — гончая.

2. Давайте попробуем научить его НЕ лаять

3. Вводим стимул (вход) — вот эта милая собачка, проходящая мимо.

4. Мишка решает, лаять или нет… в его мозгу происходит много вычислений. Различные части его мозга подают сигналы либо лаять, либо не лаять. Интересно, что в этом сценарии он с РАВНОЙ вероятностью будет лаять (50% времени) и не будет лаять (50% времени).

5. Предположим: на этот раз (случайно) он решил НЕ лаять. Это наш «модельный» вывод.

6. НЕ лай — это желаемое поведение. Это совпадает с тем, что, по нашему мнению, должна делать модель (Мишка), когда входными данными является проходящая мимо собака.

7. Даем Мишке лакомство (поощрение) за то, что он «правильный».

8. Награда меняет мозг Мишки. Это делает части мозга, которые заставили его «решить» не лаять, немного «сблизиться» друг с другом. Это, в свою очередь, делает более вероятным, что в будущем, когда собака будет проходить мимо, она НЕ будет лаять.

Та же тренировка повторяется с разными собаками, проходящими мимо… И Мишка постепенно учится не лаять рядом стоящих собак… По крайней мере, мы на это надеемся. *подмигивание*

Введение в модели больших языков

Но Борис… что, если я хочу, чтобы моя модель глубокого обучения делала немного больше, чем просто решала, лаять или не лаять?

Что ж, тебе повезло. Потому что у больших языковых моделей (LLM) наступили свои дни. LLM — это особый тип моделей DL, которые специализируются на понимании естественного языка.

Эти модели обучаются на ОЧЕНЬ больших текстовых наборах данных. Например, GPT-3, один из крупнейших LLM, был обучен примерно на 45 ТБ текстовых данных. Эти модели обучаются с помощью продвинутых методов обучения, таких как моделирование маскированного языка (MLM) и моделирование случайного языка (CLM). Вышеупомянутая статья дает много подробностей о том, как они обучаются. Но, чтобы проиллюстрировать это, давайте рассмотрим следующий пример:

  • Модель получает следующее предложение: «Завтра в Восточной Канаде ожидается снег [______]».
  • Затем его просят предсказать, какое слово (токен) может оказаться в скрытой части.
  • Модель может предсказывать такие слова, как 1) шторм, 2) ливень, 3) ангелы.
  • Цикл обратной связи постепенно улучшает модель, чтобы лучше предсказывать пропущенное слово (токен).
  • По мере того, как модель лучше предсказывает эти слова/токены… она получает семантические знания — знания о мире.
  • Это семантическое знание получено из того факта, что модель использует контекст (т. е. все предложение целиком), чтобы узнать, что «снег» связан с «бурями» и «ливнями»… но также и что «снег» связан с «Канадой»… со временем даже узнают, что «души» связаны с «есть», а «души» связаны с «есть»… Вы можете себе представить, насколько мощным это может быть в совокупности!

Стоит отметить, что LLM бывают разных типов, размеров и специализаций. Некоторые из них намного быстрее обучаются и выполняются (т.е. получают прогноз), потому что они имеют гораздо меньше параметров и обучаются на гораздо меньшем количестве данных. Некоторые из них «тяжелее», но содержат гораздо больше знаний.

LLM используются для множества задач (люди постоянно находят разные творческие способы расширить это), в том числе:

  • Анализ настроений
  • Подведение итогов
  • Ответы на вопросы и генерация текста
  • Перевод

Что такое ChatGPT

В настоящее время больше всего внимания привлекает один LLM: ChatGPT. Это специально обученная/отлаженная версия OpenAI GPT-3. Тонкая настройка особенная, оптимизирует вывод, чтобы он был разговорным. Его обучали, когда люди учили его, как лучше всего действовать в качестве чат-бота. Этот метод обучения называется обучение с подкреплением на основе обратной связи с человеком (RLHF). В процессе обучения люди притворялись и людьми, и ботами. Этот процесс использовался как строительные леса; позволяя ему научиться генерировать вывод, который является одновременно разговорным и приемлемым для реального человека. OpenAI написал блестящую статью о том, как обучался ChatGPT.

Одним из преимуществ этого метода обучения является то, что в ChatGPT введено множество барьеров. Эти ограждения представляют собой «знание» вопросов, на которые ChatGPT «знает», что не должен отвечать (из-за вреда, который может быть нанесен расистскими, незаконными, ложными вещами). Он также учится направлять разговор обратно к выполнению задачи (это позволяет разговору не застревать). В модель постоянно добавляются дополнительные ограждения (по опыту миллионов людей, взаимодействующих с ней).

В целом, ChatGPT звучит почти по-человечески. Вы не можете не быть впечатлены, когда разговариваете с ним. Этот разговорный характер в сочетании с огромной информацией о реальном мире (из одной из самых продвинутых версий GPT-3) создал много (оправданной) шумихи.

Я считаю, что разговорная природа делает следующее:

  • Помогает модели давать более качественные ответы, потому что (в реальных разговорах) мы даем контекст небольшими порциями — сравните это с одним запросом, когда вам может быть трудно дать полный контекст того, о чем вы спрашиваете.
  • Разговорный характер способствует более простым вопросам, которые задает пользователь.
  • Если ответ не совсем понятен, вопрос можно легко уточнить

В сочетании это помогает с воспринимаемой производительностью, которую человек-судья придаст выходным данным модели.

Сильные стороны моделей глубокого обучения

Помните, что ChatGPT — это всего лишь один пример модели DL. Однако все модели DL имеют некоторые общие сильные стороны/преимущества.

  1. При наличии достаточного количества данных и правильных вариантов использования производительность моделей глубокого обучения, как правило, очень ХОРОШАЯ. Во многих случаях он приближается к человеческим возможностям.
  2. Модели глубокого обучения не требуют, чтобы специалисты явно программировали или определяли определенные функции. Например, модель DL Real Estate сможет узнать из данных, что расстояние от дома до ближайшей школы является важным фактором, влияющим на цену дома. Вам не понадобится эксперт по недвижимости, чтобы сообщить модели об этом факте.
  3. Модели глубокого обучения могут обучаться в основном без вмешательства человека. Это означает, что эти модели могут экономически масштабироваться и потреблять очень большие объемы данных. (людям просто нецелесообразно вручную аннотировать терабайты текстовых данных, потому что 1 ТБ = 75 000 000 страниц текста)
  4. Модели глубокого обучения могут извлекать все типы данных. Они могут воспринимать и запоминать структурированные (то есть слова) или неструктурированные (изображения) данные.
  5. Модели глубокого обучения можно настроить для конкретных (но похожих) задач. Это означает, что обучение (работа), которое вы проделали с одной моделью, принесет пользу другим моделям.

Слабые стороны моделей глубокого обучения

Сильные стороны приходят с некоторыми очень важными оговорками. Давайте пройдемся по некоторым из них:

  1. Модели глубокого обучения требуют огромного количества достоверных данных (хорошие данные — очень сложная тема, но думайте о них как о надежных, репрезентативных и беспристрастных). Если вам не хватает данных, то более простые модели без ИНС или даже эвристики, основанные на правилах, могут быть намного лучше для этой задачи.
  2. Модель глубокого обучения будет такой же «хорошей» и такой же «плохой», как и данные, используемые для ее обучения. Если данные имеют внутреннюю предвзятость, то же самое будет и с моделью. Нам нужно быть особенно осторожными при выборе обучающих данных, которые не увековечивают предубеждения/системное неравенство.
  3. Обучение этих моделей требует больших вычислительных мощностей... Для этого типа обучения существуют финансовые затраты и затраты на окружающую среду. По мере роста объема данных, которые используются для обучения моделей (текущий темп роста экспоненциальный!), будут расти и вычислительные затраты.
  4. Сложно понять, когда следует прекратить обучение модели. Вам нужно избегать переобучения модели. Когда вы перетренируетесь, модель становится только способной решать проблемы, с которыми она уже сталкивалась. Это также известно как проблема переоснащения.
  5. Модели DL непрозрачны. Трудно понять, почему он дает определенный результат. Часто неясно, какая часть входных данных оказалась «важной» при принятии решения. Эта задача будет становиться все более важной, если (когда) мы дадим моделям возможность принимать важные решения (т. е. не только рекомендации фильмов, но и финансовые или медицинские решения).
  6. Модели DL — это не люди. Когда им представляют проблемы, которые сильно отличаются от данных обучения, они часто борются. Эта неспособность решать проблемы, не входящие в ее компетенцию, известна как Хрупкость… например: если вы попытаетесь обучить самоуправляемый автомобиль, модель действительно будет бороться с такими проблемами, как встречный автомобиль, едущий по не туда (или слон на шоссе 🐘).
  7. Модели DL склонны давать ответы или делать прогнозы. Это приводит к явлению, известному как галлюцинации. Модели DL иногда дают ответы, которые просто не соответствуют действительности. Проблема на самом деле является более сложной в LLM, таких как ChatGPT, потому что эти галлюцинации кажутся (на первый взгляд) истинными утверждениями из-за того, насколько хорошо они звучат.

На этом заканчивается первая часть статьи. Он должен был дать краткое введение в мир AI/ML/DL. Во второй части мы обсуждаем, как UX-пользователям следует применять эти технологии в своей профессиональной жизни.

Примечание автора. Борис Вольфсон — сотрудник Nuance (компании Microsoft). Идеи и мысли в этой статье являются его мнением (они НЕ отражают какую-либо официальную позицию Nuance или Microsoft).