Как генеративный ИИ разрушит все в текущем десятилетии

Многие будут удивлены

В последние месяцы системы искусственного интеллекта, такие как Midjourney, DALL-E, Stable Diffusion, LaMDA и PaLM, добились больших успехов в таких разнообразных областях, как создание изображений и текста. Возможности этих систем впечатляют: они создают изображения, наводящие на размышления, создают эффективные продающие тексты для рекламы и многое, многое другое — и все это из простых «подсказок», описывающих, что пользователь хочет получить.

Все это делается с помощью генеративного ИИ.

«Генеративный ИИ» относится к системам, основанным на глубоких нейронных сетях, которые реализуют большие языковые модели (LLM) для создания определенного контента. Здесь я говорю «творить», имея в виду, что это не копия чего-то уже существующего, не в философском смысле (что вообще такое «творение»?).

В этом дивном новом мире появляются новые крупные компании, такие как Jasper, которая предлагает генерацию как продающих копий, так и изображений для рекламы: Jasper теперь оценивается более чем в миллиард долларов, превратившись за одну ночь в единорога.

Первой платформой генеративного ИИ, которая действительно произвела фурор, была GPT-3, выпущенная всего пару лет назад! После этого серия релизов нескольких игроков в этой области (OpenAI, Google, StableDiffusion, Google, DeepMind и других) появилась с головокружительной скоростью, настолько, что было трудно оставаться в курсе.

Но помимо того, как весело и фантастично провести время с Midjourney для создания изображений из наших подсказок, многие технические энтузиасты изо всех сил пытаются понять эту волну Generative IA.

Является ли Generative IA устойчивой тенденцией или это просто причуда?

Тренд на целое десятилетие

Я выберу «устойчивая тенденция», потому что она изменит тысячи профессиональных и развлекательных мероприятий в этом десятилетии. Позвольте мне начать с примера.

Я большой фанат тенниса (по крайней мере, в телевизионном смысле). Но теннисные матчи в прямом эфире занимают часы, а у меня есть другие занятия и интересы, поэтому я обычно прибегаю к просмотру повторов или просто выделяю видео с наиболее интересными 4 минутами матча или около того.

Но что, если вместо 4-минутного видео я хочу 10- или 15-минутное видео? Или если я хочу включить каждое очко в тай-брейки? В настоящее время мне не повезло.

Теперь задействуйте свою шляпу Генеративного ИИ: Генеративный ИИ-генератор спортивного видео создаст видео только для вас в соответствии со спецификациями, которые вы неофициально указали в текстовой подсказке, например:

«Видео продолжительностью около 15 минут с самыми зрелищными очками в матче Рафаэля Надаля и Томми Пола в Париже, Берси 2022, включая полные тай-брейки, если таковые имеются, а также все реализованные брейки»

Вот и все. Вы получаете ссылку с вашим персонализированным видео, которое отличается от видео, просмотренного кем-либо еще в мире. И этот видеосервис был бы так же экономически выгоден, как DALL-E и Midjourney.

От исследований к инновациям

Исследования отличаются от инноваций. Первый связан с опубликованными оригинальными результатами, а второй больше связан с поиском того, как построить бизнес на основе этих результатов: инновации заботятся не об оригинальности, а о росте, защищенности, возврате инвестиций и т. д.

Часто все становится запутанным, потому что исследования проводятся такими компаниями, как Google, которые в принципе существуют для получения прибыли, но они понимают, что их бизнес связан с высокими технологиями, а технологии не могут быть высокими без исследований. Поэтому они участвуют в финансировании исследований, а также сближаются с академическими кругами — многие из их лучших исследователей были наняты из академических кругов. Меня как исследователя несколько лет назад пригласили на саммит факультетов в их штаб-квартиру в Маунтин-Вью, и они поселили меня в номере отеля Four Seasons – все, что нужно, чтобы произвести хорошее впечатление на академическое сообщество!

Двухуровневая программная архитектура

Но даже если может быть сложно — и даже искусственно — провести четкую грань между исследованиями и инновациями, разница здесь имеет решающее значение, потому что в случае генеративного ИИ они будут разрабатываться разными участниками и будут связаны между собой. с двумя разными уровнями в программном стеке – как указал Дж. Карриер:

Нижний программный уровень — это модель глубокого обучения, построенная на реализациях больших языковых моделей (LLM) или эквивалентного внутреннего представления. Модели обеспечивают базовый строительный блок, на основе которого можно разрабатывать приложения.
Верхний программный уровень — это прикладной уровень, который строится на основе модели глубокого обучения для выполнения конкретной задачи, например, для вывода изображения из текстовой подсказки.

Эта двухуровневая архитектура подпитывает новую эру ускоренных инноваций, потому что как только нижний уровень будет разработан очень крупными компаниями, такими как Google, OpenAI и другими, более мелкие компании будут обеспечивать прикладной уровень, получая, конечно, часть своей прибыли. поставщику нижнего уровня.

В настоящее время нижний уровень быстро совершенствуется и часто распространяется вместе с приложением верхнего уровня. Например, LaMDA и PaLM предлагают готовые диалоговые возможности, а DALL-E и Midjourney предлагают услуги подсказки к изображению. Но вскоре распространение альтернатив с открытым исходным кодом для нижнего уровня позволит разработать только верхний уровень приложений и подключить его к уже доступному нижнему уровню. Легче сказать, чем сделать, конечно, но дело в том, что нижний слой на порядки сложнее верхнего.

Будущее влияние

Я утверждаю, что Генеративный ИА пропитает почти каждую интеллектуальную работу и досуг, потому что он предоставит инструменты для снижения сложности ранее трудных действий и потому что он может обеспечить совершенно новый уровень персонализации, который я назвал бы «генеративной персонализацией».

Вы можете увидеть, что такое «генеративная персонализация», из приведенного выше примера спортивного видео: каждому пользователю предоставляется совершенно новое и уникальное видео с лучшими моментами, а не просто выбор между двумя или тремя вариантами.

Совокупное влияние всех приложений Generative IA трудно преувеличить:

Простое создание графики уже доступно непрофессионалам с помощью таких инструментов, как DALL-E, Midjourney и Stable Diffusion, по крайней мере, для простых утилитарных целей, таких как получение изображения заголовка для этого сообщения. До этого года я совершенно не умел рисовать собственные изображения, а специалисты блога советовали не тратить время на графическое оформление собственных историй.
Пользователям, занимающимся редактированием фотографий, не нужно будет проходить сложную кривую обучения, чтобы освоить сложный набор инструментов Photoshop или Affinity Photo (я использую последний, и он настолько сложен, что мне приходится обращаться к учебным пособиям YouTube, чтобы узнать, как выполнять большинство настроек). С генеративным ИИ пользователи просто попросят программное обеспечение выполнить заданное преобразование, и вуаля! Изображение будет исправлено. Если Adobe не сможет предоставить генеративный ИИ со своими инструментами, они будут подорваны новыми стартапами, предлагающими их, и пойдут по пути Blockbuster.
Инструменты для презентаций, такие как PowerPoint, вместо того, чтобы просто предоставлять шаблоны, как сейчас, будут генерировать и настраивать целые презентации профессионального уровня из набросков идей. В настоящее время разница между профессиональными и любительскими презентациями огромна – такого больше не будет.
Написание текста будет процессом, значительно улучшенным с помощью инструментов генеративного ИИ. Многие формы письма уже получают помощь от сложных инструментов, таких как Grammarly, но генеративный ИИ предоставит писателям качественно новый уровень помощи, например, создав полную первую версию блога. Написание будет совместным процессом между людьми и инструментом ИИ.
Любое программное обеспечение, предназначенное для конечного пользователя, должно быть простым в использовании с текстовыми или голосовыми подсказками. Руководства пользователя и обучающие видеоролики уйдут в прошлое, и как только пользователи привыкнут к новому простому способу использования программного обеспечения, все должно будет предлагать его, чтобы оставаться актуальным.
Изучение языка будет осуществляться в основном с помощью голосовых помощников, которые будут работать на основе — как вы уже догадались — генеративного ИИ. Голосовые помощники, которые будут действовать как личные тренеры по языку, будут использовать свои удивительные возможности диалога на естественном языке, впервые представленные в таких системах, как Google LaMDA, чтобы направлять изучающих человеческий язык для приобретения словарного запаса и выражений, улучшения произношения и т. д. голосовые помощники — это не футуристическая фантазия — на данный момент они просто имеют экономический смысл.
Даже аппаратные продукты (например, автомобили) будут иметь справочные системы на основе генеративного ИИ, основанные на диалогах. Пробовали ли вы выполнять сложную операцию вроде регулировки дисплея в современных автомобилях? Не легко, скажу я вам. Вместо того, чтобы копаться в сложных руководствах, вы просто попросите голосового помощника либо получить инструкции, либо напрямую внести коррективы.

Многие профессии преобразятся до неузнаваемости. Графические дизайнеры уже чувствуют жало этого прорыва. Исчезнут целые профессии, и создадутся другие. Влиятельные компании обанкротятся, а новые станут доминирующими, в зависимости от того, насколько хорошо они справятся с технологическим прорывом, вызванным генеративным ИИ.

И все это произойдет в течение этого десятилетия.

Последние мысли

Я могу ошибаться, но мне кажется, что даже опытным техническим экспертам было трудно предсказать огромные возможности нынешних генераторов изображений и текста: несколько лет назад не было очевидным, что огромные модели и обучающие наборы будут приводят к качественно иным возможностям.

Я бы даже сказал, что это была удачная, почти случайная находка. Но теперь, когда у нас есть генеративные инструменты, ворота открыты для инновационных компаний, которые будут разрабатывать приложение за приложением в быстром темпе: в основном это вопрос выяснения того, что можно радикально улучшить, и поиска подходящей бизнес-модели для создания бизнеса. идея генеративного ИА.

Несколько лет назад казалось, что другие технологические тенденции, такие как беспилотные автомобили, виртуальная реальность или блокчейн, скоро возьмут верх, но технология беспилотного вождения была ограничена законодательными барьерами, блокчейн пострадал от экономического спада, а виртуальная реальность внедрение ограничено высокой стоимостью оборудования. Вместо этого генеративный ИИ еще не ограничен законодательством (эй, полировка презентации PowerPoint или создание спортивного видео — это не вопрос жизни и смерти) и не требует, чтобы пользователь покупал дорогое оборудование.

И мы не думали, что творческая деятельность так скоро прервется. Но они были.

Мы вступаем в новые и иногда странные времена, когда человеческое творчество смешивается с новыми возможностями машин до такой степени, что их трудно различить. Как Дж. Курьер отмечает:

«Сегодня и в течение следующих нескольких лет это будет казаться удивительным и во многом пугающим. Потому что те творческие моменты, когда вы переходите от нуля к первоначальным идеям, всегда казались такими уникально человеческими, потому что это было так таинственно».