Модели ChatGPT, LLM и Foundation — более пристальный взгляд на ажиотаж и последствия для стартапов

Мы все видели повальное увлечение генеративным ИИ, например. ChatGPT, DALL-E и Stable Diffusion. Ходят слухи, что GPT-4 еще более умопомрачительный. Есть много открытых вопросов об этих моделях, их точности и даже законности с точки зрения ИС. А с точки зрения стартапов и инвесторов существуют серьезные опасения по поводу того, можно ли построить защищенный бизнес на основе любого из этих типов базовых моделей платформ. Но циклы хайпа приходят и уходят. Многие об этом не знают, но у нас было несколько циклов ажиотажа вокруг ИИ, за которыми последовало несколько зим ИИ. А вы знали, что первым запущенным чат-ботом была Элиза в 1964 году? Это была ранняя компьютерная программа обработки естественного языка, созданная с 1964 по 1966 год в лаборатории искусственного интеллекта Массачусетского технологического института Джозефом Вейценбаумом.

ИИ меняет мир — и массы действительно осознали это через простой пользовательский интерфейс, созданный OpenAI для взаимодействия с чат-ботом. ChatGPT, популярный чат-бот от OpenAI, по оценкам, достиг 100 миллионов активных пользователей в месяц в январе, всего через два месяца после запуска, что делает его самым быстрорастущим потребительским приложением в истории.

Настроения венчурного капитала предполагают, что ИИ переживает важный момент, когда появляется множество новых моделей и стартапов, повышенный интерес и волнение по поводу генеративного ИИ, больших языковых моделей (LLM) и базовых моделей.

Я увлекаюсь данными и искусственным интеллектом с тех пор, как в последние годы работы в Google начал глубже погружаться в мир машинного и глубокого обучения. Это было время, когда Google трансформировалась из «Компании, ориентированной на мобильные устройства» на роль «Первой компании, занимающейся искусственным интеллектом».

Когда я пришел в Google в 2013 году, компания только что превратилась в Компанию, ориентированную на мобильные устройства, поскольку мобильный трафик в поиске превзошел трафик с компьютеров. Тогда, в 2013 году, Google Cloud и, например. BigQuery тогда еще только зарождались, что сегодня кажется забавным. Snowflake и Databricks были основаны в это время, но до их коммерческой жизнеспособности еще много лет. AWS только что запустила первое облачное хранилище данных Redshift. За 10 лет многое изменилось только в мире данных и облака.

Трансформеры — это внимание на стероидах — как в 2017 году началась революция моделей больших языков (LLM)

Оглядываясь почти на шесть лет назад, в 2017 год, доклад на научной конференции NeurIPS изменил курс мира ИИ. Внимание — это все, что вам нужно породило то, что мы сегодня называем базовыми моделями, посредством архитектуры глубокого обучения Transformer.

По сути, изобретение Google Transformer, новой нейронной сети для понимания языка, принесло значительный прогресс в современном искусственном интеллекте в 2017 году. Исследователи из Стэнфорда назвали Transformers основными моделями в документе за август 2021 года, потому что они видят, что они вызывают сдвиг парадигмы. в ИИ. Масштаб и размах моделей фундамента за последние несколько лет расширили наше представление о том, что возможно, — написали они. Согласно Стэнфорду, основополагающие модели — это «модели, обученные на обширных данных (как правило, с использованием масштабного самоконтроля), которые можно адаптировать к широкому кругу последующих задач.

Справедливо сказать, что революция в модели большого языка (LLM) началась с появлением Transformers в 2017 году.

Большая языковая модель с архитектурой глубокого обучения Transformer работает в чрезмерно упрощенном виде, оценивая вероятность того, что слово или последовательность слов встречаются в более длинной последовательности (предложении). См. конкретный пример ниже:

Исходные данные: человек не пересек ____, потому что он/она устал.

Может иметь следующие слова и вероятности:

улица: 12,5%
дорога: 9,2%
бридж: 7,8%
море: 2,7%
Гималаи: 0,002%
…

Трансформеров можно обучать с помощью большого массива неразмеченных текстов (таких как Википедия, Google Книги, Reddit и т. д.). Они случайным образом маскируют части текста и пытаются предсказать недостающие фрагменты. Делая это снова и снова, Transformer настраивает свои параметры.

Короче говоря, большая языковая модель – это языковая модель, обученная на огромных объемах данных (часто, например, на тексте из Интернета), с множеством (миллиардами) параметров модели и почти всегда использующая Transformer. на основе архитектуры.

Самой большой инновацией Google в своей архитектуре Transformer LLM стала концепция «самовнимания». Самостоятельное внимание означает, что каждое слово в предложении будет «обращать внимание» на каждое другое слово в предложении, определяя, какие слова имеют наибольшее значение для определения контекста и значения.

Трансформеров можно назвать внимание на стероидах. Найдите отличную визуализацию временной шкалы истории Трансформеров Дэмиена Бенвениста:

Момент молнии в бутылке для подавляющего большинства компаний заключается в том, что гораздо проще выбрать предварительно обученную крупноязыковую модель с использованием архитектуры Transformer (например, GPT-3 от OpenAI), которая уже обученных на огромных объемах текстовых данных и тонкой настройки их для последующей задачи с данными компании и отрасли — вместо того, чтобы обучать модель с нуля. Точная настройка может быть выполнена с гораздо меньшим набором примеров, чем обучение модели с нуля, что значительно упрощает весь процесс НЛП.

В 2018 году очень мощный LLM под названием BERT (о котором я расскажу позже) имел 110 миллионов параметров (упрощенные параметры — это коэффициенты, используемые в модели). В 2022 году — 4 года спустя — PaLM от Google имел параметры 540B, что означает увеличение почти в 5000 раз.

Но производительность модели ≠ количество параметров — это я тоже обсужу позже.

Различные разделы этого контента

Я понимаю, что это очень содержательная часть. Он разделен на следующие разделы (нажмите на текст, чтобы сразу перейти к разделу):

🤔 На этот раз все иначе?

🧪 ChatGPT — публичное доказательство концепции

🕰️ Давайте сделаем шаг назад и совершим путешествие по закоулкам памяти в 2018 и 2019 годы

😎 БЕРТ — настоящий гангстер LLM

⚙️ Заглянем внутрь архитектуры GPT, лежащей в основе ChatGPT

🤼 Другие игроки на рынке LLM, кроме OpenAI (их много)

🥃 Выстрелы, выстрелы, выстрелы…

📈 Чем преуспел OpenAI при запуске ChatGPT

🔮 Куда мы движемся с точки зрения инвестора?

🧐 Ходит много некачественных слухов о GPT-4 из-за общего ажиотажа вокруг ChatGPT

🚀 LLM и модели основания — последствия для стартапов и венчурных капиталистов

⚔️ Рвы и защита для стартапов в эпоху LLM и моделей фондов

🤖 Приходит ли ИИ для разработчиков и работы с данными?

🪢 Не все дело в LLM — разрыв в данных увеличивается

✍️ Заключительные мысли

🗺️ Карты рынка стартапов с генеративным ИИ

Примечание. некоторые разделы могут казаться бессвязными без контекста из предыдущих разделов.

На этот раз по-другому?

На этот раз все по-другому — четыре самых опасных слова в инвестировании, как сказал сэр Джон Темплтон, сборщик акций века, в журнале Money в 1999 году. — как раз перед тем, как лопнул пузырь доткомов. Однако на этот раз это во многом так. Появление облака поколение назад обеспечило вычислительную мощность, которая ранее была невозможна, что открыло новые области компьютерных наук, включая модели Transformer — основу, например. ГПТ-3.

На мой взгляд, современные большие языковые модели могут быть одной из самых впечатляющих систем, когда-либо созданных. Эти модели служат невероятной базой данных информации (почти все в общедоступном Интернете проиндексировано), которые также могут делать рассуждения и дедукции, подобные человеческим. Горизонт потенциала ИИ постоянно смещается и становится все более заметным.

Но есть много негативных побочных эффектов шумихи. Я оптимистично отношусь к ИИ и LLM, но нельзя не думать о криптопузыре, когда видишь, например, этот:

Как отметил Ласло Срангер, такого рода ажиотаж типичен для комментариев ChatGPT. То же самое видно из диких слухов об условиях сделки по инвестициям Microsoft в OpenAI на сумму 10 миллиардов долларов. Существует много заблуждений относительно потенциальных инвестиций Microsoft и получения ими 49% акций OpenAI после того, как они окупили свои инвестиции в размере 10 миллиардов долларов.

Структура сделки уникальна, но и OpenAI уникальна, если посмотреть на происхождение компании: OpenAI начала свою деятельность в 2015 году с обещанного финансирования в размере 1 миллиарда долларов от Илона Маска (Tesla, SpaceX), Сэма Альтмана (тогдашний президент инкубатора стартапов Y Combinator), Питер Тиль (PayPal, инвестор Facebook), Рейд Хоффман (LinkedIn), AWS и другие.

Я рекомендую прослушать этот эпизод подкаста Скотта Гэллоуэя (слушать с 07:40 и далее), чтобы лучше понять, как на самом деле может выглядеть структура сделки.

ChatGPT — публичное доказательство концепции

ChatGPT — это, по сути, вероятностный предсказатель слов, основанный на большой языковой модели OpenAI GPT-3.5. Он генерирует предложения.

OpenAI недавно отметил это в сообщении в блоге:

«Мы запустили ChatGPT в качестве предварительного исследования, чтобы узнать больше о сильных и слабых сторонах системы и собрать отзывы пользователей, чтобы помочь нам улучшить ее ограничения».

На данный момент ChatGPT следует воспринимать преимущественно как доказательство концепции. Решение выполнить этот PoC публично (а не внутри компании, как это сделали Google и Facebook) является чисто стратегическим решением OpenAI. Одна из причин, по которой OpenAI сделала его общедоступным, заключается, в частности, в том, что он собирает больше данных об отзывах пользователей. Таким образом, бесплатные пользователи платят за ChatGPT в виде предоставления данных обратной связи, которые используются для обучения с подкреплением.

Янн ЛеКун (главный научный сотрудник Facebook по искусственному интеллекту) был одним из самых громких лидеров мнений в области искусственного интеллекта и машинного обучения, открыто предостерегающих общественность от осторожности в отношении ChatGPT, поскольку он часто вызывает галлюцинации. ChatGPT действительно не является хорошим источником информации о мире. Страница подсказки даже предупреждает пользователей, что ChatGPT может иногда генерировать неверную информацию и может иногда создавать вредные инструкции или предвзятый контент.

Более того, профессор Принстонского университета компьютерных наук Арвинд Нараянан недавно сказал, что ChatGPT — это «генератор быков**t».

В интервью The Markup, которое стоит прочесть полностью, Нараянан объясняет, как ChatGPT хорош в выдаче ответов, которые на первый взгляд кажутся правдоподобными. Однако, если немного поцарапать эту поверхность, многое оставляет желать лучшего.

Как отметил Лекун, большие языковые модели, такие как GPT-3.5, на которых построен ChatGPT, не имеют физической интуиции, поскольку обучаются исключительно на тексте. Они могут правильно ответить на вопросы, обращающиеся к физической интуиции, если смогут извлечь ответ на аналогичный вопрос из своей обширной ассоциативной памяти. Но они могут получить совершенно неверный ответ.

Как подчеркивает Ласло Срангер, лучший способ думать о ChatGPT, как и о любой новой технологии, заключается в следующем:

Пограничные случаи тестирования: где границы/ограничения?
Проверьте, что работает, а что нет и насколько стабильно.
Мозговой штурм и идеи: что еще можно с этим сделать?
Поделитесь своими выводами объективно.
Не экстраполируйте, будущее захватывающее, но неизвестное.

Множество вопросов в гонке ИИ все еще остаются открытыми (без каламбура). Продуктам генеративного ИИ предстоит преодолеть множество препятствий, прежде чем оправдаются самые смелые надежды и опасения, которые они породили с тех пор, как OpenAI представила ChatGPT в ноябре. И то, и другое, когда речь идет о праве собственности, интеллектуальной собственности, этике и защите — особенно для стартапов, создающих свое основное конкурентное преимущество на основе базовых моделей. Не говоря уже о самой технике. Например. OpenAI и ChatGPT регулярно отключались; проблема связана с техническими проблемами, которые возникают при запуске любого внезапно популярного веб-сайта.

В частности, проблема вычислительной мощности, вероятно, будет определять развитие области и, возможно, самих продуктов. И стоимость вычислений уже влияет на то, какие организации будут влиять на базовые модели и продукты, которые, похоже, будут определять будущее Интернета.

Чтобы поместить вещи в некоторый контекст — OpenAI — который имел доступ к суперкомпьютеру 10 000 Nvidia V100, предоставленному Microsoft при обучении GPT-3 (хотя он не раскрыл точное количество графических процессоров, которые они использовали) — решил не переучивать GPT. -3 после того, как исследователи обнаружили ошибку, потому что это было бы невозможно. Некоторые очень грубые расчеты оценивают стоимость обучения как минимум в 4,6 миллиона долларов (при использовании самого дешевого облачного провайдера GPU), что недоступно для большинства компаний — это без учета затрат на НИОКР, которые легко могут увеличить общую стоимость до + 30 миллионов долларов. Это то, с чем небольшие компании не могут конкурировать.

Пространство данных и AI/ML было подарком, который продолжает дарить как основателям, так и инвесторам. Термин «мегатренд» используется слишком часто, но здесь он определенно применим. Она разыгрывается уже несколько десятилетий и, вероятно, будет продолжаться еще долгое время.

Давайте сделаем шаг назад и отправимся в путешествие по закоулкам памяти в 2018 и 2019 годы.

Совершить путешествие по переулку памяти и посмотреть на слайды, созданные для разных событий в прошлом, может быть либо поучительно, либо стыдно.

Ниже вы найдете слайд из презентации, которую я сделал на мероприятии в 2019 году, описывающую некоторые зимы ИИ, которые мы пережили с 1955 по 2012 год, и предыдущие времена бума, которые мы испытали, например. 1980–1987.

В достижениях НЛП нет ничего особенно нового — даже несмотря на то, что шумиха вокруг ChatGPT создает такое впечатление. Я до сих пор помню огромные успехи, достигнутые в НЛП в 2018 году, и то, каким новаторским было ощущение, когда Google представил в конце 2018 года современную модель большого языка с открытым исходным кодом BERT.

Как упоминалось ранее, в 2017 году Google Transformer, новая нейронная сеть для понимания языка, привнесла значительный прогресс в «современный ИИ». Это изобретение послужило основой для многочисленных фундаментальных моделей, особенно больших языковых моделей, созданных различными компаниями, такими как OpenAI, Stability AI, Hugging Face и т. д. Несмотря на недавний всплеск интереса к программному обеспечению на основе ИИ, тысячи разработчиков неуклонно продвигается в этой области с 2017 года.

В частности, достижения в области НЛП в 2018 и 2019 годах заставили нас почувствовать, что мы достигли переломного момента, который окажет такое же широкомасштабное влияние на НЛП, как предварительно обученные модели ImageNet (например, AlexNet) оказали на компьютерное зрение и глубокое обучение в 2012 году. ». Найдите ниже слайд, который я создал для того же события, что и выше, в 2019 году:

Я написал 3 года назад эту статью, предсказывая, как НЛП продолжит свою победную серию. Что ж, настоящий прорыв для масс наступил почти 3 года спустя, в конце 2022 года, когда OpenAI сделал ChatGPT общедоступным.

Я помню, как я был взволнован, когда Google сделал BERT доступным в 2018 году, и я участвовал в проектах, в которых мы внедрили его в начале 2019 года в рабочие процессы некоторых крупнейших предприятий в странах Северной Европы и Европы.

Я был не менее взволнован в 2020 году, когда OpenAI выпустил GPT-3, и летом 20-го начал искать стартапы, получившие ранний доступ к API GPT-3. Я также хорошо помню, как летом 20-го читал эту запись в блоге Атте Хонкасало из NGP Capital о GPT-3.

БЕРТ — настоящий гангстер LLM

Я могу быть предвзятым здесь, но для меня BERT — это O.G. когда дело доходит до языковых моделей на основе Transformer. BERT расшифровывается как Bidirectional Encoder Representations from Transformers и был открыт Google в 2018 году. Исследователи Google разработали алгоритм для улучшения контекстуального понимания неразмеченного текста в широком диапазоне задач, научившись предсказывать текст, который может появиться до и после (двунаправленного). направленный) другой текст. BERT использует кодировщик, который очень похож на исходный кодировщик Transformer, это означает, что мы можем сказать, что BERT — это модель, основанная на Transformer. Среда машинного обучения BERT была специально обучена на Википедии (~2,5 млрд слов) и корпусе Google Книг (~800 млн слов).

Эти большие информационные наборы данных способствовали глубокому знанию BERT не только английского языка, но и нашего мира. Обучение на таком большом наборе данных заняло некоторое время. Обучение BERT стало возможным благодаря новой архитектуре Transformer, представленной Google в 2017 году и ускоренной за счет использования Tensor Processing Units — пользовательской схемы Google, созданной специально для больших моделей машинного обучения. С ~64 из этих TPU обучение BERT заняло около 4 дней. Для сравнения, OpenAI GPT-3, запущенный в 2020 году, по некоторым оценкам, занял всего «мало» 34 дня.

Чтобы проверить, насколько хорошо языковые модели работают по сравнению с людьми, был использован тест General Language Understanding Evaluation (GLUE), который представляет собой набор ресурсов для обучения, оценки и анализа систем понимания естественного языка. Прогресс в NLP был настолько быстрым в 2018 и 2019 годах, что в течение 13 месяцев пришлось ввести новый тест «SuperGlue» с более сложными языковыми задачами. См. ниже еще один слайд, который я использовал во время выступления на мероприятии в 2019 году:

Наряду с GPT, BERT считается одним из первых предварительно обученных алгоритмов для выполнения задач обработки естественного языка. Предварительно обученные модели, такие как BERT и GPT, демократизировали машинное обучение, позволив даже людям с меньшим техническим образованием научиться создавать приложения на основе машинного обучения без обучения модели с нуля.

Эти модели лишали цели обучения модели с нуля, если только кто-то не был заинтересован в том, чтобы потратить много времени и усилий на ее создание. Вместо этого такие модели, как BERT, можно легко настроить и использовать для требуемых задач — от схожести текста до ответов на вопросы и анализа настроений, и это лишь некоторые из них. Однако появление более продвинутых версий, таких как GPT-3, которые вышли в 2020 году, еще больше упростили работу пользователей, где нужно просто объяснить задачу, и одним щелчком мыши можно создать нужное приложение.

Но когда дело доходит до ChatGPT — сам по себе он не является большим достижением в области ИИ, но он популяризировал некоторые достижения ИИ за последнее десятилетие, которые мы обсуждали.

Под капотом архитектуры GPT, лежащей в основе ChatGPT

Как и другие LLM, ChatGPT прошел обучение на больших и разнообразных источниках данных, таких как новостные статьи, книги, веб-сайты и сообщения в социальных сетях, чтобы изучить модели и структуры языка.

Базовая технология, лежащая в основе ChatGPT, является следующей в серии GPT (Generative Pre-trained Transformers) от OpenAI. Они основаны на революционной архитектуре Transformer, инициированной Google, о которой мы уже упоминали ранее в этой статье. Короче говоря, трансформеры основаны на одной из популярных архитектур нейронных сетей, называемых сетями «кодировщик-декодер», обычно используемыми для языкового моделирования (предсказания следующего слова) или машинного перевода.

Как недавно отметил Дэмиен Бенвенист, автор и основатель Информационного бюллетеня AiEdge и, например, бывший технический руководитель ML в Facebook, построить модель GPT-3 на самом деле тривиально. ~100 строк кода сделают это. Но обучение это совсем другая история и занимает намного больше времени, чем 4 дня обучения BERT в 2018 году. GPT-1, GPT-2 и GPT-3 на самом деле очень похожи с точки зрения архитектуры и различаются в основном по данным и их размер, используемый для обучения, и количество блоков Transformer с количеством поступающих токенов.

GPT-1, обученный с помощью BooksCorpus, — это в основном набор из 12 блоков декодера Transformer, расположенных друг за другом.
GPT-2, обученный с помощью WebText (статьи Reddit), 32 TPU, обучение в течение 1 недели, стоимость 43 000 долларов — имеет в основном ту же архитектуру, что и GPT-1, но вместо этого самая большая модель содержит 48 блоков Transformer. Второй слой нормализации перемещается на первую позицию в блоке, а последний блок содержит дополнительный слой нормализации. Веса инициализируются немного по-другому, а размер словаря увеличивается.
GPT-3, обученный с помощью WebText, Wikipedia, Books1, Books2, имеет ту же архитектуру, что и GPT-2, но количество блоков увеличено до 96 в более крупной модели, а размер контекста (количество последовательных токенов ) увеличился до 2048.

В то время как лежащий в основе алгоритм обучения остается примерно таким же, недавнее увеличение модели и размера данных привело к появлению качественно новых моделей поведения, таких как написание базового кода или решение логических головоломок.

Ниже представлен отличный обзор ChatGPT от Yogesh Kulkarni:

Как работает обучение LLM, например ChatGPT? Алекс Ву дал недавно хорошее резюме.

Обучение модели ChatGPT состоит из двух основных этапов:

Предварительное обучение. На этом этапе мы обучаем модель GPT (только декодер Transformer) на большом фрагменте интернет-данных. Цель состоит в том, чтобы обучить модель, которая может предсказывать будущие слова по заданному предложению таким образом, чтобы это было грамматически правильным и семантически значимым, подобно данным из Интернета. После этапа предварительного обучения модель может заканчивать заданные предложения, но не способна отвечать на вопросы.
Точная настройка. Этот этап представляет собой трехэтапный процесс, который превращает предварительно обученную модель в модель ChatGPT, отвечающую на вопросы:

Соберите обучающие данные (вопросы и ответы) и настройте предварительно обученную модель на основе этих данных. Модель принимает вопрос в качестве входных данных и учится генерировать ответ, аналогичный обучающим данным.
Соберите больше данных (вопрос, несколько ответов) и обучите модель вознаграждения ранжировать эти ответы от наиболее релевантных до наименее релевантных.
Используйте обучение с подкреплением (оптимизация PPO), чтобы настроить модель так, чтобы ответы модели были более точными.

Напоминаем, что очень важно помнить, что ChatGPT использует архитектуры Transformer, предварительно обученные с самоконтролем. Обучение с самоконтролем — это то, за что пионеры глубокого обучения, такие как Янн ЛеКун и Йошуа Бенжио, выступали в течение длительного времени.

Через несколько месяцев GPT-3 существует уже 3 года, и, хотя он привлек множество разработчиков и способствовал впечатляющему успеху таких компаний, как Jasper.ai, его скорость внедрения была ничто по сравнению с невиданной ранее чем-то. как это-до взрыва ChatGPT (5 дней до 1 миллиона пользователей, вы, скорее всего, видели, как диаграммы становятся вирусными в социальных сетях). Большие языковые модели, такие как GPT-3, вызывают значительный интерес из-за их способности обеспечивать впечатляющее завершение пользовательских подсказок (как указано в Нью-Йорк Таймс).

Главный компонент, который сделал ChatGPT таким интересным в использовании и похожим на человека?

Как отметил Лиор Синклер в этой отличной ветке Твиттера (настоятельно рекомендую прочитать ее, независимо от технического образования), первым шагом было настроить GPT-3.5, LLM, лежащий в основе ChatGPT, для разговоров. Они буквально заставляли людей-тренеров ИИ проводить беседы, в которых они играли обе стороны — пользователя и помощника ИИ. Другими словами, они платили людям за болтовню. Как далее отметил Лиор, с моделью, способной генерировать ответы, похожие на человеческие, им нужен был способ сказать ИИ, какой ответ был хорошим или плохим. Чтобы решить эту проблему, они использовали людей (опять же) для ранжирования случайно выбранных ответов, которые выдавал ChatGPT, от лучших к худшим.

Как резюмирует Лиор, рецепт модели ChatGPT таков:

Попросите модель сгенерировать человекоподобный ответ.
Оцените этот ответ моделью.
Пусть модель учится на счете и корректирует ответ, пока не получит пятерку.
Повторите миллион раз, пока не станет точным.

ChatGPT был обучен на огромных объемах данных, собранных из Интернета и других источников до 2021 года, с помощью обучения с подкреплением на основе отзывов людей (RLHF):

Сначала он демонстрирует данные от людей и обучает контролируемую политику;
Следующим шагом является запуск модели и предоставление людям возможности вручную ранжировать (маркировать) качество результатов, полученных моделью, от лучшего к худшему, а затем собрать эти новые данные обратной связи для обучения модели вознаграждения;
Затем используйте алгоритм обучения с подкреплением (Proximal Policy Optimization или PPO) для оптимизации политики путем обучения модели модели вознаграждения (ключевые этапы RLHF).

Подводя итоги, модели GPT представляют собой сочетание простого алгоритма, больших объемов данных и чистой вычислительной мощности. Их тренируют, постоянно играя с собой в игру «угадай следующее слово». Модель анализирует неполное предложение и предсказывает следующее слово. Если все верно, он корректирует свои параметры для повышения уверенности. Если он неверен, он учится на ошибках и улучшает свои прогнозы в будущем.

Другие игроки на рынке LLM, кроме OpenAI (их много)

«Партнерство Microsoft с OpenAI, возможно, стало одним из самых успешных рекламных ходов за всю историю. Нынешнее мнение непрофессионала состоит в том, что ничто не может конкурировать с ChatGPT с точки зрения генеративного ИИ для текста».

Выше отличная цитата из Damien Benevist.

Однако, как недавно заметил Ян ЛеКун, с точки зрения лежащих в основе методов ChatGPT не является особенно инновационным. Даже Сэм Альтман недавно отметил, как он был удивлен тем, что никто не создавал ChatGPT до OpenAI:

«У нас была модель для ChatGPT в API за 10 месяцев до того, как мы сделали ChatGPT… Я как бы думал, что кто-то (другой) просто ее создаст».

По мере того, как ажиотаж вокруг ChatGPT и генеративного ИИ немного утихает, мы можем начать вести более трезвый диалог о LLM. Представление об единственности OpenAI в своем роде деятельности очень неточно и вызвано ажиотажем.

OpenAI не особенно продвинут по сравнению с другими лабораториями. Это не только Google и Meta, но и полдюжины стартапов, которые в основном имеют очень похожие технологии. Например. Anthropic, стартап в области искусственного интеллекта, соучредителем которого являются бывшие сотрудники OpenAI, незаметно приступил к тестированию нового помощника по искусственному интеллекту, похожего на ChatGPT, по имени Клод. Ходят слухи, что Anthropic близок к тому, чтобы привлечь около 300 миллионов долларов нового финансирования, что является последним признаком лихорадочного энтузиазма для нового класса стартапов в области искусственного интеллекта. Сделка может оценить Anthropic примерно в 5 миллиардов долларов. Стартап, основанный в 2021 году, ранее привлек $704 млн при оценке в $4 млрд.

Антропный — лишь один из примеров.

Возьмем, к примеру, HuggingFace, библиотеку предварительно обученных трансформеров с открытым исходным кодом, которую разработчики могут настраивать для различных приложений в производственной среде (например, для классификации и генерации текста) — это один из самых быстрорастущих проектов с открытым исходным кодом в истории.

Ходят слухи, что Google Deepminds Chinchilla работает лучше, чем движок ChatGPT, GPT-3. У этого списка нет конца. Также ходят слухи, что китайский поисковый гигант Baidu запустит бота в стиле ChatGPT в марте.

Google только что сделал свою модель LaMBDA доступной через закрытую бета-версию на своей тестовой кухне ИИ. LaMDA (языковая модель для диалоговых приложений) построена путем точной настройки нейронных языковых моделей на основе Transformer, специализированных для диалога, с параметрами модели 135B. Записаться в лист ожидания можно здесь.

Поскольку LaMDA был обучен человеческому диалогу и историям, а не тексту, он отличается от других языковых моделей и может неформально общаться в открытых беседах. Это все еще не подтверждено, но ходят слухи, что он обучен на данных без отсечки (у ChatGPT есть отсечка на наборе данных 2021 года).

Дэмиен Беневист написал отличный пост о прямых конкурентах ChatGPT с точки зрения генеративного ИИ для текста.

Вот отличное резюме Дэмиена о PEER от Meta, LaMDA от Google и PaLM от Google — все несколько избранных конкурентов ChatGPT:

PEER от Meta AI — язык, обученный имитировать процесс письма. Он обучен на данных истории редактирования Википедии. Он специализируется на прогнозировании правок и объяснении причин этих правок. Он способен цитировать и цитировать справочные документы для подтверждения утверждений, которые он генерирует. Это преобразователь параметров 11B с типичной архитектурой кодер-декодер, и он превосходит GPT-3 в задаче, на которой он специализируется.
LaMDA от Google AI — языковая модель, обученная диалоговым приложениям. Он предварительно обучен на ~3 млрд документов и ~1 млрд диалогов и точно настроен на данных, сгенерированных человеком, чтобы улучшить качество, безопасность и достоверность сгенерированного текста. Он также точно настроен, чтобы научиться вызывать внешнюю систему поиска информации, такую как Google Search, калькулятор и переводчик, что делает его потенциально более сильным кандидатом на замену Google Search, чем ChatGPT. Это трансформатор только для декодера параметров 135B.
PaLM by Google AI — самый большой из всех с параметрами 540B! Прорывные возможности в арифметике и рассуждениях на основе здравого смысла. Он обучен на 780 миллиардах токенов, полученных из многоязычных разговоров в социальных сетях, отфильтрованных многоязычных веб-страниц, книг, репозитория GitHub, многоязычной Википедии и новостей.

Вы помните, когда Блейк Лемуан был уволен из Google в 2022 году, когда он слил информацию о модели LaMDA, потому что считал ее разумной? Google нечего бояться, когда речь заходит об актуальности исследований в области генерации текста, LLM и базовых моделей ИИ в целом.

Например. полагать, что все сообщения о том, что Google полностью разрушен ChatGPT и OpenAI, немного наивно, если не сказать больше. Нам следует перестать утверждать, что ChatGPT уничтожит поисковую систему Google — если и есть организация, которая знает LLM и как запустить их в производство, то это Google.

Чтение этого резюме от Google действительно демонстрирует их чрезвычайное превосходство как в широте, так и в глубине, которые они имели и продолжают иметь в таких областях, как НЛП, компьютерное зрение, мультимодальные, генеративные модели и, не в последнюю очередь, в том, как применять ИИ. ответственно. Вот интересная статья о том, как большие технологии осторожно двигались в сторону ИИ — затем появился ChatGPT.

С другой стороны, некоторые утверждают, что BLOOM — самая важная модель ИИ десятилетия. Почему? BLOOM (BigScience Language Open-science Open-access Multilingual) уникален не потому, что он архитектурно отличается от GPT-3 — он на самом деле наиболее похож из всех вышеперечисленных, также являясь моделью на основе трансформатора с параметрами 176B (GPT-3 имеет 175B ) — но потому, что это отправная точка социально-политического сдвига парадигмы в области ИИ, который определит ближайшие годы в этой области — и сломает мертвую хватку крупных технологий в исследованиях и разработках больших языковых моделей (LLM).

Основная цель этого раздела не в том, чтобы проанализировать, какая модель является самой важной, а в том, чтобы подчеркнуть, что GPT-3 и другие — далеко не единственные дети в этом блоке:

Выстрелы, выстрелы, выстрелы…

LLM, такие как GPT-3, должны быть в состоянии конкурировать со специализированными моделями во многих задачах обработки естественного языка без тонкой настройки, что называется обучением с нулевым выстрелом. Вот интересный тест, в котором рассматриваются четыре задачи: извлечение ключевых слов, анализ тональности, определение языка и перевод в сравнении с современными проприетарными моделями разных компаний, таких как Google, Amazon, Microsoft, DeepL и т. д.

Что мы подразумеваем под тренировочной установкой с нулевым выстрелом?

Настройка с несколькими выстрелами аналогична обучению модели машинного обучения, где предоставляются пары входных и выходных данных, чтобы модель могла работать с невидимыми входными данными. Однако, в отличие от обычных алгоритмов ML, модель не обновляет свои веса, а вместо этого делает выводы на основе нескольких примеров, которые она видела.
Однократная настройка аналогична настройке нескольких попыток, но модели дается только один пример вместе с контекстом задачи.
Настройка нулевого выстрела – это когда предоставляется только контекст задачи, а примеры или демонстрации не приводятся. Эта настройка может быть сложной даже для людей, поскольку понимание задачи без какого-либо контекста может быть затруднено.

Поскольку GPT-3 и многие другие модели предварительно обучены, это означает, что они должны быть готовы к использованию в основном с обучением с «нулевым выстрелом» (хотя обучение с «несколько выстрелов» может значительно улучшить его производительность за счет обратной связи). ).

В чем преуспел OpenAI при запуске ChatGPT

Итак, в чем действительно преуспел OpenAI, когда дело доходит до ChatGPT? В каком-то смысле это история о проектировании, доставке и UX — вот почему она стала вирусной. Короче говоря, главное нововведение ChatGPT — это пользовательский интерфейс и простота взаимодействия с ним. Это может показаться странным, поскольку в ChatGPT как таковом нет ничего инновационного, а чат-боты исторически не имели очень хорошей репутации (мягко говоря). Но, как мы теперь знаем сегодня, сочетание пользовательского интерфейса, с которым легко начать работу для любого непрофессионала, и мощности GPT-3/3.5 позволило ChatGPT стремительно вырасти до 1 миллиона пользователей за 5 дней.

И не поймите меня неправильно, я твердо верю, что отличный дизайн и UX являются абсолютными ключевыми компонентами любого стартапа сегодня и ключевым отличием, на которое обращают внимание опытные инвесторы — так что большое спасибо OpenAI за это.

Я часто сравниваю то, что ChatGPT сделал для ИИ, с тем, что Tesla сделала для рынка электромобилей. Tesla, безусловно, была не первой, кто производил современные электромобили, и уж точно не единственной, кто производит передовые электромобили сегодня или завтра. Но Tesla действительно принесла электромобили в массы и подтолкнула весь автомобильный рынок к пропасти, когда дело доходит до электромобилей. То же самое касается ChatGPT; он действительно принес возможности ИИ в массы — хотя и не был первым, кто создал современные LLM, и уж точно не единственным, когда мы движемся вперед.

Куда мы движемся с точки зрения инвестора?

Я считаю, что мы еще не достигли пика этого цикла ажиотажа вокруг ИИ, который начался для масс в конце 2022 года через ChatGPT, поскольку быстрый темп инноваций и ожидаемый выпуск GPT-4, вероятно, вызовут дальнейшее волнение.

Хотя отчасти этот энтузиазм может быть оправдан, вероятно, будет и значительное количество спекуляций. Я предполагаю, что инвестиции в ИИ будут иметь низкий уровень успеха в краткосрочной и среднесрочной перспективе, в первую очередь потому, что инвесторы изо всех сил пытаются понять, как компании, использующие генеративный ИИ, могут создать устойчивые конкурентные преимущества. Это в дополнение к большому количеству венчурных капиталистов, не имеющих опыта работы с ИИ, которые подхватили ажиотаж.

Многие из наиболее успешных и хорошо финансируемых компаний в этом секторе в значительной степени полагаются на общедоступные базовые модели, и выпуск ChatGPT высветил риски, связанные с этим подходом. Например, до того, как OpenAI выпустила ChatGPT, Jasper.ai привлек более 130 миллионов долларов инвестиций менее чем за два года работы без явного технологического преимущества.

Однако с введением ChatGPT Jasper и его конкурентам теперь приходится конкурировать с более продвинутой, широко доступной и бесплатной альтернативой. В результате Jasper пришлось разработать собственный интерфейс чат-бота. Хотя у многих успешных компаний нет технологического преимущества, у них могут быть другие формы защиты, такие как преимущества дистрибуции и сетевые эффекты, и таким компаниям, как Jasper, будет крайне важно выявить и извлечь выгоду из этих возможностей.

В целом, я буду уделять пристальное внимание тому, как венчурные капиталисты оценивают и инвестируют в стартапы с высоким потенциалом, но неустойчивыми бизнес-моделями, а также тому, какие стратегии и тактики окажутся успешными в этой области.

Когда дело доходит до разработки данных и аналитики, я ожидаю, что венчурные капиталисты будут инвестировать в ИИ для написания SQL, сюжетная линия слишком хороша, чтобы многие инвесторы могли отказаться от нее. Будет ли это действительно работать? Посмотрим, я честно не уверен. Вот интересная запись в блоге, в которой проверяется, может ли ChatGPT писать SQL лучше, чем аналитик данных. Однако, как отметил Патрик Лю Тран, одним действительно интересным вариантом использования ChatGPT и аналогичных типов моделей является извлечение полуструктурированных данных из неструктурированных данных. Исследования показали, что где-то около 80% данных в любой организации неструктурированы — причина, по которой компании, например. использовать хранилища объектов.

Как упоминалось ранее, данные и пространство AI/ML были подарком, который продолжает приносить как основателям, так и инвесторам. Термин «мегатренд» используется слишком часто, но здесь он применим. Тенденции в области облачных вычислений, данных и искусственного интеллекта/машинного обучения проявляются уже несколько десятилетий и будут продолжаться еще долгое время.

Многие варианты использования корпоративного AI/ML до сих пор тяготели к структурированным табличным данным (где по-прежнему большая ценность заключается в впечатляющем ROI). Однако следующая волна тяготеет к неструктурированным данным, таким как компьютерное зрение, НЛП и т. д., которые все еще находятся в зачаточном состоянии на многих предприятиях. Однако это не означает, что варианты использования с высокой рентабельностью, использующие древовидные модели или XGboost для прогнозирования ИИ на табличных данных, специфичных для бизнеса, исчезнут!

О GPT-4 ходит много некачественных слухов из-за общего ажиотажа вокруг ChatGPT.

Я настоятельно рекомендую прочитать эту ветку Твиттера Мэтью Барнетта, чтобы узнать больше об этой теме. Будет ли GPT-4 иметь 100 триллионов параметров? Скорее всего, нет, как подчеркивает Мэтью с помощью отличных раскопок и расчетов.

Уже неоднократно говорилось, что они не собираются его так сильно увеличивать, а улучшать фактические параметры. Слух о 100 триллионах параметров был даже частично развенчан генеральным директором OpenAI Сэмом Альтманом в этом твите.

О параметрах речь не пойдет — у ГПТ-4, скорее всего, будет более эффективная система. Например. одна из проблем со 100 триллионами параметров заключается в том, что это будет стоить руки и ноги за вывод, а с текущими данными, скорее всего, будет переоснащение и низкое качество.

Кроме того, обучение будет стоить слишком дорого. А улучшения приходят так быстро, что нет смысла тратить столько на обучение такой большой модели.

Я был бы удивлен, если GPT-4 превысит 10 триллионов параметров, вероятно, это будет намного меньше. Судя по показаниям, маловероятно, что GPT-4 будет иметь более 1 триллиона параметров. И если это произойдет, мы должны ожидать, что это будет чуть более 1 триллиона. Скорее всего, GPT-4 по размеру параметров будет сравним с GPT-3 (у которого было 175 миллиардов параметров). На самом деле я не удивлюсь, если он будет меньше, чем GPT-3.

Основываясь на том, как долго они обучали другие модели, OpenAI, вероятно, будет обучать GPT-4 в течение 6–12 месяцев. Например. их модель OpenAI Five тренировалась более 10 месяцев.

Обучение GPT-3.5, на котором построен ChatGPT, было завершено в начале 2022 года. Поскольку GPT-4 можно обучать до 12 месяцев, и им, вероятно, потребуется его тонкая настройка и тестирование, можно предположить, что мы ищем увидеть его в действии в первой половине 2023 года.

Производительность не равна количеству параметров. Например. Языковая модель Google Deepminds Chinchilla имеет всего 70B параметров и утверждается, что превосходит GPT-3. Chinchilla обучается на в 4 раза больше данных, чем предыдущий лидер в больших языковых моделях, Gopher (также созданный DeepMind), и, согласно исследованиям, Chinchilla превосходит, например, ГПТ-3.

Кроме того, меньший размер Chinchilla делает его более экономичным для вывода и тонкой настройки, позволяя использовать эти модели в сценариях, где финансовые и аппаратные ограничения могут быть проблемой. Преимущества меньшей, лучше обученной модели выходят за рамки простого повышения производительности.

Суть в том, что современные модели больших языков, по-видимому, значительно недотренированы из-за того, что исследователи слепо следуют гипотезе масштабирования. Таким образом, основное внимание следует сместить на увеличение количества хороших обучающих данных, чтобы повысить производительность.

Основной урок: производительность модели снова сводится к *хорошим* данным для обучения модели и эффективным циклам обратной связи (с использованием обучения с подкреплением).

LLM и фундаментальные модели — последствия для стартапов и венчурных капиталистов

Какие стартапы добьются успеха в грядущую эру, определяемую LLM и моделями основ, такими как GPT? Как отмечает Andre Retterah, стек генеративного ИИ можно разделить на 4 разных уровня:

1. Прикладной уровень. Вертикальные или специализированные продукты, готовые к использованию клиентами. Самые низкие входные барьеры. Ключевыми факторами являются устойчивая дифференциация, превосходство продукта и превосходное исполнение для выхода на рынок.

2. Средний уровень. Снижает трение для создания масштабируемых приложений поверх базовых моделей. Наименее зрелый, но обладает большим потенциалом а-ля «перетасовка для золотой лихорадки».

3. Уровень базовой модели: LLM прошли обучение с набором данных об инфраструктуре и при появлении запроса возвращают результаты контекстуального логического вывода. Высокие входные барьеры и схожая с рынком облачных вычислений динамика с принципом «немногие берут все».

4. Уровень инфраструктуры: требуется для обучения и создания логических выводов. Важно для низкоуровневой оптимизации модели. Высокие входные барьеры из-за дефицита и стоимости графических процессоров.

Каким бы предвзятым он ни был, как генеральный директор OpenAI Сэм Альтман видит это развитие событий?

Как видно из этой беседы у камина с Ридом Хоффманом, когда дело доходит до уровня базовой модели, он считает, что компания, которая пытается создать свою собственную LLM с нуля, вряд ли добьется успеха — вероятно, потому, что это будет слишком дорого. запретительно и ненужно создавать эти модели, когда они доступны с полки. В современном мире это похоже на создание собственного центра обработки данных, когда AWS, GCP и Azure уже доступны.

Прикладной уровень — это класс, который, по мнению Альтмана, будет недолговечным в качестве вызывающих API. Эти компании используют готовые модели класса GPT для своих приложений. В ванильном вызове GPT нет ни технологического рва, ни создания превосходной ценности для потребителя. Эти компании будут расти и исчезать, если они не найдут способ стать компанией среднего уровня.

А средний слой? Что ж, это тот уровень, в отношении которого Сэм больше всего оптимистичен (и на удивление хорошо сочетается с коммерческой моделью OpenAI), и где он видит стартапы, которые будут иметь огромный успех.

Итак, что такое компания «среднего уровня» и что нужно, чтобы ею стать?

Компания среднего уровня состоит из нескольких ключевых компонентов.

1. Уникальный набор данных

2. Мощный AI/ML и инфраструктура данных

3. Редкий талант обучать моделей

Такая компания сможет взять модели класса GPT и повысить эффективность этих моделей для своей вертикали — например, медицины, кодирования, маркетинга, права или бухгалтерского учета.

Эта структура от Эвана Армстронга охватывает общие основы технологий, лежащих в основе сегодняшних приложений:

Вычислительные технологии позволяют компаниям, занимающимся исследованиями базовых моделей, которые обучают свои модели на огромных объемах данных, предоставлять предварительно обученную модель Transformer разработчикам приложений. Эти разработчики приложений могут выбрать точную настройку модели с использованием данных, специфичных для предметной области, чтобы получить более высокую производительность для конкретных приложений, которые служат точками доступа к ИИ для населения в целом.

Кроме того, мы видим два подхода к распространению алгоритма/основной модели машинного обучения: с закрытым исходным кодом и с открытым исходным кодом. Мы все чаще видим, как алгоритмы превращаются в товар, что снижает защищенность моделей с закрытым исходным кодом, предлагаемых в качестве API.

В последние годы мы стали свидетелями кембрийского взрыва основных текстовых моделей ИИ — как с открытым исходным кодом, так и с частными/закрытыми:

Кроме того, управление затратами имеет решающее значение для эффективного использования больших языковых моделей, таких как GPT-3 и ChatGPT. Ценообразование обычно определяется количеством токенов, отправленных модели (и полученных от нее). Вот отличный пост в блоге от CodiumAI на эту тему.

Рвы и защита для стартапов в эпоху LLM и базовых моделей

Одной из областей, которую я серьезно рассматривал при рассмотрении стартапов, получивших ранний доступ к GPT-3 в 2020 году, была защита.

Как отмечает Мадрона, перед основателями и разработчиками стартапов стоит непривлекательный выбор: легко построить, но сложно защитить — или наоборот. В первом варианте базовые модели позволяют разработчикам создавать приложения за выходные или за считанные минуты, на что раньше уходили месяцы. Но разработчики ограничены готовыми возможностями этих проприетарных моделей, которые могут использовать и другие разработчики, а это означает, что разработчики должны проявлять творческий подход, чтобы найти источник дифференциации. Во втором варианте разработчики могут расширить возможности архитектур моделей с открытым исходным кодом, чтобы создать что-то новое и защищенное. Но это требует галактического уровня технической подготовки, которой обладают очень немногие команды. Это противоположно направлению, в котором мы должны двигаться как отрасли — нам нужно больше власти в большем количестве рук, а не даже большая концентрация.

Как заключил Андреессен Горовиц в недавней статье, сегодня в генеративном ИИ не существует никаких системных рвов. В первом приближении приложениям не хватает сильной дифференциации продуктов, поскольку они используют схожие модели; модели сталкиваются с нечеткой долгосрочной дифференциацией, поскольку они обучаются на аналогичных наборах данных с аналогичной архитектурой; поставщикам облачных услуг не хватает глубокой технической дифференциации, поскольку они используют одни и те же графические процессоры; и даже производители аппаратного обеспечения производят свои чипы на одних и тех же фабриках.

В своем анализе Андреессен Горовиц делит стек генеративного ИИ на три уровня:

Приложения, которые интегрируют модели генеративного ИИ в ориентированный на пользователя продукт, либо используют собственные конвейеры моделей («сквозные приложения»), либо полагаются на сторонний API.
Модели, на которых основаны продукты ИИ, доступны либо в виде проприетарных API, либо в виде контрольных точек с открытым исходным кодом (для которых, в свою очередь, требуется хостинговое решение).
Поставщики инфраструктуры (т. е. облачные платформы и производители оборудования), которые выполняют учебные и логические рабочие нагрузки для генеративных моделей ИИ.

В конце прошлого года я наткнулся на очень интересную статью Дэна Шиппера. В нем Дэн отмечает, что у стартапов, строящих инфраструктуру на основе существующих моделей фундамента, могут возникнуть проблемы. Дэн подробно рассказывает о том, как точно настроенный продукт на моделях текущего поколения будет мгновенно превосходить не доработанные модели следующего поколения. Дэн отмечает, что лучше сэкономить деньги и подождать, чем строить замок из песка поверх существующих технологий. Дэн также рекомендует прочитать эту статью Эвана Армстронга.

Как говорит Эван, ИИ во многих отношениях занимается маркетингом газа. Люди жаждут продуктов, которые могут выполнять задачи, помогающие им в их вертикальных сценариях использования. Тем не менее, победители чаще всего будут определяться вопросами о программном обеспечении и UX, а не об искусственном интеллекте. Конечные точки, продающие услуги ИИ, должны будут либо полностью владеть отлаженными моделями, либо конкурировать по типичным атрибутам стартапа SaaS.

Здесь мы возвращаемся к реальности того, что дизайн продукта и пользовательский опыт являются ключевыми факторами. Цитируя Кристофа Янца, вертикальные SaaS-стартапы обычно выигрывают благодаря:

Более глубокое понимание клиентов в своей отрасли
Решение их конкретных проблем самым лучшим образом
Маркетинг/продажа исключительно узкому сегменту компаний
Со временем добавляйте больше уровней функциональности, увеличивая ACV и липкость.

Используется ли ИИ для разработчиков и работы с данными?

Одна повторяющаяся тема, которую я видел в социальных сетях, — это замена LLM, например. инженеры по программному обеспечению или данным. На мой взгляд, LLM, такие как ChatGPT, изначально не заменят какие-либо рабочие места, связанные с программными данными.

Можно подумать, что ChatGPT может писать шаблонный код быстрее и, по-видимому, лучше, чем некоторые программисты. Так заменит ли он инженеров-программистов в ближайшее время? Как говорит Клемент Михайлеску: нет.

Например. ChatGPT кажется скорее помощником, чем реальным работником. Это поможет пользователям получать подсказки, код и общую информацию быстрее, чем копаться, например. Stack Overflow или просто погуглите что-нибудь, и в некоторых случаях это может быть даже более полезным и персонализированным.

Я думаю, что в течение следующих 5–10 лет можно будет просто ожидать, что вы сможете выполнять больше работы, используя такие инструменты, как ChatGPT. Таким образом, производительность теоретически должна повышаться за более короткое время. Как отмечает Джейсон Уорнер из Redpoint Ventures (бывший технический директор GitHub), ИИ не претендует на место разработчиков. Но характер работы определенно меняется — точно так же, как он менялся в 80-х, 90-х, 2000-х и т. д. Copilot был одним из последних проектов, которые Джейсон вынашивал на GitHub. Вся идея Copilot заключалась в расширении возможностей разработчиков — не в том, чтобы заменить их, а в том, чтобы дать разработчикам сверхспособности, чтобы они стали более эффективными.

Мне нравится, как Джейсон сравнивает второго пилота с костюмом Ironman для разработчиков, а не с дроидом. Есть элементы суждения и вкуса, которые нельзя отнять у людей в непредвиденном будущем. Вместо того, чтобы заменять разработчиков программного обеспечения или данных, LLM, такие как ChatGPT, будут служить для них удивительным инструментом улучшения качества жизни, помогая им выполнять определенные задачи программирования намного быстрее.

Кроме того, я слышу, как все больше и больше инженеров-программистов расходятся в использовании таких инструментов, как Copilot, из-за рисков интеллектуальной собственности. Событие Microsoft недавно предупредила сотрудников о недопустимости обмена конфиденциальными данными с ChatGPT. Аналогичное руководство недавно выпустила Amazon. Утечка внутренних сообщений показала, что технический директор Microsoft предостерег сотрудников от обмена конфиденциальными данными на случай, если они будут использованы для будущих моделей обучения ИИ.

Утечка внутренних сообщений показала, что офис технического директора Microsoft сказал сотрудникам, что использование ChatGPT в порядке. Но он предостерег от обмена конфиденциальными данными, если они будут использоваться для будущих моделей обучения ИИ.

Если компания хочет заменить рабочие места с помощью таких инструментов, как ChatGPT, я твердо уверен, что качество их данных должно быть более чем первоклассным, чтобы это было реалистично в каком-либо смысле. Это нереально для 99,99% компаний в ближайшей или среднесрочной перспективе.

Интересно, что инженеры-программисты все больше вовлекаются в машинное обучение — новое направление в AI/ML. Как упомянула Астасия Майерс, это связано с тем, что базовые модели снижают барьер для построения моделей ML и представляют собой более высокий уровень абстракции, и мы впервые видим, как разработчики программного обеспечения становятся частью процесса разработки ML.

Не все зависит от LLM — разрыв в данных увеличивается

Появление моделей фундаментов и LLM — это значительный сдвиг для масс прямо сейчас. Впоследствии это может привести к разрыву данных.

Вот отличный пост Александра Ратнера, предсказывающий, как будет увеличиваться разрыв между генеративным и предиктивным ИИ.

Почему? Все сводится к данным.

Как отмечает Александер, из-за этого пробела в данных прогнозный ИИ застрянет, в то время как генеративный ИИ ускорится в 2023 году. Однако наиболее ценный ИИ по-прежнему будет прогнозирующим.

Правда в том, что не все сводится к созданию текста или изображений. На самом деле многие высокоэффективные AI/ML по-прежнему будут предсказывать использование табличных наборов данных. Большинство вариантов использования ИИ в бизнесе по-прежнему выполняются с использованием проприетарных табличных бизнес-данных.

График ниже взят из статьи от 22 июля, в которой рассматривались 45 наборов данных среднего размера и было обнаружено, что древовидные модели (XGBoost и случайные леса) по-прежнему превосходят глубокие нейронные сети на табличных наборах данных. Найдите бумагу здесь.

Несмотря на инновации продуктов и бизнес-моделей в генеративном ИИ, реальная окупаемость инвестиций также по-прежнему постоянно сосредоточена на интеллектуальном ИИ с использованием табличных наборов данных, что часто приводит к разочаровывающим результатам.

Почему? Все сводится к данным, а не к моделям AI/ML как таковым.

Для достижения производительности, необходимой для развертывания предиктивного машинного обучения, требуются высококачественные и хорошо размеченные данные для каждого варианта использования и контекста. Построение предиктивных моделей машинного обучения поверх базовых моделей генеративного ИИ может помочь, но, например, не поможет. решить проблему качества данных, которая часто приводит к неутешительным результатам и неудачным инициативам AI/ML. Основы просто не могут быть удалены. модели фундамента могут быть дополнением, а не заменой.

Я часто использовал эту цитату Чада Сандерсона, но она точно в точку:

«Без высококачественных данных каждая инициатива AI/ML будет в лучшем случае не впечатлять, а в худшем – активно наносить ущерб бизнесу».

Будьте в восторге от генеративного ИИ и базовых моделей, но никогда не забывайте об основах. В 2010-х годах облачные инфраструктуры позволили целому поколению компаний строить и масштабировать свой бизнес. В этом десятилетии облачная инфраструктура — это ставка на стол, а дифференциация компании зависит от данных, аналитики и AI/ML (именно в таком порядке).

Как мудро сказал Чип Хьюен:

Алгоритмы машинного обучения не предсказывают будущее, а кодируют прошлое, сохраняя предвзятость в данных и многое другое.

Сама модель на самом деле является крошечной частью запуска продукта или услуги ML и их развертывания таким образом, чтобы они приносили реальную ценность для бизнеса.

Как подчеркнул Ауримас Грицюнас, жизненный цикл данных в системах ML/AI начинается с конвейеров обработки данных; мы должны уделять непропорционально большое внимание обеспечению бесперебойной работы конвейеров обработки данных и предотвращению любых проблем с качеством данных на последующих этапах. Любая проблема в потоке обработки данных будет умножаться каждый раз, когда она не будет устранена и продвинется на один шаг вперед в цепочке создания ценности данных.

Сосредоточьтесь на качестве своих данных, именно здесь вы получите самое значительное преимущество в AI/ML.

Последние мысли

Мы все должны быть в восторге от ИИ и LLM. Мы вступаем в эру программного обеспечения, ориентированного на ИИ, которое может создать суперцикл возможностей и прорывов в программном обеспечении, невиданный со времен мобильных и облачных технологий. Одна захватывающая часть обсуждения ChatGPT (и больших языковых моделей в целом) заключается в том, как они собираются перейти от впечатляющей новизны к встраиванию в повседневные рабочие процессы предприятия.

Возможности общих больших языковых моделей начинают создавать ценность, но большая часть ценности таких моделей будет создаваться для специализированных вариантов использования с использованием специализированных данных.

Как отмечает Bessemer Venture Partners, по мере совершенствования LLM мы наблюдаем продвижение к последующим задачам и мультимодальным моделям. Это модели, которые могут принимать несколько различных модальностей ввода (например, изображение, текст, аудио) и создавать выходные данные различных модальностей. Это мало чем отличается от человеческого познания; ребенок, читающий книжку с картинками, использует как текст, так и иллюстрации для визуализации истории.

Полезно помнить, что ChatGPT — это далеко не самый впечатляющий прогресс, происходящий в области ИИ, и что мы все еще находимся в самом начале волны ИИ.

Выбирать победителей и проигравших на столь раннем этапе базовой модели и пространства генеративного ИИ может быть глупой затеей. Бешеный темп инноваций может по-прежнему способствовать появлению новых стартапов и масштабной конкуренции с крупными лабораториями искусственного интеллекта. Нелегко, но, безусловно, возможно с тем объемом капитала, который гонится за этим рынком.

PS. В заключение этого раздела я недавно наткнулся на эту действительно интересную статью, в которой показано, как текст, сгенерированный LLM, может быть обнаружен путем встраивания сигналов, которые невидимы для людей, но обнаруживаются алгоритмически. По сути, это структура водяных знаков для языковых моделей. Кажется, что он достигает 99% уверенности в 23 словах.