Что произошло на этой неделе в AI by Louie

На прошлой неделе в AI доминировал внезапный выпуск GPT-4 от OpenAI. Мы отмечаем 4 ключевых области улучшения GPT-4 по сравнению с GPT-3.5; 1) Мультимодальность. Наиболее заметным изменением в новой модели является ее мультимодальность. В то время как ChatGPT и GPT-3 были ограничены текстом, GPT-4 может обрабатывать изображения для поиска нужной информации. 2) Увеличенная длина токена. Максимальное количество токенов в GPT-4 составляет 32 768, что соответствует примерно 25 000 слов, тогда как ограничение в GPT-3.5 и старой версии ChatGPT составляло 4 096 токенов. 3) Расширенные возможности — особенно в отношении логических рассуждений и результатов различных тестов, 4) Повышенная точность и управляемость; OpenAi измерил, что на 82% меньше вероятность отвечать на запросы о запрещенном контенте и на 40% больше вероятность давать фактические ответы.

Одним из разногласий, связанных с выпуском GPT-4, было отсутствие технических деталей реализации модели, включая обучающие токены, параметры модели и использование вычислений. Кажется, мы можем вступить в эпоху меньшей прозрачности, связанной с современными выпусками LLM, поскольку они все чаще становятся коммерческими продуктами (и также все более вероятно, что они будут быстро скопированы как коммерческими конкурентами, так и проектами с открытым исходным кодом). В какой-то степени это понятно, учитывая количество ресурсов, затраченных на создание этих моделей, как человеческих, так и вычислительных затрат. (OpenAI отметил более 800 участников модели) Учитывая отсутствие информации о размере модели — это открывает вопрос для предположений (часто крайне неточных). Мы добавим к этому иллюстративное упражнение для оценки потребностей в вычислительных ресурсах и стоимости обучения для потенциального LLM следующего поколения, расширяющего границы существующих ресурсов.

  1. Цена завершения на GPT-4 (версия с длиной контекста 8 КБ) составляет 3x GPT-3 Da-Vinci (длина контекста 4 КБ).
  2. Давайте предположим, что более высокая цена в 1,5 раза зависит от длины контекста и в 2 раза от размера модели.
  3. Это приведет к тому, что API GPT-4 будет иметь в 2 раза больше параметров, чем GPT-3, или эквивалентно примерно 350 миллиардам параметров.
  4. Но GPT-3-Turbo недавно был снижен в цене в 10 раз по сравнению с GPT-3 Da-vinci — это, вероятно, связано с тем, что OpenAI использует такие методы, как разреженность, сокращение и дистилляция модели для снижения затрат на вывод.
  5. Итак, если мы предположим, что аналогичные методы применялись к начальной модели GPT-4 — возможно, первоначальная GPT-4 была обучена примерно 1 триллиону параметров.
  6. Если бы изначально было 1 триллион параметров, то оптимальные обучающие токены (согласно статье Deepmind Chinchilla) составили бы 21 триллион (15x Chinchilla и 70x GPT-3). Здесь мы предупредим, что очень неясно, мог ли OpenAI найти столько полезных данных даже с мультимодальным модальным окном.
  7. Но для наглядности модель с 1 триллионом параметров и 21 триллионом обучающих токенов потребовала бы для обучения 20 000 графических процессоров Nvidia A100 около 400–500 дней, что привело бы к затратам на обучение в размере 200–300 миллионов долларов.

OpenAI (через Microsoft Azure), вероятно, имеет доступ к такому большому объему вычислений (хотя многие графические процессоры теперь должны быть отложены для вывода для таких продуктов, как ChatGPT) — и инвестиции такого размера кажутся осуществимыми, учитывая сумму, собранную OpenAI, и потенциал для сектор. Тем не менее, неясно, возможно ли масштабирование модели до такого размера так скоро (особенно данные обучения), и мы не удивимся, если фактический GPT-4 будет где-то в диапазоне 40–400 дней обучения на эквиваленте 20 000 A100. и стоимость вычислений от 20 до 300 миллионов долларов.

Луи Питерс, соучредитель и генеральный директор компании Towards AI

Горячие новости

  1. ГПТ-4 отсутствует

GPT-4 — это большая мультимодальная модель, способная принимать на вход как изображения, так и текст, а также выдавать текстовые выходные данные. Он продемонстрировал производительность на уровне человека в различных профессиональных и академических тестах и ​​может обрабатывать более 25 000 слов текста. В настоящее время пользователи могут протестировать GPT-4 с помощью ChatGPT Plus или зарегистрироваться в списке ожидания API.

2. Microsoft анонсировала Microsoft 365 Copilot

Microsoft анонсировала Microsoft 365 Copilot, которая сочетает в себе возможности больших языковых моделей (LLM) с данными из Microsoft Graph. Сюда входят ваш календарь, электронные письма, чаты, документы и собрания, а также приложения Microsoft 365, такие как Word, Excel, PowerPoint, Outlook, Teams и другие.

3. Вышел PyTorch 2.0

Фонд PyTorch сделал PyTorch 2.0 общедоступным после нескольких месяцев предварительной версии. В эту версию внесли вклад 428 различных участников, которые добавили новый код и возможности в работу с открытым исходным кодом.

4. Новые функции генеративного ИИ в Google Workspace и Cloud

Google представила MakerSuite, платформу, которая позволяет разработчикам и предприятиям экспериментировать с новыми API и продуктами, которые упрощают, безопасно и масштабируемо начинать работу с лучшими моделями искусственного интеллекта Google в Google Cloud. Кроме того, Google добавил новые функции в Google Workspace, которые помогают людям использовать возможности генеративного ИИ.

5. Глупость ИИ

По словам автора, искусственный интеллект в его нынешнем состоянии в значительной степени зависит от ранее существовавших культурных концепций, и признание его «интеллектуальным» потенциально может представлять риск.

Три 5-минутных чтения/видео, чтобы вы продолжали учиться

  1. 5 способов, которыми GPT-4 перехитрить ChatGPT

Дебютировала долгожданная модель искусственного интеллекта OpenAI GPT-4, и между ней и ее предшественниками есть существенные различия. В этой статье рассматриваются тонкие или технические различия между GPT-4 и предыдущими моделями.

2. Что мы знаем о GPT-4 на данный момент
В этом видеоуроке представлен подробный анализ GPT-4. Он углубляется в технический отчет, чтобы понять работу модели и ее особенности. В руководстве также обсуждаются возможные последствия GPT-4 для обработки естественного языка.

3. Быстрое проектирование, вероятно, важнее, чем вы думаете

Anthropic, последняя инвестиция Google в искусственный интеллект на сумму 300 миллионов долларов, в настоящее время нанимает инженера-подсказчика с зарплатой от 250 000 до 335 000 долларов в год вместе с капиталом. Это указывает на то, что быстрое проектирование является новой областью, которая готова расти. Эта статья обеспечивает надлежащий контекст и основу для рассмотрения оперативного инжиниринга.

4. Насколько мы близки к квантовому искусственному интеллекту?

Квантовые вычисления все еще находятся на ранних стадиях, и многие технические проблемы должны быть преодолены, прежде чем их можно будет использовать для реализации QAI. Тем не менее, в этой области много волнений и продолжаются исследования, и QAI считается многообещающей областью для будущих прорывов в области ИИ.

5. Тренируйтесь и запускайте Stanford Alpaca на собственной машине

Саймон Уиллисон сказал, что LLaMA легко запустить на вашем собственном оборудовании, она достаточно велика, чтобы быть полезной, и имеет достаточно открытый исходный код, чтобы с ней можно было работать. В этом посте обсуждается, как дрессировать альпаку, чтобы вы могли поэкспериментировать с ней на своей машине.

Бумаги и репозитории

  1. Стэнфорд опубликовал проект Alpaca, целью которого является создание и распространение модели LLaMA, следующей за инструкциями

Это код и документация для обучения моделей Stanford Alpaca и генерации данных. Это может помочь читателям лучше понять возможности и ограничения Alpaca, а также дать возможность оценить производительность Alpaca для более широкой аудитории.

2. Технический отчет ГПТ-4

В этом техническом отчете представлена ​​GPT-4, большая мультимодальная модель, способная обрабатывать входные изображения и текст и создавать текстовые выходные данные. В нем также обсуждается ключевая задача проекта — разработка инфраструктуры глубокого обучения и методов оптимизации, которые ведут себя предсказуемо в широком диапазоне масштабов.

3. Самостоятельное обучение: согласование языковой модели с самогенерируемыми инструкциями

Self-Instruct — это платформа для улучшения возможностей выполнения инструкций предварительно обученными языковыми моделями путем начальной загрузки собственных поколений. Конвейер генерирует образцы инструкций, входных и выходных данных из языковой модели, сокращает их, а затем использует для точной настройки исходной модели.

4. Высокопроизводительный генеративный вывод больших языковых моделей с помощью одного графического процессора

В этом документе представлена ​​концепция высокопроизводительного логического вывода LLM с использованием ограниченных ресурсов, таких как один товарный графический процессор. Он представляет FlexGen, механизм генерации с высокой пропускной способностью, который позволяет эффективно запускать LLM с ограниченной памятью графического процессора.

5. Язык — это еще не все, что вам нужно: согласование восприятия с языковыми моделями

В этой статье авторы представляют Kosmos-1, мультимодальную модель большого языка (MLLM), которая может воспринимать общие модальности, учиться в контексте (т.

Раздел сообщества Learn AI Together!

Предстоящие события сообщества

Сообщество Learn AI Together Discord проводит еженедельные семинары по искусственному интеллекту, чтобы помочь сообществу учиться у отраслевых экспертов, задавать вопросы и получать более глубокое представление о последних исследованиях в области искусственного интеллекта. Присоединяйтесь к нам на бесплатных интерактивных видеосеансах, которые еженедельно проводятся в прямом эфире на Discord, посещая наши предстоящие мероприятия.

  1. GTC стартует сегодня (а значит, и время розыгрыша RTX 4080)!!

Вот 3 интервью с выдающимися людьми из NVIDIA, чтобы запустить мой новый подкаст Что такое ИИ от Луи Бушара!

В этой короткой серии мы узнаем много нового о мире науки о данных в NVIDIA (подробнее о том, кто такие специалисты по данным и архитекторы решений), Kaggle, масштабировании больших моделей, процессе собеседования с NVIDIA (и его улучшении), как это происходит работать в такой крупной компании и многое другое.

Есть масса ценных советов от Криса Деотта, Мерием Бендрис и Адама Гживачевски.

Он также сотрудничает с NVIDIA GTC, который работает всю неделю, и они предоставили мне RTX 4080 в подарок, чтобы помочь в продвижении этого нового проекта.

Если вы хотите узнать больше об искусственном интеллекте и вдохновляющих персонажах в этой области и принять участие в розыгрыше, посмотрите новый подкаст (доступен на Spotify, Apple podcasts и YouTube).

Пожалуйста, дайте мне знать, что вы думаете об этих интервью, и если вы знаете кого-нибудь (включая вас), кто хотел бы дать интервью! 🙂

Если вы хотите узнать больше от интервьюируемых, загляните на GTC на этой неделе: https://nvda.ws/3XQRtkl

Кроме того, спасибо, Нил Лейзер, за вдохновение в начале этого! Это уже было много веселья и обучения.

2. Семинар по архитектуре NN, пустой берег на 3D-PMNN

На этой неделе emptyshore представит на семинаре архитектуру нейронной сети, описанную в статье 3D-PMRNN: реконструкция трехмерных пористых сред по двумерным изображениям с помощью рекуррентной нейронной сети. Сессия не будет записываться, так что присоединяйтесь к нам в прямом эфире на первый семинар здесь или добавьте его в свой календарь здесь!

Дата и время: 28 марта, 21:00 по восточному поясному времени

Добавьте наш календарь Google, чтобы увидеть все наши бесплатные мероприятия по искусственному интеллекту!

Мем недели!

Мем поделился Bamb#5962

Избранный пост сообщества из Discord

robane # 2844 поделился фантастической возможностью получить стипендию для будущих докторов наук. студенты. Заявки на стипендию Fatima Fellowship 2023 уже открыты, и вы можете получить докторскую степень. студенты с возможностью работать с наставником, накапливать свой исследовательский опыт и укреплять свои кандидатские / магистерские заявки. Эта стипендия в настоящее время принимает кандидатов в области компьютерных наук, машинного обучения и смежных областях. Крайний срок подачи заявок — 26 марта 2023 года. Подать заявку на стипендию можно здесь или найти дополнительную информацию о стипендии здесь.

AI-опрос недели!

Присоединяйтесь к обсуждению в Discord.

TAI Кураторский раздел

Статья недели

Как увеличить память трансформаторов до 262 тыс. токенов с небольшим изменением? автор Реза Язданфар

Эта статья — фантастическая попытка использовать языковые модели, в частности преобразователи, для запоминания информации с минимальными усилиями. Основная идея заключается в том, что для этой цели мы можем использовать доступные предварительно обученные модели. Автор затрагивает три важнейших вопроса: В чем проблема? Каково решение? Какие результаты?

Наши обязательные к прочтению статьи

Как использовать TPU в Kaggle / Google Colab для обучения GAN в мгновение ока от Pere Martra

Демистификация деревьев решений Андреа Янни

Разрушение центральной предельной теоремы: что вам нужно знать Чинмай Бхалерао

Если вы заинтересованы в публикации с помощью Towards AI, ознакомьтесь с нашими рекомендациями и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашим редакционным политикам и стандартам.

Предложения о работе

Инженер-программист @Mercari (удаленно)

Старший специалист по анализу данных @COTA (удаленно)

Инженер по машинному обучению @Curai (удаленно)

Инженер по машинному обучению, оценка @Cohere (удаленно)

Инженеры-программисты — оркестровая стажировка @BMAT Music Innovators (дистанционно)

Аналитик данных @pulseData (удаленно)

Штатный инженер по обработке данных @Button (удаленно)

Оплачиваемая стажировка — Machine Learning @Shiru (Remote)

Хотите поделиться здесь вакансией? Обращайтесь по адресу [email protected].

Если вы готовитесь к следующему собеседованию по машинному обучению, обязательно посетите наш ведущий веб-сайт для подготовки к собеседованию, confetti!