Что произошло на этой неделе в AI от Луи

На этой неделе мы наблюдали за развитием моделей кодирования в META, а также за новыми возможностями тонкой настройки в OpenAI. Компания Meta представила Code LLaMA — большую языковую модель, позволяющую как генерировать код на основе подсказок, так и описывать коды. Они представили три итерации с различным количеством параметров (7B, 13B и 34B), каждая из которых прошла обучение на дополнительных 500 миллиардах токенов, связанных с кодом. Модели совместимы с широко признанными языками программирования, такими как Python, C++, Java, PHP и другими. Кроме того, на его основе построены две специализированные модели. Код LLaMA — Instruct — это настроенная версия кода LLaMA, предназначенная для следования инструкциям. Кроме того, существует Code LLaMA — Python, специальная модель, адаптированная для языка программирования Python. Модели были доступны по лицензиям как для исследовательского, так и для коммерческого использования. Выпуск этой модели с открытым исходным кодом обеспечивает быструю итерацию, и мы уже видели другие модели, построенные на ее основе, включая WizardCoder, который продемонстрировал превосходную производительность по сравнению с большинством существующих языковых моделей, приближаясь к уровню, но не совсем достигая его. ГПТ-4».

Среди других важных новостей: OpenAI представила возможность тонкой настройки GPT-3.5-турбо в качестве услуги. Важно подчеркнуть, что использование точно настроенной модели для вывода приводит к значительному увеличению затрат. OpenAI также представила ChatGPT Enterprise, предлагающую неограниченное использование, повышенную скорость и расширенное контекстное окно для организаций.

Мы были рады выпуску Code LLaMA и считаем, что модели, точно настроенные и оптимизированные для кодирования, обладают огромным потенциалом для внесения значительных улучшений — как в качестве инструментов второго пилотного проекта для разработчиков, так и для открытия разработки программного обеспечения для неразработчиков. Выпуск тонкой настройки GPT Turbo также впечатляет, и мы ожидаем, что он также приведет к созданию высококачественного кодирования и точно настроенных моделей, но нас особенно воодушевляет перспектива тонкой настройки для GPT-4, которая откроется позже в этом году. . Мы считаем, что GPT-4, настроенный для кодирования, может оказаться невероятно мощным.

- Луи Питерс — соучредитель и генеральный директор компании Towards AI

Горячие новости

  1. Выпущена тонкая настройка GPT-3.5 Turbo

OpenAI представила тонкую настройку GPT-3.5 Turbo, которая обеспечивает повышенную производительность при выполнении конкретных задач. Эта усовершенствованная версия потенциально может соответствовать или даже превосходить возможности базовой модели GPT-4. Первоначальным тестировщикам удалось существенно сократить длину подсказок за счет процесса тонкой настройки. Затраты на обучение и ввод/вывод использования составляют 0,008, 0,012 и 0,016 долларов США за 1 тыс. токенов соответственно.

2. Представляем Code Llama, современную модель большого языка для программирования

Meta выпустила Code Llama, усовершенствованную программу LLM для кодирования, которая может генерировать код и естественный язык, связанный с кодом. Он доступен в трех моделях и различных размерах для удовлетворения различных потребностей. Он поддерживает многие из наиболее популярных языков, используемых сегодня, включая Python, C++, Java, PHP, TypeScript (JavaScript), C# и Bash.

3. Представляем основополагающую мультимодальную модель перевода речи

Meta разработала надежную базовую модель, известную как SeamlessM4T, которая способна управлять разнообразными текстовыми и речевыми задачами на 100 языках. Он включает в себя автоматическое распознавание речи, перевод речи в текст, перевод речи в речь, перевод текста в текст и перевод текста в речь, поддерживая широкий спектр языков ввода и вывода.

4. Представляем ChatGPT Enterprise

OpenAI запустила ChatGPT Enterprise, предоставляющий функции безопасности и конфиденциальности, подходящие для корпоративного использования. Эта версия предлагает неограниченный доступ к GPT-4 на более высоких скоростях, расширенные контекстные окна (32 КБ) для обработки более длинных входных данных, расширенные возможности анализа данных, параметры настройки и дополнительные функции.

5. Alibaba выпускает нового чат-бота, который умеет «читать изображения»

Alibaba Cloud представила две модели искусственного интеллекта с открытым исходным кодом: Qwen-VL и Qwen-VL-Chat. Эти модели обучаются с использованием LLM компании Tongyi Qianwen (Qwen). Они могут интерпретировать визуальные данные, такие как текст на изображениях, и отвечать на запросы, основанные на местоположении, например предлагать указания, интерпретируя изображения знаков.

Пять 5-минутных чтений/видео, которые помогут вам учиться

  1. Как сделать LLM легче с помощью AutoGPTQ и трансформаторов

Hugging Face внедрила интеграцию AutoGPTQ в Transformers, упрощая 2, 3, 4 и 8-битное квантование с незначительным снижением точности. Эта интеграция совместима с графическими процессорами Nvidia, а также графическими процессорами AMD на базе RoCm.

2. Обучение языковых моделей алгоритмическому мышлению

В этой статье исследуется эффективность обучения алгоритмическому мышлению студентов LLM, уделяя особое внимание преодолению таких проблем, как переобучение и ложные корреляции. Он предлагает четырехэтапный подход, который включает в себя формулирование алгоритмов как навыков, одновременное обучение нескольким навыкам, обучение композиции навыков и обучение использованию навыков в качестве инструментов.

3. Код Ламы на обнимающем лице

Code Llama теперь доступен через Hugging Face, предлагая возможность выполнять заполнение кода с использованием моделей 7B и 13B. Он доступен по той же разрешительной общественной лицензии, что и Llama 2, и открыт для коммерческого использования.

4. Язык для вознаграждения за синтез навыков роботов

Системы «язык-вознаграждение», основанные на программах LLM, позволяют роботам учиться непосредственно на языке. Эти системы переводят инструкции на естественном языке в коды, определяющие вознаграждение, вычисляют вознаграждение на основе действий робота и облегчают обучение посредством обучения с подкреплением (RL).

5. Что такое МетаГПТ? Агенты LLM совместно решают сложные задачи

MetaGPT представляет собой новый подход к улучшению сотрудничества между агентами ИИ. В этом видео раскрывается внутренняя работа инновационного дизайна MetaGPT, углубляется в роль СОП (стандартных операционных процедур) и исследуется, как беспрепятственно взаимодействуют несколько агентов ИИ.

Документы и репозитории

  1. Усиленное самообучение (ReST) языковому моделированию

В этой статье представлен простой алгоритм согласования LLM с человеческими предпочтениями, вдохновленный растущим пакетным обучением с подкреплением. Усиленная самоподготовка (ReST), разработанная DeepMind, предлагает более экономичную альтернативу RLHF. Он использует двухэтапный процесс «Расти и улучшай» для расширения набора обучающих данных и точной настройки LLM.

2. Жираф — LLM с длинным контекстом

Giraffe — это новая серия моделей, созданных на основе LLaMA и LLaMA2, включающая варианты с размерами контекстных окон 4 КБ, 16 КБ и 32 КБ токенов. Эти модели подверглись тонкой настройке на основе LLaMA и LLaMA2, и в них представлены эксперименты, связанные с расширением контекстного окна за счет модификаций позиционного кодирования.

3. Новый LLM Platypus возглавил таблицу лидеров LLM Hugging Face

Platypus, последний LLM, представленный в таблице лидеров Open LLM HuggingFace, использует набор данных Open-Platypus для достижения впечатляющих результатов в STEM и логике. Он эффективно устраняет предвзятость во время обучения, используя модули LoRA и библиотеку PEFT. Однако его проблемы с языками, выходящими за рамки английского, объясняются лежащей в его основе моделью LLaMa-2.

4. График мыслей: решение сложных задач с помощью больших языковых моделей

Граф мыслей (GoT) представляет собой структуру, которая расширяет возможности подсказок больших языковых моделей (LLM) за пределы того, что предоставляют такие парадигмы, как «Цепочка мыслей» или «Древо мыслей» (ToT). GoT продемонстрировал повышенную производительность по сравнению с альтернативными методами, в частности, повысив качество сортировки (62%) и одновременно сократив затраты (31%).

5. QuIP: 2-битное квантование больших языковых моделей с гарантиями

В этой статье описывается квантование с обработкой некогерентности (QuIP), новый подход, который обеспечивает 2-битное квантование моделей языковых моделей с использованием адаптивного округления. Это первый алгоритм такого типа, сопровождаемый теоретическим анализом, демонстрирующим его потенциальное влияние на другие методы квантования, такие как OPTQ.

Нравятся эти статьи и сводки новостей? Получите ежедневный обзор на свой почтовый ящик!

Раздел сообщества Learn AI Together!

Мем недели!

Мем поделился пользователем neon8052

Избранное сообщение сообщества из Discord

DrDub инициировал замечательный проект под названием Расскажи и покажи, который служит экспериментом в области машинного обучения, принадлежащего сообществу. Проект создает профили рекомендаций, которые принадлежат исключительно вам. Он также предоставляет инструменты и модели, доступные для использования в других проектах свободного программного обеспечения, чтобы повысить полезность этих профилей рекомендаций. Посмотрите это здесь и поддержите другого участника сообщества! Вы можете помочь этому проекту, поделившись своими индивидуальными предпочтениями в отношении ключевых предметов или присоединившись в качестве волонтера. Делитесь своими вопросами и отзывами в теме здесь.

AI-опрос недели!

Присоединяйтесь к обсуждению в Discord.

Кураторский раздел TAI

Статья недели

Структура для эффективного обслуживания ваших больших языковых моделей, автор Зумана Кейта

Развертывание больших языковых моделей, несомненно, является одной из самых сложных задач не потому, что команды по развертыванию некомпетентны, а просто из-за сложности развертывания моделей такого типа. Вот тут-то и пригодится библиотека vLLM — библиотека с открытым исходным кодом, разработанная Калифорнийским университетом в Беркли по лицензии Apache. Философия vLLM заключается в том, чтобы сделать обслуживание и вывод больших языковых моделей доступными как для промышленности, так и для небольших исследовательских групп.

Наши статьи, которые обязательно нужно прочитать

Построение интуитивного понимания концепций, лежащих в основе LLM, таких как ChatGPT. Часть 1. Нейронные сети, преобразователи, предварительное обучение и точная настройка, автор Стивен Бонифачо

Генеративно-состязательные сети (GAN) для увеличения изображений, автор Тан Пэнши Элвин

Самое важное компьютерное зрение за неделю с 14.08 по 20.08, автор Юссеф Хосни

Если вы хотите публиковаться с помощью Towards AI, проверьте наши рекомендации и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашей редакционной политике и стандартам.

Предложения о работе

Список ожидания: Наставник — карьера в сфере Data Engineering @Springboard (неполный рабочий день/удаленно)

Инженер-программист среднего уровня @Datacom (удалённо)

Ведущий разработчик программного обеспечения @TherapyNotes.com (удаленно)

Инженер-программист @Sonovate (Удаленно)

Ведущий инженер по машинному обучению, Алгоритм рекомендаций @Multi Media LLC (Удаленно)

Старший инженер-программист, развертывание действий @GitHub (удалённо)

Инженер-программист — Стажер @Bayut | dubizzle (Дубай, ОАЭ)

Хотите поделиться здесь вакансией? Обращайтесь по адресу [email protected].

Если вы готовитесь к следующему собеседованию по машинному обучению, не стесняйтесь загляните на наш ведущий веб-сайт по подготовке к собеседованию, конфетти!