Публикации по теме 'large-language-models'


4-битное квантование с GPTQ
Оцените свои собственные LLM с помощью AutoGPTQ Недавние достижения в области квантования весов позволяют нам запускать большие языковые модели на потребительском оборудовании, например, модель LLaMA-30B на графическом процессоре RTX 3090. Это возможно благодаря новым методам 4-битного квантования с минимальным снижением производительности, таким как GPTQ , GGML и NF4 . В предыдущей статье мы представили наивные методы 8-битного квантования и отличный LLM.int8(). В этой статье..

Что такое LLM и почему вокруг них столько шума?
LLM стоят за тем, чтобы искусственный интеллект стал массовым явлением за последние пару лет. Но как они работают? Каковы их ограничения? Учебник для начала Нет, я не являюсь экспертом в области глубокого или машинного обучения. Отнюдь не. Но в этой серии из нескольких эссе я собираюсь задокументировать некоторые из моих знаний по нескольким конкретным темам в области ИИ, которые имеют отношение к моей карьере и хобби. Моя цель – самообучение. Упрощенные реальные последствия этой..

Понимание LoRA и QLoRA  — Мощные средства эффективной тонкой настройки в больших языковых моделях
Фон Большие языковые модели (LLM) в настоящее время являются горячей темой в области машинного обучения. Представьте, что вы инженер машинного обучения, и ваша компания имеет доступ к графическим процессорам и LLM с открытым исходным кодом, таким как LLAMA/Falcon. Вам поручено создать инструменты для ваших клиентов, у каждого из которых свои уникальные потребности. Вы настраиваете свою модель для каждого клиента, и все остаются довольны. Но что происходит, когда у вас тысячи клиентов?..

Повторные подсказки: оптимизация автоматического решения проблем для LLM
Автоматизированный вывод цепочки мыслей с помощью выборки Гиббса Большие языковые модели (LLM) продемонстрировали поразительный прогресс в понимании естественного языка с помощью подсказок из нескольких шагов, когда модели выполняют чрезвычайно сложные задачи, увидев лишь несколько примеров, демонстрирующих, как решить данную проблему. Однако те же LLM часто спотыкаются на задачах, требующих сложной или многоступенчатой ​​логики (например, тест Big-Bench Hard), и испытывают трудности с..

Тестирование модели массовой многоязычной речи (MMS), поддерживающей 1162 языка
Изучите передовые многоязычные функции последней модели автоматического распознавания речи (ASR) Meta. Введение Massively Multilingual Speech (MMS)¹ — это последний выпуск Meta AI (всего несколько дней назад). Он раздвигает границы речевых технологий, расширяя охват с примерно 100 языков до более чем 1000. Это было достигнуто за счет построения единой многоязычной модели распознавания речи. Модель также может идентифицировать более 4000 языков, что в 40 раз превышает возможности..

Как обучить предварительно обученную модель большого языка (LLM) в Python с помощью OpenAI: Easy…
Введение: Обучение большой языковой модели (LLM) становится все более популярным в области обработки естественного языка (NLP) из-за его способности генерировать связный и контекстуально релевантный текст. В этом сообщении блога мы проведем вас через процесс обучения LLM с использованием Python, используя возможности архитектуры OpenAI GPT-3.5. Мы рассмотрим необходимые шаги и предоставим фрагменты кода, которые помогут вам начать работу. Шаг 1: Настройка среды Для начала..

Разрешение спора о рассуждениях LLM
Разрешение спора о рассуждениях LLM LLM, или большие языковые модели , — это исключительные инструменты генеративного искусственного интеллекта , которые покоряют мир. Эти модели принимают подсказку или фрагмент текста, а затем пытаются выполнить завершение или сгенерировать дополнительный текст в дополнение к входным данным. Я считаю, что LLM популярны из-за их простоты использования для широких масс. Во-первых, инструменты искусственного интеллекта существуют уже давно, но..