DLite — это новая модель следования инструкциям, разработанная AI Squared путем точной настройки самой маленькой модели GPT-2 в наборе данных Alpaca. Несмотря на наличие всего 124 миллионов параметров, DLite демонстрирует впечатляющую интерактивность, подобную ChatGPT, и может быть настроен на одном графическом процессоре T4 менее чем за 15 долларов США. Из-за относительно небольшого размера DLite можно запускать локально в самых разных вычислительных средах, включая процессоры ноутбуков, и можно использовать без отправки данных в какой-либо сторонний API. Это легкое свойство DLite делает его очень доступным для личного использования, позволяя пользователям быстро, безопасно и экономично интегрировать модели машинного обучения и расширенную аналитику в свои рабочие процессы.

Введение

Модели следования инструкциям, такие как ChatGPT, привлекли большое внимание за последние несколько месяцев. Эти модели демонстрируют поразительную способность отвечать на вопросы и реагировать на подсказки по-человечески. Однако создание этих моделей требует огромных объемов данных, вычислительных ресурсов и времени. Огромный размер этих моделей не позволяет всем, кроме нескольких компаний по всему миру, обучать их. Например, GPT-3 OpenAI имеет 175 миллиардов параметров, тогда как модели Meta LLaMA имеют количество параметров от 7 до 65 миллиардов и были обучены более чем 80 000+ GPU-часов.

Излишне говорить, что требования к вычислительным ресурсам для обучения и эффективного использования моделей такого масштаба слишком велики для большинства организаций. К сожалению, многие из лучших моделей следования инструкциям являются проприетарными, а это означает, что для использования модели организация должна отправлять свои данные в сторонний API для обработки.

В свете этих тенденций и для создания более открытой среды вокруг ИИ многие исследователи в различных организациях по всему миру начали разрабатывать и выпускать свои собственные модели, данные и процедуры обучения, которые позволяют организациям создавать свои собственные модели с вопросами. возможности ответа. Одной из примечательных моделей такого рода является Dolly, которая была недавно выпущена Databricks и была обучена путем точной настройки модели с открытым исходным кодом двухлетней давности, выпущенной EleutherAI на наборе данных Alpaca, состоящем примерно из 50 000 человекоподобных вопросов. и ответы. Исследователи, разработавшие Dolly, обнаружили, что простая настройка (относительно) небольшой модели многолетней давности на этом наборе данных позволила модели продемонстрировать повышенный уровень интерактивности, такой как ChatGPT, имея всего 6 миллиардов параметров.

Введите DLite

Следуя прецеденту, установленному этим исследованием, AI Squared адаптировал методы обучения, применяемые для создания Долли, на гораздо, гораздо меньшей (124 миллиона параметров) и более старой (выпущенной в 2019 году) модели GPT-2. Подобно Dolly, эта модель демонстрирует удивительный уровень интерактивности, подобный ChatGPT, несмотря на то, что она настроена только на один графический процессор T4 менее чем за 15 долларов США. Поскольку эта модель основана на Dolly, но имеет два процента размера Dolly и с ней намного проще работать и обучать, включая возможность запуска модели на процессорах ноутбуков, мы решили назвать модель DLite.

Мы все еще находимся в процессе получения полных показателей оценки DLite, но уже можем сделать некоторые важные выводы на основе результатов наших экспериментов. А именно, мы по-прежнему видим, что размер модели, хотя и важен, не является самым важным фактором, когда речь идет о создании убедительных генеративных моделей ИИ. Наоборот, гораздо важнее хорошо продуманные и тщательно отобранные наборы данных, на основе которых эти модели могут учиться.

Ответы на запросы

Ниже мы показываем некоторые ответы, которые DLite сгенерировала для запросов, продемонстрированных в оригинальном сообщении в блоге Databricks для выпуска Dolly. Обратите внимание, что, как и в случае с самой Dolly, основное внимание уделяется не качеству текста, а значительному улучшению способности следовать инструкциям, которое является результатом точной настройки модели на используемом наборе данных. Для всех приведенных здесь подсказок мы сообщаем ответы каждой модели в следующем порядке:

  1. Ответ оригинальной модели, на которой обучалась Долли
  2. Ответ от Долли
  3. Ответ от GPT-2, на котором обучался DLite
  4. Ответ от DLite

Подсказка 1. Напишите любовное письмо Эдгару Аллену По.

Ответ оригинальной модели Dolly:

ИСТОРИЯ: Эдгар Аллан По прославился в 19 веке. Его часто сравнивали с великими поэтами-романтиками, его считают отцом современного рассказа, а По считают основателем американской детективной литературы. Он мертв уже 130 лет.

ПАТРИК КАМПОС: Никогда не пытайтесь написать любовное письмо мертвому человеку.

ПАТРИК КАМПОС: По был больше, чем просто автор «Ворона». Он был мастером атмосферы.

БАДДИ ФРИЦЛЕР: Эдгар Аллан По жил в Балтиморе с 1831 года до своей смерти в 1849 году. Он наиболее известен своими рассказами, а его величайшим вкладом в развитие литературы является концепция детективного рассказа, детективного романа и рассказа.

БАДДИ ФРИЦЛЕР: Самый известный рассказ По «Золотой жук» был написан в 1843 году. Он рассказывает об охотнике за сокровищами, который ищет зарытое сокровище. В этом коротком рассказе он дает план для каждой загадки, когда-либо написанной с тех пор.

Ответ Долли:

Дорогой Эдгар Аллан По,

Впервые я встретил тебя на тускло освещенной лестнице старого дома, и я знаю, что в тот момент, когда я увидел тебя, я никогда не хотел тебя видеть снова. Ты казался таким далеким и таким наполненным тенями прошлого, что мне хотелось держаться подальше навсегда.

Но я не мог не быть одержим тобой, и мои чувства к тебе только росли с годами. Даже сейчас я чувствую глубокую связь с тобой, которую не могу объяснить.

Я надеюсь, что вы сможете найти счастье в жизни, которую вы сейчас ведете. Я уверен, что вы совершите великие дела, и я навеки у вас в долгу.

Искренне,

[Ваше имя]

Ответ GPT-2:

Первое письмо было написано По в 1859 году, и это был первый раз, когда По написал кому-либо любовное письмо.

Второе письмо было написано в 1859 году, и это был первый раз, когда По написал кому-либо любовное письмо.

Третье письмо было написано в 1859 году, и это был первый раз, когда По написал кому-либо любовное письмо.

Четвертое письмо было написано в 1859 году, и это был первый раз, когда По…

Ответ DLite:

Уважаемый господин/госпожа,

С тяжелым сердцем я пишу, чтобы выразить свою глубочайшую признательность за вашу карьеру и работу в области литературы. Я хотел выразить глубокую признательность за вашу страсть к занятиям литературой и выразить свою признательность за многочисленные комплименты, которые вы делали мне на протяжении всей моей жизни.

Твои слова и манера говорить открыли мне глаза, и мое сердце разбито, если не сказать больше. Ваше творчество и упорный труд в руководстве этими великими работами позволили мне написать великие произведения, которые я всегда любил и никогда не забуду.

Искренне,

[Ваше имя]

Подсказка 2. Напишите твит, анонсирующий {Dolly, DLite}, большую языковую модель от {Databricks, AI Squared}.

Ответ оригинальной модели Dolly:

В своем твите предоставьте краткое описание задачи, как вы ее проанализировали и как выступила Долли.

После вашего твита я ретвитну его в аккаунт Databricks в Твиттере.

Очистите свою страницу в социальных сетях на следующей неделе, удалив все упоминания о Dolly или Databricks.

Подготовка данных

Наш первый шаг — генерировать векторные вложения слов для каждого документа. Мы можем получить эти векторные представления двумя разными способами:

Использование токенизированного набора документов (в данном случае все в нашей папке загрузки)

Загружает модель word2vec из Google Search API (в данном случае vector2vec.c).

В нашем случае мы хотим использовать первый метод, который проще, но второй может быть более надежным. Мы будем использовать модель word2vec выше, чтобы создать файл словаря для любых новых слов, найденных в файле. Этот процесс дает нам быстрый способ идентифицировать новые слова и находить контекстуально связанные термины.

Мы можем начать с копирования word2vec.c в локальный каталог с именем /tmp/word2vec.

#/tmp/word2vec/word2vec.c ИМЯ_ФАЙЛА /tmp/word

Ответ Долли:

Databricks только что анонсировала Dolly — новую языковую модель для обработки естественного языка с большой емкостью и повышенной эффективностью!

#DataScience #Обработка естественного языка

[Ссылка на релиз модели Долли]

Ответ GPT-2:

Команда DLite работает над новым языком, который сможет работать с языком DLite.

Команда DLite работает над новым языком, который сможет работать с языком DLite. DLite — это язык, который используется в языке DLite.

Ответ DLite:

Представляем первую в мире недорогую языковую модель! DLite — идеальный инструмент для обучения, решения проблем и машинного обучения. #DLite #DeepLearning #Verbal #Innovation #AI ​​#Cluster #Blockchain #NewTech

Подсказка 3: Я продаю свой Nikon D-750, напишите короткое описание моего объявления.

Ответ оригинальной модели Dolly:

Я не уверен, что вы можете опубликовать местоположение — все, что есть на сайте, будет работать.

У меня это было всего неделю. Состояние идеальное, зарядный кабель и окошко не повреждены. Купил его за 1800 долларов для самовывоза в магазине в Сан-Франциско. Плюс налог и нераскрытая цена Costco.

Кто-нибудь, пожалуйста, дайте мне знать, что это мошенничество, а не предложение.

Я только что получил электронное письмо, в котором говорилось, что камера находится у кого-то дома, чтобы кто-то другой мог ее забрать, и хотел ли я написать им, ну, нет, я продаю ее, потому что никогда бы…

Ответ Долли:

Ищете надежную камеру для фото и видео работы? Обратите внимание на Nikon D-750! Эта изящная и легкая камера оснащена 24,2-мегапиксельным сенсором и возможностью записи видео в формате 1080/60p, что делает ее отличным выбором для запечатления жизненных моментов. Эргономичная рукоятка и система автофокусировки с девятью точками позволяют легко работать и снимать без хлопот. Благодаря Wi-Fi вы можете легко загружать свои изображения на компьютер или смартфон без необходимости покупать специальное внешнее хранилище. Купите Nikon D-750 сейчас, чтобы понять, почему это лучший выбор для фото- и видеосъемки!

Ответ GPT-2:

Продаю свой Nikon D-750, напишите короткое объявление по моему объявлению.

Продаю свой Nikon D-750, напишите короткое объявление по моему объявлению.

Продаю свой Nikon D-750, напишите короткое объявление по моему объявлению.

Продаю свой Nikon D-750, напишите короткое объявление по моему объявлению.

Ответ DLite:

Nikon D-750 — идеальная фотокамера для любых потребностей в фотографии. Идеальный выбор для начинающих или фотографов, которые хотят избавиться от громоздких камер с их ручной фокусировкой и вспышкой. Он оснащен 12 камерами со сменными объективами, съемными портами для камер и простым в использовании встроенным разъемом IQX для увеличения дальности действия. Благодаря мощной максимальной диафрагме из 12 объективов и регулируемому диапазону увеличения D-750 обязательно будет держать вас в курсе событий.

Подсказка 4: Объясните мне разницу между ядерным делением и синтезом.

Ответ оригинальной модели Dolly:

Первое, что бросается в глаза, — это внешнее сходство и функциональное сходство атома и Солнца. Центральное тело Солнца является источником энергии, а вся структура Солнца состоит из миллиона тонн столь важного для нас газообразного водорода. Это то, во что весь водород превращается на солнце, и именно поэтому мы состоим из него: синтез.

Ядро атома в центре состоит из протонов, вокруг которого вращаются электроны. В центре находится крошечная сферическая масса с большим количеством протонов (и, следовательно, с большим положительным зарядом), называемая ядром. Электроны не такие крошечные, но их заряд отрицательный, так как положительное ядро ​​и отрицательные электроны обеспечивают стабильность (из-за баланса заряда). Протоны заряжены положительно, поэтому, хотя сами они никуда не денутся, они отталкивают электроны. Есть ядро ​​из нейтронов, которые не имеют никакого заряда, но удерживаются там протонами. Протоны также отталкивают нейтроны.

Этот простой факт является основной формой нашего солнца, и из него состоят все элементы на земле. Водород является самым распространенным элементом в…

Ответ Долли:

Разница между ядерным делением и синтезом заключается в способе высвобождения энергии ядра. При делении ядра одно атомное ядро ​​распадается на два меньших ядра. Этот процесс используется для создания энергии за счет высвобождения большого количества энергии в виде тепла. С другой стороны, при слиянии два атомных ядра объединяются в одно ядро. Этот процесс используется для создания гораздо большего количества энергии по сравнению с делением, и энергия высвобождается за счет выделения света и тепла. Термоядерный синтез потенциально может стать гораздо более эффективным способом получения энергии. Однако это намного…

Ответ GPT-2:

Разница между синтезом и делением заключается в том, что деление — это процесс синтеза, который не является реакцией синтеза. Это процесс слияния, который не является реакцией слияния.

Разница между слиянием и слиянием заключается в том, что слияние — это процесс слияния, который не является реакцией слияния. Это процесс слияния, который не является реакцией слияния.

Разница между слиянием и слиянием заключается в том, что слияние — это процесс слияния, который не является реакцией слияния. Это …

Ответ DLite:

Ядерное деление — это процесс, при котором ядерный атом расщепляется надвое, а синтез — это процесс, при котором два атома водорода образуют один атом гелия, высвобождая энергию при нагревании. Ядра ядерного деления преобразуются в энергию, а ядерное деление — это процесс, при котором сливаются два ядра в результате реакции синтеза.

Подсказка 5: Дайте мне список из 5 научно-фантастических книг, которые я должен прочитать в следующий раз.

Ответ оригинальной модели Dolly:

Я знаю, что еще рано, и мне должно быть стыдно за то, что я даже думаю об этом, но у меня есть ужасная склонность откладывать чтение на потом и читать только тогда, когда это абсолютно необходимо.

В результате в этом году я ничего не читал ни в одном жанре.

Как только у меня появляется набор идей для статьи, я позволяю идеям и наброскам делать свою работу, чтобы убедиться, что я не начну писать. Есть что-то особенное в пустой странице и пустом уме.

Тем не менее, мне нужно это изменить, и, прочитав приведенный выше вопрос, я понял, насколько сильно я хочу…

Ответ Долли:

1. 2001: Космическая одиссея Артура Кларка

2. Автостопом по Галактике Дугласа Адамса.

3. «Властелин колец» Дж.Р.Р. Толкин

4. «Автостопом по Галактике» Дугласа Адамса.

5. 1984 Джордж Оруэлл.

Ответ GPT-2:

1. Последний из нас

The Last of Us — это научно-фантастический роман о группе людей, оказавшихся в ловушке в мире, где они вынуждены жить в мире, где они вынуждены жить в мире, где они вынуждены жить в мире, в котором они вынуждены жить в мире, где они вынуждены жить в мире, где они вынуждены жить в мире, где они вынуждены жить в мире, в котором они вынуждены жить…

Ответ DLite:

Я хотел бы назвать пять научно-фантастических книг, которые я должен прочитать следующими: «Хроники Нарнии», «Вавилон 5», «Автостопом по Галактике», «Тайна договора Альфа Центавра», «Гравити Фолз», «Черный лебедь» и «Последнее решение».

Будущая работа

Как упоминалось в исходном сообщении блога, анонсирующем Dolly, существует множество причин, по которым организации могут захотеть обучать и развертывать свои собственные LLM, а не полагаться на проприетарную модель, лежащую в основе API. Кроме того, AI Squared стремится дать каждому возможность изменить свою работу, улучшив наше взаимодействие с ИИ.

Работа, которую мы проделали для разработки DLite, все еще находится в зачаточном состоянии, и мы все еще работаем над более тщательным измерением производительности модели. Однако мы сделали модель общедоступной на Hugging Face, а обучающие сценарии для модели доступны для всех на GitHub по этой ссылке.

Кроме того, из-за небольшого размера DLite модель можно запускать локально на процессоре ноутбука. В результате мы считаем, что организация сможет развертывать и настраивать индивидуально настроенные версии DLite для каждого из своих пользователей. Развернув DLite таким образом, люди могли по-настоящему взаимодействовать и формировать своих личных агентов ИИ, а не полагаться на одного агента для всех.

Расширение прав и возможностей

Основная цель AI Squared — дать пользователям возможность использовать ИИ где угодно, поэтому мы очень рады изучить возможности, которые может открыть DLite. Хотя представленная здесь модель явно не соответствует современному уровню техники, мы изучаем возможность использования наборов данных на основе подсказок для конкретной предметной области для создания эффективных специализированных агентов чата.

Мы также изучаем возможность использования нашей технологии с открытым исходным кодом BeyondML в DLite и других открытых LLM. BeyondML позволяет пользователям значительно сократить и оптимизировать нейронные сети, чтобы уменьшить количество параметров модели и повысить производительность на устройствах с низким энергопотреблением. Поэтому мы стремимся применить BeyondML к DLite, чтобы уменьшить количество активных параметров до уровня менее ста миллионов, тем самым позволяя запускать DLite локально в гораздо более широком спектре вычислительных сред.

DLite в AI Squared

В AI Squared мы твердо верим в преобразующую силу интеграции ИИ в рабочие процессы каждого. С помощью инструментов и платформы разработчика AI Squared пользователи могут легко интегрировать модели машинного обучения и расширенную аналитику различными способами, в том числе с использованием модели непосредственно на рабочем столе.

Поэтому мы очень рады продемонстрировать интеграцию, которую мы создали для DLite. Используя нашу платформу и технологию на основе браузера, мы создали способ использования DLite в любом веб-приложении. Более того, для этой интеграции модель работает полностью локально! Данные не отправляются в какой-либо сторонний API. Из-за легких свойств DLite весь процесс вывода, который вы видите ниже, происходит непосредственно на ноутбуке (M1 Mac 2020 года, 16 ГБ ОЗУ). Таким образом, запуская модель локально, а не обслуживая ее через удаленный ресурс, мы полностью устраняем затраты на развертывание модели в облаке, при этом обеспечивая своевременный вывод.

Благодарности

Во-первых, мы должны поблагодарить OpenAI за потрясающую работу, которую они проделали для создания своих моделей GPT, и за то, что они поделились своими возможностями с миром через ChatGPT и их API. Мы также высоко ценим работу, проделанную Databricks для создания Dolly, и поэтому мы также в долгу перед всеми, кто вдохновил и вдохновил эту работу, включая Meta и Стэнфордский центр исследований базовых моделей.

Отказ от ответственности. DLite — это экспериментальная технология, которая не предназначена для использования в какой-либо среде, кроме исследовательских целей. Кроме того, модель может иногда демонстрировать нежелательное поведение. Некоторые из этих поведений включают, но не ограничиваются: фактические неточности, предубеждения, оскорбительные реакции, токсичность и галлюцинации. Как и в случае с любым другим LLM, мы советуем пользователям этой технологии проявлять здравый смысл при ее применении.