Как работают предварительно обученные трансформеры, часть 1 (машинное обучение)

BioCPT: Контрастные предварительно обученные преобразователи с крупномасштабными журналами поиска в PubMed для быстрого поиска биомедицинской информации (arXiv)

Автор: Цяо Цзинь, Вон Ким, Цинью Чен, Дональд С. Комо, Лана Еганова, Джон Уилбур, Чжиюн Лу.

Резюме: Информационный поиск (IR) имеет важное значение для получения биомедицинских знаний и поддержки принятия клинических решений. Хотя недавний прогресс показал, что кодировщики языковых моделей лучше выполняют семантический поиск, обучение таких моделей требует большого количества аннотаций запросов и статей, которые трудно получить в биомедицине. В результате большинство биомедицинских ИК-систем проводят только лексическое сопоставление. В ответ мы представляем BioCPT, первую в своем роде модель Contrastively Pre-trained Transformer для биомедицинского IR с нулевым выстрелом. Для обучения BioCPT мы собрали беспрецедентное количество логов кликов пользователей из PubMed — 255 миллионов. Имея такие данные, мы используем контрастное обучение для обучения пары тесно интегрированных извлекателей и реранкеров. Экспериментальные результаты показывают, что BioCPT устанавливает новую современную производительность в пяти биомедицинских задачах IR, превосходя различные базовые показатели, включая гораздо более крупные модели, такие как cpt-text-XL размера GPT-3. Кроме того, BioCPT также генерирует лучшие биомедицинские статьи и представления предложений для семантических оценок. Таким образом, BioCPT может быть легко применен к различным реальным биомедицинским задачам IR. API и код BioCPT общедоступны по адресу https://github.com/ncbi/BioCPT.

2.BatGPT: двунаправленный авторегессивный говорящий от генеративного предварительно обученного преобразователя (arXiv)

Автор: Цзучао Ли, Шитоу Чжан, Хай Чжао, Ифэй Ян, Дунцзе Ян.

Аннотация: BatGPT — это крупномасштабная языковая модель, разработанная и обученная совместно Уханьским университетом и Шанхайским университетом Цзяо Тонг. Он способен генерировать очень естественный и плавный текст в ответ на различные типы ввода, включая текстовые подсказки, изображения и аудио. На уровне моделирования мы используем двунаправленную авторегрессионную архитектуру, которая позволяет модели эффективно фиксировать сложные зависимости естественного языка, что делает ее очень эффективной в таких задачах, как генерация языка, диалоговые системы и ответы на вопросы. Кроме того, двунаправленное авторегрессионное моделирование работает не только слева направо, но и справа налево, эффективно уменьшая фиксированные эффекты памяти и облегчая модельные галлюцинации. В аспекте обучения мы предлагаем новый метод расширения параметров для использования предварительного обучения небольших моделей и используем обучение с подкреплением как на основе отзывов ИИ, так и человека, направленное на улучшение производительности выравнивания модели. В целом эти подходы значительно повышают эффективность BatGPT, и модель можно использовать для широкого круга приложений с естественным языком.

Как работают предварительно обученные трансформеры, часть 1 (машинное обучение)

Вопросы по теме