Публикации по теме language-model

Публикации по теме 'language-model'

Переосмысление необходимости дистилляции моделей

Софи Луи Целью данной работы является разработка модели, производительность которой будет сопоставима с упрощенной версией сверхбольших языковых моделей с гораздо меньшим количеством параметров. Для достижения этой цели мы обучили языковую модель с помощью метрического обучения. Наш подход игнорирует последний линейный уровень и функцию активации Softmax, реализованную при обучении стандартной языковой модели. В качестве альтернативы наша модель использует потерю прокси-якоря¹,..

Амстердамский университет и Meta AI предлагают дорожную карту интерактивного языкового моделирования на основе…

Исследования показали, что люди естественным образом изучают языки в раннем возрасте в основном посредством языкового взаимодействия с лицами, осуществляющими уход, такими как родители и учителя. Хотя современные методы и архитектуры машинного обучения создали мощные языковые модели, которые могут генерировать…

В поисках истины в LLM: Калифорнийский университет в Беркли и Пекинский университет предлагают неконтролируемый контрастно-согласованный поиск

Мощные модели больших языков (LLM) теперь играют важную роль во многих реальных приложениях. Но по мере того, как люди становятся все более зависимыми от LLM, некоторые задаются вопросом, можем ли мы доверять им в донесении «правды» и в какой степени.

Запуск быстрых трансформаторов на процессорах: подход Intel обеспечивает значительное повышение скорости и SOTA…

Большие языковые модели-преобразователи (LM), которые масштабируются до миллиардов параметров, продемонстрировали современную производительность в широком спектре задач обработки естественного языка (NLP). Однако реальное развертывание таких моделей остается ограниченным из-за их низкой скорости и высоких требований к вычислительным ресурсам.

Векторные базы данных, большие языковые модели и рассуждения на основе прецедентов

В 2018 году языковые модели ворвались на сцену благодаря BERT (двунаправленные представления кодировщиков от трансформеров) (Джейкоб и др., 2018) . По сути, исследователи обнаружили, что они могут использовать метод обучения без учителя для создания модели, которая будет генерировать семантически чувствительные вложения для предложений текста. Чтобы понять, почему это имело большое значение, необходимо понять термины, выраженные в этом предложении. Что такое модель, которая..

Предварительное обучение пользовательской модели BERT

BERT стал базовой языковой моделью для многих случаев использования обработки естественного языка (NLP). Вы можете легко получить доступ к BERT из библиотеки преобразователей HuggingFace и точно настроить его для последующей задачи. Но существуют ограничения при работе с нишевыми областями, где использование стандартной версии BERT дает неоптимальные результаты, поскольку BERT не знаком с проблемной областью. В VMware мы имеем дело со многими техническими терминами (например,..

Исследование DeepMind показывает, что языковые модели могут учиться на объяснениях в контексте даже без…

Если вы когда-нибудь задумывались над ответом на вопрос и задавались вопросом «…но почему?» вы не одиноки. У людей есть врожденная способность улучшать свое обучение и расширять свое понимание с помощью объяснений, которые связывают примеры с принципами. Сообщество машинного обучения в последние годы стало свидетелем быстрого роста…