Публикации по теме nlp

Публикации по теме 'nlp'

Привет, многоязычный BERT, cómo funcionas?

Статья для любителей НЛП и языков Несколько месяцев назад Google AI предоставил открытый исходный код BERT , большой предварительно обученной языковой модели, которую можно легко настроить для решения общих задач НЛП, таких как классификация или распознавание именованных сущностей. Хотя проверка первоначальной английской модели была интересной, я очень обрадовался, когда вышла многоязычная модель, охватывающая 104 разных языка , включая немецкий, русский, арабский и японский. В..

Предсказание следующего слова с использованием GPT-1

Точная настройка GPT-1 с данными Swiftkey для предсказания следующего слова Это продолжение основной статьи Предсказание следующего слова с использованием данных Swiftkey GPT-1 — это преобразователь только для декодера , который использует маскированное собственное внимание для предсказания следующих слов на основе вероятности . GPT-1 обучается на данных с размером словаря: 40478 и максимальной длиной последовательности: 512 . Он разрабатывает языковую модель. Я точно настроил..

Разговор с самим собой: получение знаний из моделей преобразователей генерации текста

Разговор с самим собой: получение знаний из моделей преобразователей для генерации текста Кому нужен словарь, когда у вас есть модель Трансформер? Модели Transformer для генерации текста действительно впечатляют. Они впервые привлекли внимание общественности, когда OpenAI посчитал одну из своих моделей слишком опасной для выпуска, названную GPT-2. Они неизбежно выпустили эту модель, включая ее самую большую версию, которую теперь можно использовать всего несколькими строками кода ...

NeurIPS 2020 - 10 вещей, которые нельзя пропустить

1899 докладов, более 20 тыс. Участников, 62 семинара, 7 приглашенных докладов. Выбор того, на что обратить внимание, является ключевым в таком плотном ландшафте, поэтому вот несколько идей о том, на что вам следует смотреть. Конференция по системам обработки нейронной информации всегда интересна, потому что на ней собраны все лучшее, что было предложено в предшествующем году. Несмотря на то, что этот год впервые стал полностью виртуальным, этот год не стал исключением; Я имею в виду,..

Классификатор правильности предложений с использованием трансферного обучения с Huggingface BERT

Научитесь создавать приложения НЛП производственного уровня, просто используя huggingface Вот ссылка на живую панель управления В этой статье мы создадим почти современный классификатор предложений, используя возможности последних достижений в области обработки естественного языка. Мы сосредоточимся на применении трансферного обучения в НЛП для создания высокопроизводительных моделей с минимальными усилиями для решения ряда задач НЛП. Вступление В последние два года или около..

Как составить список самых распространенных слов из корпуса текста с помощью Scikit-Learn?

Часто мы хотим узнать, какие слова наиболее распространены в текстовом корпусе, потому что мы ищем какие-то закономерности. Объяснение vec = CountVectorizer (). fit (корпус) Здесь мы получаем модель Bag of Word, которая очистила текст, удалив нецифровые символы и стоп-слова . bag_of_words = vec.transform (корпус) bag_of_words матрица, где каждая строка представляет определенный текст в корпусе , а каждый столбец представляет слово в словаре, то есть все слова, найденные..

Habana Labs Goya делает вывод на BERT

Habana Labs Goya предоставляет логические выводы по BERT Goya превосходит T4 GPU в ключевом тесте NLP BERT (Bidirectional Encoder Representations from Transformers) — это модель представления языка, основанная на нейронной архитектуре Transformer, представленная Google в 2018 году. Этот подход был быстро принят многими, поскольку он обеспечивал повышенную точность, а также способствовал дальнейшему развитию тенденции передачи обучение с двунаправленной архитектурой, которая..