Публикации по теме 'nlp'


Победа в конкурсе на понимание цифровых данных финансовых данных
Задача NTCIR-14 FinNum На прошлой неделе наша команда специалистов по обработке и анализу данных успешно выиграла конкурс «Мелкое числовое понимание финансовых твитов». Мы так гордимся ими! Введение Чтобы понять детали финансового документа , инвесторам необходимо проанализировать не только текст, но и фундаментальную и техническую числовую информацию. Числовые данные играют решающую роль в финансовой сфере, например, при оценке стоимости ценных бумаг или прогнозировании..

COVID-19 FAQ Bot: все, что вам нужно знать о сходстве QnA
Автоматическая система ответов на вопросы, связанные с COVID-19 Примечание от автора. На пути к науке о данных — это публикация на Medium, в основном посвященная изучению науки о данных и машинного обучения. Мы не специалисты в области здравоохранения или эпидемиологи, и мнения в этой статье не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь . В последние месяцы COVID-19 стал вирусной темой в мире. Сегодня, когда..

Обучение токенизаторов BPE, WordPiece и Unigram с нуля с помощью Hugging Face
Сравнение токенов, сгенерированных алгоритмами токенизации SOTA с использованием пакета токенизаторов Hugging Face Продолжая глубокое погружение в море НЛП, этот пост посвящен обучению токенизаторов с нуля с использованием пакета токенизаторов Hugging Face . Токенизация часто рассматривается как подполе НЛП, но у нее есть своя история эволюции и то, как она достигла своей нынешней стадии, когда она лежит в основе современных моделей НЛП. Прежде чем мы перейдем к интересной части..

Обзор литературы: Интерфейсы естественного языка для баз данных (NLIDB)
Обзор литературы: Интерфейсы естественного языка для баз данных (NLIDB) Чтобы сделать многословным то, что когда-то требовало сложных языков Добро пожаловать в серию Обзор литературы ! Мы изучаем множество исследовательских работ, связанных с общей проблемой, чтобы понять различные подходы к решению данной проблемы. Эта идея вдохновлена ​​статьями в блоге Куриана . Прочтите это! Резюме исследования Перенос обучения от проверки говорящего на синтез..

Фразы качества майнинга из не столь массивных текстовых корпусов (часть I)
Фразы качества майнинга из не столь массивных текстовых корпусов (часть I) Вы можете найти репо с Jupyter Notebook, содержащее использованный код здесь На прошлой неделе я имел удовольствие посетить лекцию по интеллектуальному анализу текстовых данных профессора Цзявэя Хана из Иллинойского университета в Урбане-Шампейне, который буквально написал учебник по интеллектуальному анализу данных и имеет больше цитирований, чем Эйнштейн, в Google Scholars (я не шучу: здесь и здесь )...

Bag-of-Words: простейший процесс извлечения признаков в НЛП
Какие? Модель мешка слов (BoW)  – это простейшее представление текстового документа, основанное на частоте использования слов и фиксированном объеме словарного запаса. Почему? Для некоторых алгоритмов машинного обучения мы не можем передавать текст непосредственно в модель для обучения или тестирования. Итак, мы можем преобразовать текстовый документ в векторы признаков, используя BoW. Как? BoW слов необходимо создать словарь из входных текстов, тогда для каждого ввода он будет..

Обзор литературы - Создание примеров состязательности естественного языка
Использование генетических алгоритмов для состязательной атаки на основе подстановки синонимов Модели глубокого обучения уязвимы для состязательных примеров: возмущения входных данных, незаметные для человека, могут привести к неправильной классификации хорошо обученной глубокой нейронной сети. Несмотря на то, что примеры состязательности изучаются в области компьютерного зрения, область обработки естественного языка (НЛП) остается относительно новой. Ключевая трудность изучения..