Публикации по теме 'nlp'


Подводя итоги ODSC APAC 2021 — Два дня интенсивного обучения науке о данных
Нам осталось несколько дней до Виртуальной конференции ODSC APAC 2021 , и мы в восторге от того, как все получилось. В течение двух дней на конференцию зарегистрировалось более 5300 человек — это одно из крупнейших онлайн-мероприятий по науке о данных. Участники участвовали в живых презентациях, общались в режиме реального времени, участвовали в розыгрышах призов и в целом были невероятно активны. Вот несколько основных моментов конференции, чтобы показать, на что похоже событие..

Семантический анализ с использованием представления абстрактного смысла
Один из подходов к созданию системы ответов на вопросы для ответов на вопросы пользователей из связанных данных (или баз данных / графов знаний) заключается в использовании модели глубокого обучения с большим набором обучающих пар вопрос-ответ для конкретного приложения для непрерывного обучения. система. Альтернативный нейро-символический подход заключался бы в создании системы путем объединения нескольких компонентов, каждый из которых обучен на собственном общем наборе данных, с очень..

Вложения предложений на основе трансформаторов
Учебник по глубокому обучению NLP по анализу коллекций документов с извлечением суммирования текста с использованием встраиваемых предложений на основе преобразователя, полученных из языковых моделей SOTA Обработка естественного языка (NLP) - это разнообразная область; подходы и методы столь же разнообразны, как и разнообразие текстовых образцов, доступных для анализа (например, блоги, твиты, обзоры, политические документы, новые статьи, журнальные публикации и т. д.). Выбор хорошего..

Обработка естественного языка
Аналитика социальных сетей — Семантика распространения Английский лингвист Джон Ферт сказал в 1957 году: « Вы узнаете слово по компании, которую оно составляет». Наиболее часто используемое представление слов – это "словные векторы". Существует два основных метода представления слов в виде векторов: Матрица вхождений термин-документ , где каждая строка представляет собой термин в словаре, а каждый столбец представляет собой документ (например, веб-страницу, твит, книгу и т...

Упражнения по науке о данных: насколько Трамп похож на других президентов, основываясь на инаугурационных речах?
Это основано на результатах выполнения некоторого алгоритма Doc2Vec NLP (обработка естественного языка), написанного командой Google. (Мелкие двухслойные нейронные сети). Имена на оси имеют формат ‹year› _ ‹president› _ ‹party› _ ‹cluster›. Теперь мы использовали другой метод для кластеризации результатов, к которому мы еще вернемся. Во-первых, давайте углубимся в сходство. Вот наиболее похожие выступления: [('1993_Clinton_D_1', 0.9777867794036865), ('1977_Carter_D_5',..

Интервью с Data Scientist в kaggle: д-р Рэйчел Татман
Часть 17 Сериала , где я беру интервью у своих героев. Указатель и о сериале Интервью с ML Heroes » Сегодня я очень рад возможности поговорить с кем-то из команды kaggle: я разговариваю с доктором Рэйчел Татман, специалистом по анализу данных в kaggle. Рэйчел имеет докторскую степень. Имеет степень магистра лингвистики Вашингтонского университета, а также степень магистра лингвистики Вашингтонского университета. В настоящее время она работает специалистом по данным в Kaggle, а..

Выбор правильной метрики для оценки моделей машинного обучения - Часть 1
Первая часть серии посвящена метрикам регрессии В мире постмодернизма релятивизм в различных его проявлениях был одним из самых популярных и наиболее осуждаемых философских учений. Согласно релятивизму не существует универсальной и объективной истины; скорее каждая точка зрения имеет свою истину. Вам должно быть интересно, почему я обсуждаю это и как это вообще связано с наукой о данных. Что ж, в этом посте я буду обсуждать полезность каждой метрики ошибки в зависимости от..