Статьи, учебные пособия и популярные библиотеки

Здравствуйте, любители НЛП! Как только появится Discord-сервер NLPlanet для общения НЛП-практиков, я работаю над первой организацией его каналов. Я планирую добавить обучающие ресурсы для многих областей НЛП, поэтому эта статья — шаг к подготовке такого контента. Если вас интересует сервер Discord, подпишитесь на NLPlanet на Medium, LinkedIn или Twitter, чтобы быть в курсе его выпуска. Наслаждаться! 😄

Ниже следует подготовленный мной первый проект учебных ресурсов по информационному поиску NLPlanet. Будучи черновиком, этот список будет улучшен с учетом отзывов сообщества.

Эта статья является частью 5 серии статей об учебных ресурсах:

  1. Удивительное НЛП — 18 качественных ресурсов для изучения НЛП
  2. Две минуты НЛП — 21 учебный ресурс для классификации текстов
  3. Две минуты НЛП — 20 учебных ресурсов для встраивания слов
  4. Две минуты НЛП — 20 учебных ресурсов для трансформеров

Что такое поиск информации

Информационный поиск (IR) — это процесс, который отвечает на запрос пользователя, исследуя набор документов и возвращая упорядоченный список документов, где каждый документ должен иметь отношение к запросу пользователя. Это деятельность по получению информационных ресурсов, соответствующих информационной потребности.

Популярным видом информационного поиска является Семантический поиск. Семантический поиск — это метод поиска данных, в котором поисковый запрос направлен не только на поиск ключевых слов, но и на определение намерения и контекстуального значения слов, которые человек использует для поиска.

Приложения для поиска информации и варианты использования

  • Поисковые системы, поиск текстовых документов, изображений, видео и так далее.
  • Ответы на вопросы по набору документов (например, с помощью чат-бота или смарт-динамика).
  • Рекомендательные системы.
  • Сводка комплекта документов.

Статьи и учебные пособия

Популярные библиотеки

  • Elasticsearch: Elasticsearch — это распределенная, бесплатная и открытая поисковая и аналитическая система для всех типов данных, включая текстовые, числовые, геопространственные, структурированные и неструктурированные. Elasticsearch построен на Apache Lucene.
  • Jina: Jina — это платформа нейронного поиска, которая позволяет любому создавать SOTA и масштабируемые приложения нейронного поиска.
  • Milvus: Milvus — это векторная база данных с открытым исходным кодом, созданная для встраивания приложений поиска сходства и ИИ.
  • Haystack: Haystack — это комплексная платформа, которая позволяет создавать мощные и готовые к работе конвейеры для различных вариантов использования поиска. Независимо от того, хотите ли вы выполнять ответы на вопросы или семантический поиск документов, вы можете использовать современные модели NLP в Haystack, чтобы предоставить уникальные возможности поиска и позволить вашим пользователям выполнять запросы на естественном языке.
  • Faiss: Faiss — это библиотека для эффективного поиска сходства и кластеризации плотных векторов. Он содержит алгоритмы поиска в наборах векторов любого размера, вплоть до таких, которые возможно не помещаются в оперативную память.
  • Weaviate: Weaviate — векторный поисковик и векторная база данных. Weaviate использует машинное обучение для векторизации и хранения данных, а также для поиска ответов на запросы на естественном языке.
  • Vector Hub: Vector Hub — это библиотека для публикации, обнаружения и использования современных моделей для преобразования данных в векторы, таких как Text2Vec, Image2Vec, Video2Vec, Face2Vec, Bert2Vec, Inception2Vec, Code2Vec, LegalBert2Vec, и т. д.

Заключение

Если вы знаете какие-либо другие полезные ресурсы для изучения, в частности, информационного поиска, сообщите мне, чтобы я мог поделиться ими с сообществом.

Другими областями НЛП, которым потребуется отдельная область учебных ресурсов, являются чат-боты, языковые модели, ответы на вопросы и речь.

Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!