Статьи, учебные пособия и популярные библиотеки
Здравствуйте, любители НЛП! Как только появится Discord-сервер NLPlanet для общения НЛП-практиков, я работаю над первой организацией его каналов. Я планирую добавить обучающие ресурсы для многих областей НЛП, поэтому эта статья — шаг к подготовке такого контента. Если вас интересует сервер Discord, подпишитесь на NLPlanet на Medium, LinkedIn или Twitter, чтобы быть в курсе его выпуска. Наслаждаться! 😄
Ниже следует подготовленный мной первый проект учебных ресурсов по информационному поиску NLPlanet. Будучи черновиком, этот список будет улучшен с учетом отзывов сообщества.
Эта статья является частью 5 серии статей об учебных ресурсах:
- Удивительное НЛП — 18 качественных ресурсов для изучения НЛП
- Две минуты НЛП — 21 учебный ресурс для классификации текстов
- Две минуты НЛП — 20 учебных ресурсов для встраивания слов
- Две минуты НЛП — 20 учебных ресурсов для трансформеров
Что такое поиск информации
Информационный поиск (IR) — это процесс, который отвечает на запрос пользователя, исследуя набор документов и возвращая упорядоченный список документов, где каждый документ должен иметь отношение к запросу пользователя. Это деятельность по получению информационных ресурсов, соответствующих информационной потребности.
Популярным видом информационного поиска является Семантический поиск. Семантический поиск — это метод поиска данных, в котором поисковый запрос направлен не только на поиск ключевых слов, но и на определение намерения и контекстуального значения слов, которые человек использует для поиска.
Приложения для поиска информации и варианты использования
- Поисковые системы, поиск текстовых документов, изображений, видео и так далее.
- Ответы на вопросы по набору документов (например, с помощью чат-бота или смарт-динамика).
- Рекомендательные системы.
- Сводка комплекта документов.
Статьи и учебные пособия
- Создание простой поисковой системы с использованием Python: поиск информации с использованием косинусного сходства и матрицы термин-документ с взвешиванием TF-IDF.
- TF-IDF с нуля в python на реальном наборе данных: поиск документов с использованием косинусного подобия TF-IDF.
- Введение в поиск информации [блокнот Kaggle]: это руководство охватывает основы концепций поиска информации и фокусируется на логических моделях и моделях ранжированного поиска TF-IDF. В конце представлены способы оценки IR-системы с использованием эталонного набора данных и алгоритма, поставляемого с современными поисковыми системами на основе Lucene.
- Семантический поиск с вложениями: индексируйте что угодно: умный поиск, конвейер кодирования, конвейер поиска и решения с открытым исходным кодом.
- Как создать семантический поиск на естественном языке для произвольных объектов с помощью глубокого обучения: комплексный пример того, как построить систему, которая может выполнять семантический поиск объектов с использованием вложений.
- Быстрый семантический поиск с использованием сетей Siamese-BERT: использование библиотеки S-BERT для создания вложений предложений фиксированной длины, подходящих для семантического поиска в большом корпусе. Статья с кодом.
- Как создать семантическую поисковую систему с помощью трансформеров и Файсса: как создать векторную поисковую систему с помощью трансформеров предложений и Файсса с кодом.
- Семантический поиск с помощью S-BERT — это все, что вам нужно: создание семантической поисковой системы с нуля с использованием S-BERT.
- Поиск семантического сходства в миллиардном масштабе с помощью FAISS+SBERT: создание прототипа интеллектуального поиска с помощью Faiss и S-BERT.
- Учимся ранжировать для поиска информации: глубокое погружение в RankNet: обзор современных систем ранжирования, которые можно использовать для поиска информации.
- Релевантность, ранжирование и поиск: список традиционных моделей информационного поиска.
- Перезарядка Elasticsearch с ответами на вопросы Haystack: ответы на вопросы с помощью Haystack.
- Начало работы с Elasticsearch в Python: Настройка Elasticsearch и доступ к нему с помощью Python.
Популярные библиотеки
- Elasticsearch: Elasticsearch — это распределенная, бесплатная и открытая поисковая и аналитическая система для всех типов данных, включая текстовые, числовые, геопространственные, структурированные и неструктурированные. Elasticsearch построен на Apache Lucene.
- Jina: Jina — это платформа нейронного поиска, которая позволяет любому создавать SOTA и масштабируемые приложения нейронного поиска.
- Milvus: Milvus — это векторная база данных с открытым исходным кодом, созданная для встраивания приложений поиска сходства и ИИ.
- Haystack: Haystack — это комплексная платформа, которая позволяет создавать мощные и готовые к работе конвейеры для различных вариантов использования поиска. Независимо от того, хотите ли вы выполнять ответы на вопросы или семантический поиск документов, вы можете использовать современные модели NLP в Haystack, чтобы предоставить уникальные возможности поиска и позволить вашим пользователям выполнять запросы на естественном языке.
- Faiss: Faiss — это библиотека для эффективного поиска сходства и кластеризации плотных векторов. Он содержит алгоритмы поиска в наборах векторов любого размера, вплоть до таких, которые возможно не помещаются в оперативную память.
- Weaviate: Weaviate — векторный поисковик и векторная база данных. Weaviate использует машинное обучение для векторизации и хранения данных, а также для поиска ответов на запросы на естественном языке.
- Vector Hub: Vector Hub — это библиотека для публикации, обнаружения и использования современных моделей для преобразования данных в векторы, таких как Text2Vec, Image2Vec, Video2Vec, Face2Vec, Bert2Vec, Inception2Vec, Code2Vec, LegalBert2Vec, и т. д.
Заключение
Если вы знаете какие-либо другие полезные ресурсы для изучения, в частности, информационного поиска, сообщите мне, чтобы я мог поделиться ими с сообществом.
Другими областями НЛП, которым потребуется отдельная область учебных ресурсов, являются чат-боты, языковые модели, ответы на вопросы и речь.
Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!