TL;DR:

TL;DR ChunkDot — это библиотека для многопоточного умножения матриц и вычислений косинусного сходства, недавно расширенная для поддержки разреженных матричных представлений. Это может помочь увеличить масштаб вычислений подобия для сценариев использования NLP, таких как дедупликация, рекомендации и кластеризация. Он разбивает матрицу вложений на куски и распараллеливает вычисление косинусного подобия, получая K наиболее похожих элементов на элемент.
Отказ от ответственности. В этой статье для генерации текста используется Cohere.

Краткое содержание:

В моем предыдущем сообщении в блоге я представил ChunkDot, библиотеку, которая выполняет многопоточное умножение матриц и косинусное сходство и подходит для вычисления K наиболее похожих элементов для большого количества элементов. Я рад сообщить, что в последнем выпуске ChunkDot теперь поддерживает разреженные матрицы, что делает его еще более мощным инструментом для расчетов массового сходства. В этом сообщении блога я объясню, как ChunkDot может помочь вам масштабировать вычисления подобия для разреженных вложений. Разделив матрицу вложений на куски и распараллелив вычисление косинусного сходства, ChunkDot может получить K наиболее похожих элементов на элемент. Это может быть чрезвычайно полезно для широкого спектра приложений, таких как дедупликация документов, рекомендации для похожих документов или кластеризация/тегирование/группировка документов. Для поддержки разреженных матриц ChunkDot использует ту же методологию многопоточности Numba и добавляет логику умножения разреженных матриц, совместимую с Numba в режиме без Python. Мне пришлось написать логику самому, поскольку реализация умножения разреженных матриц в SciPy не поддерживается Numba. Логика выполняет матричное умножение в CS В заключение, ChunkDot — это эффективная библиотека, которая может помочь масштабировать вычисления подобия для большого количества разреженных вложений с поддержкой многопоточного матричного умножения и вычислений косинусного сходства. Он подходит для таких случаев использования, как дедупликация документов, рекомендации для похожих документов и кластеризация/тегирование/группировка документов. В новом выпуске добавлена ​​логика умножения разреженных матриц, совместимая с Numba в режиме без Python, что позволяет ChunkDot поддерживать форматы разреженных матриц SciPy. Это позволяет пользователям легко применять ChunkDot к своим вариантам использования и масштабировать расчеты подобия для большого количества разреженных вложений.

Откройте для себя полную историю, первоначально опубликованную в разделе Навстречу ИИ.
Присоединяйтесь ко мне в этом невероятном путешествии по генеративному ИИ и станьте частью революции. Стать участником или Купить мне кофе. Следите за обновлениями и идеями о генеративном ИИ, подписываясь на меня в Twitter, Linkedin или мой сайт. Ваша поддержка действительно ценится!

Рекомендации ресурсов для начала работы с генеративным ИИ:

Учебники, руководства и демонстрации по генеративному ИИ

Генеративный ИИ с Python и Tensorflow 2

Трансформеры для обработки естественного языка

Изучение GPT-3