Публикации по теме 'information-retrieval'


Минимаксная игра и ее обобщаемость на другие области
Генеративно-состязательная сеть (GAN) была очень активной областью исследований в сообществе глубокого обучения. Хотя было несколько архитектур, предлагающих мелочи по сравнению с существующими фреймворками, суть этой идеи — игры Adversarial — осталась нетронутой. Вы найдете множество статей, объясняющих, как работает GAN, и я бы порекомендовал читателям ознакомиться с некоторыми из них. Вот ссылка для всех любителей Medium: https://medium.com/@jonathan_hui/gan-..

Оценка поиска информации
История Precision & Recall Продолжая последний пост, это была бы отличная возможность обсудить некоторые из моих знаний методологий оценки в области информационного поиска, представив концепции точности, отзыва и F1-балла (также F-Score, F Measure) или, по крайней мере, дать ему пытаться. Прежде чем я продолжу краткое обсуждение вышеупомянутых терминов, я должен сделать разумную ссылку на предыдущий пост о том, как мне удалось разработать и провести воспроизводимые эксперименты,..

Релевантность, рейтинг и поиск
Это давно назревший пост, он находится в стадии разработки с июня 2018 г. 1960-е годы - исследователи тестировали поисковые системы примерно на 1,5 мегабайтах текстовых данных. Перенесемся в 2018 год, и теперь у нас есть миллиарды веб-страниц и колоссальные данные. Хотя один вопрос, который все еще не решен, - это актуальность. Актуальность - это основная часть поиска информации. Грубо говоря, релевантный результат поиска - это тот, в котором человек получает то, что искал...

Архитектура-трансформер: внимание — это все, что вам нужно
В этом посте мы собираемся исследовать концепцию внимания и посмотреть, как она питает «Архитектуру трансформера», которая, таким образом, демонстрирует, почему «Внимание — это все, что вам нужно!» Введение: Всякий раз, когда речь идет о долгосрочных зависимостях (проблемы обработки естественного языка), мы знаем, что RNN (даже с использованием хаков, таких как двунаправленные, многоуровневые шлюзы на основе памяти — LSTM / GRU) страдают от проблемы исчезающего градиента. Кроме того,..

SymSpell против BK-дерева: в 100 раз быстрее поиск нечетких строк и проверка орфографии
Обычная мудрость и учебники говорят, что BK-деревья особенно подходят для исправления орфографии и поиска по нечеткой строке. Но так ли это на самом деле? Также в комментариях к моему сообщению в блоге об исправлении орфографии BK-дерево было упомянуто как превосходная структура данных для нечеткого поиска. Поэтому я решил сравнить и протестировать BK-дерево с другими вариантами. Примерные алгоритмы поиска строки Приближенный поиск строки позволяет найти строку в списке строк..

Рейтинг автозаполнения
Расширьте поле поиска с помощью статистики, контролируемого обучения, байесовского вывода, PCA, кластеризации, встраивания слов и многого другого! О боже! В последнем посте мы говорили о поиске: заданный префикс, создание списка предложений кандидатов, которые мы можем предложить пользователям в поле поиска. В этом посте мы поговорим о том, как упорядочить этот список кандидатов. На практике большинство производственных систем делятся на две фазы. Первый этап обычно очень..

AI Distillery (часть 2): дистилляция путем встраивания
AI Distillery (часть 2): дистилляция путем встраивания Вложения слов (word2vec, fastText), вложения в бумагу (LSA, doc2vec), визуализация встраивания, поиск по бумаге и диаграммы! В MTank мы стремимся к двум целям: (1) моделирование и обобщение знаний в рамках ИИ. (2) Продвигайтесь к созданию действительно интеллектуальных машин. В рамках этих усилий мы выпускаем статьи о нашей работе, чтобы люди могли получать от них удовольствие и учиться. Если вам нравится наша работа, то,..