Публикации по теме 'information-retrieval'
Минимаксная игра и ее обобщаемость на другие области
Генеративно-состязательная сеть (GAN) была очень активной областью исследований в сообществе глубокого обучения. Хотя было несколько архитектур, предлагающих мелочи по сравнению с существующими фреймворками, суть этой идеи — игры Adversarial — осталась нетронутой. Вы найдете множество статей, объясняющих, как работает GAN, и я бы порекомендовал читателям ознакомиться с некоторыми из них. Вот ссылка для всех любителей Medium: https://medium.com/@jonathan_hui/gan-..
Оценка поиска информации
История Precision & Recall
Продолжая последний пост, это была бы отличная возможность обсудить некоторые из моих знаний методологий оценки в области информационного поиска, представив концепции точности, отзыва и F1-балла (также F-Score, F Measure) или, по крайней мере, дать ему пытаться.
Прежде чем я продолжу краткое обсуждение вышеупомянутых терминов, я должен сделать разумную ссылку на предыдущий пост о том, как мне удалось разработать и провести воспроизводимые эксперименты,..
Релевантность, рейтинг и поиск
Это давно назревший пост, он находится в стадии разработки с июня 2018 г.
1960-е годы - исследователи тестировали поисковые системы примерно на 1,5 мегабайтах текстовых данных. Перенесемся в 2018 год, и теперь у нас есть миллиарды веб-страниц и колоссальные данные. Хотя один вопрос, который все еще не решен, - это актуальность.
Актуальность - это основная часть поиска информации. Грубо говоря, релевантный результат поиска - это тот, в котором человек получает то, что искал...
Архитектура-трансформер: внимание — это все, что вам нужно
В этом посте мы собираемся исследовать концепцию внимания и посмотреть, как она питает «Архитектуру трансформера», которая, таким образом, демонстрирует, почему «Внимание — это все, что вам нужно!»
Введение:
Всякий раз, когда речь идет о долгосрочных зависимостях (проблемы обработки естественного языка), мы знаем, что RNN (даже с использованием хаков, таких как двунаправленные, многоуровневые шлюзы на основе памяти — LSTM / GRU) страдают от проблемы исчезающего градиента. Кроме того,..
SymSpell против BK-дерева: в 100 раз быстрее поиск нечетких строк и проверка орфографии
Обычная мудрость и учебники говорят, что BK-деревья особенно подходят для исправления орфографии и поиска по нечеткой строке. Но так ли это на самом деле?
Также в комментариях к моему сообщению в блоге об исправлении орфографии BK-дерево было упомянуто как превосходная структура данных для нечеткого поиска.
Поэтому я решил сравнить и протестировать BK-дерево с другими вариантами.
Примерные алгоритмы поиска строки
Приближенный поиск строки позволяет найти строку в списке строк..
Рейтинг автозаполнения
Расширьте поле поиска с помощью статистики, контролируемого обучения, байесовского вывода, PCA, кластеризации, встраивания слов и многого другого! О боже!
В последнем посте мы говорили о поиске: заданный префикс, создание списка предложений кандидатов, которые мы можем предложить пользователям в поле поиска. В этом посте мы поговорим о том, как упорядочить этот список кандидатов.
На практике большинство производственных систем делятся на две фазы. Первый этап обычно очень..
AI Distillery (часть 2): дистилляция путем встраивания
AI Distillery (часть 2): дистилляция путем встраивания
Вложения слов (word2vec, fastText), вложения в бумагу (LSA, doc2vec), визуализация встраивания, поиск по бумаге и диаграммы!
В MTank мы стремимся к двум целям: (1) моделирование и обобщение знаний в рамках ИИ. (2) Продвигайтесь к созданию действительно интеллектуальных машин. В рамках этих усилий мы выпускаем статьи о нашей работе, чтобы люди могли получать от них удовольствие и учиться. Если вам нравится наша работа, то,..