1. Дальнейшие обобщения индекса Жаккара (arXiv)

Автор: Лучано да Ф. Коста

Аннотация: количественная оценка сходства между двумя математическими структурами или наборами данных представляет собой особенно интересную и полезную операцию в ряде теоретических и прикладных задач. С этой конкретной целью индекс Жаккара нашел широкое применение в самых разных типах задач, что также послужило основанием для некоторых соответствующих обобщений. В настоящей работе рассматриваются дальнейшие обобщения этого индекса, в том числе его модификация в индекс совпадений, способный также учитывать уровень относительной внутренней близости между двумя сравниваемыми объектами, а также соответствующие расширения для множеств в непрерывных векторных пространствах, обобщение до сложения мультимножеств. , плотности и общие скалярные поля, а также средство для количественной оценки совместной взаимозависимости между двумя случайными величинами. Также была рассмотрена интересная возможность учитывать более двух наборов, включая описание индекса, способного количественно определять уровень сцепления между тремя структурами. Некоторые из описанных и предложенных обобщений были проиллюстрированы числовыми примерами. Также утверждается, что эти индексы могут играть важную роль при анализе и интеграции наборов данных в подходах к моделированию и распознавании образов, в том числе в качестве измерения сходства или разделения кластеров, а также в качестве ресурса для представления и анализа сложных сетей.

2. О нормализации и визуализации данных о совместном цитировании авторов. Косинус Солтона по сравнению с индексом Жаккара (arXiv)

Автор:Лоэт Лейдесдорф

Аннотация:Спор о том, какую меру сходства следует использовать для нормализации в случае анализа авторского социтирования (ACA), еще более усложняется, когда проводится различие между симметричным социтированием — или, в более общем смысле, , совпадение — матрица и лежащее в основе асимметричное цитирование — появление — матрица. В веб-среде метод извлечения исходных данных о цитировании часто неосуществим. В этом случае следует использовать индекс Жаккара, но желательно после прибавления общего количества цитирований (вхождений) по главной диагонали. В отличие от косинуса Солтона и корреляции Пирсона, индекс Жаккара абстрагируется от формы распределения и фокусируется только на пересечении и сумме двух множеств. Поскольку корреляции в матрице совпадений частично могут быть ложными, это свойство индекса Жаккара можно рассматривать как преимущество в данном случае.

3. Сопоставленный подмножеству индекс Жаккара для оценки сегментации изображений растений (arXiv)

Автор:Джонатан Белл, Ханна М. Ди

Аннотация: мы описываем новую меру для оценки сегментации объектов на уровне региона применительно к оценке точности сегментации изображений растений на уровне листа. Предлагаемый подход обеспечивает соблюдение правила, согласно которому область (например, лист) либо в оцениваемом изображении, либо в оцениваемом истинном изображении может быть сопоставлена ​​не более чем с одной областью в другом изображении. Мы называем эту меру индексом Жаккара, согласованным с подмножеством.

4. Максимально согласованная выборка и индекс вероятностных распределений Жаккара (arXiv)

Автор: Райан Моултон, Юньцзян Цзян

Аннотация: мы представляем простые и эффективные алгоритмы для вычисления MinHash распределения вероятностей, подходящие как для разреженных, так и для плотных данных, с эквивалентным временем выполнения в обоих случаях. Вероятность столкновения этих алгоритмов является новой мерой сходства положительных векторов, которую мы подробно исследуем. Мы описываем, в каком смысле эта вероятность коллизий является оптимальной для любого локально-чувствительного хэша на основе выборки. Мы утверждаем, что эта мера сходства более полезна для вероятностных распределений, чем сходство, преследуемое другими алгоритмами для взвешенного MinHash, и является естественным обобщением индекса Жаккара.