Публикации по теме 'entity-resolution'


Задача привязки Entity к данным Twitter
Задача привязки Entity к данным Twitter Данные Twitter, как известно подавляющему большинству людей, работающих с данными, представляют собой очень ценный тип данных. Из-за объема (миллиарды твитов каждый год) и разнообразия тем, которые адресуются, эта платформа является мощным источником данных. Но с мощными данными часто наступают трудные времена. На самом деле, я и многие мои коллеги, работающие с данными, считаем данные Twitter одними из самых сложных для работы. "Но почему ?"..

pyJedAI
Все, что вам нужно для разрешения сущностей Что такое разрешение сущности? Разрешение сущностей (ER) — это задача выявления связей между записями, которые представляют один и тот же объект реального мира, но не имеют связи между ними. Из-за квадратичной временной сложности ER обычно выполняется в два этапа: сначала блокировка ограничивает вычислительные затраты похожими описаниями, а затем сопоставление оценивает фактическое сходство между ними. Пример Одним из наиболее..

Практическое руководство по разрешению проблем юридических лиц - часть 6
Создание сущностей Это последняя часть мини-серии о разрешении сущностей. Посмотрите часть 1 , часть 2 , часть 3 , часть 4 , часть 5 , если вы ее пропустили Конечным выходом ER является структура данных, которая имеет уникальные идентификаторы для каждой разрешенной сущности, а также сопоставления между уникальным идентификатором сущности и соответствующими идентификаторами разрешенных записей данных в разрозненных исходных системах. Это относительно просто сделать с помощью..

ThinkData о разрешении объектов на TMLS 2019
В 2018 году ThinkData сформировала команду DataLabs, чтобы решить проблему устранения неоднозначности сущностей реального мира из данных и предоставить нашим пользователям эффективные, гибкие и адаптированные к их конкретному варианту использования инструменты разрешения сущностей. Наш ведущий специалист по данным, Хоён Джанг, и выпускник Co-op Data Science Co-op, Ченг Лин, имели возможность выступить на Саммите по машинному обучению в Торонто в 2019 году. В этом видео они подробно..

Практическое руководство по разрешению проблем юридических лиц - часть 5
Итерация подсчета очков Это часть 5 мини-серии о разрешении сущностей. Посмотрите часть 1 , часть 2 , часть 3 , часть 4 , если вы ее пропустили. В большинстве реальных случаев использования ER не существует достоверной информации о том, какая пара кандидатов должна совпадать, а какая нет. Единственный способ добиться хорошей точности сопоставления - это ввести человеческое суждение в цикл итеративного обучения и постепенно улучшать алгоритм подсчета баллов. В этом посте мы..