Публикации по теме 'entity-resolution'
Задача привязки Entity к данным Twitter
Задача привязки Entity к данным Twitter
Данные Twitter, как известно подавляющему большинству людей, работающих с данными, представляют собой очень ценный тип данных. Из-за объема (миллиарды твитов каждый год) и разнообразия тем, которые адресуются, эта платформа является мощным источником данных.
Но с мощными данными часто наступают трудные времена. На самом деле, я и многие мои коллеги, работающие с данными, считаем данные Twitter одними из самых сложных для работы. "Но почему ?"..
pyJedAI
Все, что вам нужно для разрешения сущностей
Что такое разрешение сущности?
Разрешение сущностей (ER) — это задача выявления связей между записями, которые представляют один и тот же объект реального мира, но не имеют связи между ними.
Из-за квадратичной временной сложности ER обычно выполняется в два этапа: сначала блокировка ограничивает вычислительные затраты похожими описаниями, а затем сопоставление оценивает фактическое сходство между ними.
Пример
Одним из наиболее..
Практическое руководство по разрешению проблем юридических лиц - часть 6
Создание сущностей
Это последняя часть мини-серии о разрешении сущностей. Посмотрите часть 1 , часть 2 , часть 3 , часть 4 , часть 5 , если вы ее пропустили
Конечным выходом ER является структура данных, которая имеет уникальные идентификаторы для каждой разрешенной сущности, а также сопоставления между уникальным идентификатором сущности и соответствующими идентификаторами разрешенных записей данных в разрозненных исходных системах. Это относительно просто сделать с помощью..
ThinkData о разрешении объектов на TMLS 2019
В 2018 году ThinkData сформировала команду DataLabs, чтобы решить проблему устранения неоднозначности сущностей реального мира из данных и предоставить нашим пользователям эффективные, гибкие и адаптированные к их конкретному варианту использования инструменты разрешения сущностей.
Наш ведущий специалист по данным, Хоён Джанг, и выпускник Co-op Data Science Co-op, Ченг Лин, имели возможность выступить на Саммите по машинному обучению в Торонто в 2019 году.
В этом видео они подробно..
Практическое руководство по разрешению проблем юридических лиц - часть 5
Итерация подсчета очков
Это часть 5 мини-серии о разрешении сущностей. Посмотрите часть 1 , часть 2 , часть 3 , часть 4 , если вы ее пропустили.
В большинстве реальных случаев использования ER не существует достоверной информации о том, какая пара кандидатов должна совпадать, а какая нет. Единственный способ добиться хорошей точности сопоставления - это ввести человеческое суждение в цикл итеративного обучения и постепенно улучшать алгоритм подсчета баллов. В этом посте мы..