Задача привязки Entity к данным Twitter

Данные Twitter, как известно подавляющему большинству людей, работающих с данными, представляют собой очень ценный тип данных. Из-за объема (миллиарды твитов каждый год) и разнообразия тем, которые адресуются, эта платформа является мощным источником данных.

Но с мощными данными часто наступают трудные времена. На самом деле, я и многие мои коллеги, работающие с данными, считаем данные Twitter одними из самых сложных для работы. "Но почему ?" Вы можете спросить. Что ж, давайте посмотрим, почему.

Почему данные Twitter трудно обрабатывать?

Наиболее очевидными аспектами, которые затрудняют обработку этого типа данных, являются:

  • Краткость: большинство подходов основаны на твитах, а это означает, что полный контекст для рассуждений — это только длина твита, которая составляет 280 символов. Это очень короткий контекст.
  • Качество: твиты не являются правильно сформированными данными. Существует много орфографических ошибок и слагов, которые действительно затрудняют простое понимание, даже иногда людьми.
  • Контекст . Данные Twitter очень зависят от контекста. Под контекстом я подразумеваю, что человек, создающий твит, создает его, исходя из своих интересов. В сочетании с тем фактом, что эта социальная платформа основана на сети, что означает, что люди со схожими интересами следуют друг за другом, существует общий контекст, который затрудняет анализ полученных данных. Например, если я состою в сети футбольных болельщиков, если я использую фразу типа «последний матч победителя прошлого сезона был катастрофой», я знаю о матче, сезоне, чемпионате, который я провел. м говорю о. Но поскольку это общий контекст между пользователями, вне контекстной системы или пользователя трудно понять, о чем идет речь.

Из-за трех предыдущих причин становится яснее, почему данные Twitter трудно обрабатывать. Кроме того, важным аспектом является то, что эти данные можно рассматривать как разговорные устные данные, а это означает, что их можно рассматривать как простую повторную транскрипцию того, что человек сказал бы, но в письменной форме. Это делает использование этой платформы действительно приятным, но сложным анализом.

Задача связывания сущностей

Теперь о задаче связывания сущностей. Эта задача довольно хорошо известна с точки зрения исследований. Эта задача существует уже почти 20 лет и в настоящее время хорошо структурирована как область исследования. В литературе было предложено множество подходов для множества различных типов данных. Но применительно к данным Twitter современный подход не смог обеспечить удовлетворительную производительность.

Эта задача довольно проста: на основе поверхностной формы, идентифицированной системой распознавания именованных объектов (NER), мы хотим идентифицировать объект из базы знаний (DBPedia, викиданные, …), на который ссылается исходный текст. Если я использую «Манчестер» внутри текста, я хочу, чтобы система связывания сущностей могла связать его с городом или футбольной спортивной командой.

Эта задача в значительной степени зависит от доступного контекста. Есть много хороших обзоров, которые дают представление о предметной области, я не буду делать эту работу здесь, так как некоторые другие исследователи проделали высококачественную работу. Но, как мы видели, в Твиттере контекст очень плохой.

Это отсутствие контекста вызывает проблемы на каждом этапе. Во-первых, часть NER не смогла идентифицировать всю форму поверхности, а также еще больше отказала в процессе набора текста, что сделало ее ненадежной для следующих шагов. Эти сбои происходят из-за неустойчивой формы поверхностного текста, который используется для ссылки на объект, в сочетании с отсутствием контекста и грамматическими ошибками, которые приводят к сокрытию шаблонов, которые могли быть использованы системой NER.

Во-вторых, отсутствие контекста делает шаг выбора кандидата (то есть шаг, на котором выбирают правильного кандидата из списка потенциальных), потому что при наличии всего нескольких элементов на какие подсказки система может полагаться при принятии решения?

По этому вопросу одна часть литературы основывала его работу на объеме данных и методе глубокого обучения, оставляя извлечение контекста и отношение внутри данных к этим методам, известным своей мощной способностью обнаружения паттернов. Другая часть основывала его работу не на объеме, а на мультимодальном аспекте, в котором использовалась база знаний, чистый НЛП, чистый график и набор показателей для максимального извлечения контекста.

Я лично предпочитаю второй тип подхода из-за его объяснимости и мощных возможностей извлечения из-за мультимодального аспекта.

Заключение

Предстоит еще много работы, чтобы добиться удовлетворительной производительности. С одной стороны, эту работу необходимо проделать с самой системой, а с другой — с данными, которые используются для ее тестирования. В настоящее время трудно сравнивать разработанные системы из-за отсутствия согласия в отношении руководящих принципов, используемых для аннотирования набора данных для оценки этой задачи. Но домен будет вынужден прийти к соглашению, иначе он никогда не достигнет уровня консолидации, позволяющего заполнить пробел, существующий для задачи связывания сущностей, применяемой к данным Twitter.