Fortia организует общую задачу «Обнаружение границ предложения в зашумленном тексте PDF в финансовой сфере». Семинар по НЛП для финансовой сферы (FinNLP), организованный в сотрудничестве с Национальным университетом Тайваня на IJCAI (Международная совместная конференция по искусственному интеллекту, Макао, Китай). Fortia получила 7 статей, участвовало 10 команд и подписалось 60 человек.

Введение

Предложения являются базовыми единицами письменного языка, и определение начала и конца предложений или определение границ предложений (SBD) является основополагающим первым шагом во многих приложениях обработки естественного языка (NLP), таких как теги POS; синтаксический, семантический и дискурсивный анализ; извлечение информации; или машинный перевод.

Несмотря на важную роль в НЛП, обнаружению границ предложений до сих пор не уделялось должного внимания. Предыдущие исследования в этой области были ограничены только формальными текстами (новости, заседания Европейского парламента и т. д.), где существующие подходы, основанные на правилах и машинном обучении, чрезвычайно точны (когда данные идеально чистые). На сегодняшний день ни одно исследование по обнаружению границ предложений не решило проблему зашумленных текстов, автоматически извлекаемых из файлов машиночитаемых форматов (обычно файлов формата PDF), таких как финансовые документы.

В этой общей задаче мы сосредоточимся на извлечении хорошо сегментированных предложений из финансовых проспектов, определяя их начальные и конечные границы. Это официальные документы в формате PDF, в которых инвестиционные фонды точно описывают свои характеристики и условия инвестирования. Важнейшим этапом извлечения любой информации из этих файлов является их синтаксический анализ для получения зашумленного неструктурированного текста, его очистка, форматирование информации (путем добавления нескольких тегов) и, наконец, преобразование ее в полуструктурированный текст, где хорошо обозначены границы предложений.

  • Результаты участников:

Следующая важная дата

10–12 августа 2019 г.: Семинар FinNLP 2019 в Макао

Вывод

Fortia представила новый набор данных по проблеме SBD в виде текста, автоматически извлекаемого из файлов PDF для французского и английского языков. Этот сценарий очень реалистичен в повседневных приложениях, что может объяснить разнообразие участвующих учреждений, от государственных университетов до коммерческих организаций из финансовой сферы. В этом смысле совместная задача увенчалась успехом, поскольку смогла объединить исследователей из разных секторов.

Соорганизаторы общих задач — Fortia Financial Solutions

· Сира Ферраданс [email protected]

· Абдеррахим Айт-Аззи [email protected]

· Гийом Юбер [email protected]

· Худа Буамор [email protected]

Ссылка ниже для более подробной информации ⬇