Задача резюмирования текста

Некоторое время назад я присоединился к какой-то исследовательской группе, которая хотела улучшить навыки в НЛП. Нашим первым мероприятием было участие в конкурсе реферирования текстов на платформе Biendata. Задача заключалась в создании заголовков для статей. Мы присоединились к конкурсу менее чем за неделю до его окончания, поэтому у нас не было особых надежд на получение отличного результата. Тем не менее мы попробовали и узнали кое-что о современных подходах к этой задаче. Gensim и Fast Abstractive Summarization-RL отлично работали.

Хакатон Introspect

Сообщество ODS в третий раз организовало небольшой хакатон. Это было не для призов, а для разработки некоторых вещей, которые могут быть полезны или интересны для сообщества. Я провел некоторый анализ, чтобы составить базовый отчет. Также наша небольшая «команда» (2 человека) создала карту (пакет folium на python), показывающую, в каких городах живут люди из ODS.

Другой текстовый конкурс

Также наша группа НЛП принимает участие в этом конкурсе https://www.kaggle.com/c/fake-news-pair-classification-challenge

Учитывая заголовки двух статей, нам нужно предсказать, будут ли эти новости об одном и том же, о разных вещах, или вторая статья опровергает первую, которая является фальшивкой. Одна из проблем заключается в том, что названия на китайском языке! К счастью, есть переводы на английский. Мы пробуем разные подходы, в том числе с использованием предварительно обученного BERT.