Представляем Kensho Derived Wikimedia Dataset

Упрощение для исследователей использования общедоступных данных Викимедиа для обработки естественного языка (НЛП)

В группе исследований и разработок Kensho мы проводим много времени, экспериментируя с данными на естественном языке. Сегодня мы рады выпустить Kensho Derived Wikimedia Dataset (KDWD). Наша цель в этом выпуске - облегчить исследователям использование общедоступных данных Викимедиа для обработки естественного языка (НЛП). Мы размещаем данные на Kaggle, и вы можете отправиться туда прямо сейчас, если хотите скачать их.

Загрузите набор данных Kensho Derived Wikimedia на Kaggle

Википедия, бесплатная энциклопедия, и Викиданные, бесплатная база знаний, - это краудсорсинговые проекты, поддерживаемые Фондом Викимедиа. Википедии почти 20 лет, и недавно была добавлена шестимиллионная статья на английском языке. Wikidata, его младший машиночитаемый родственный проект, был создан всего 8 лет назад, но быстро растет и в настоящее время содержит более 75 миллионов элементов.

Эти проекты вносят свой вклад в миссию Фонда Викимедиа по расширению прав и возможностей людей для разработки и распространения образовательного контента под бесплатной лицензией. Они также активно используются исследовательскими группами по информатике, особенно теми, кто интересуется обработкой естественного языка (NLP). Фонд Викимедиа периодически выпускает снимки необработанных данных, поддерживающих эти проекты, но они представлены в различных форматах и не предназначены для использования в исследованиях НЛП. Kensho Derived Wikimedia Dataset (KDWD) - это сжатое подмножество необработанных данных Викимедиа в форме, которую мы считаем полезной для работы НЛП. KDWD имеет лицензию CC BY-SA 3.0, так что не стесняйтесь использовать его в своей работе.

Примеры быстрого старта

Если вы хотите сразу погрузиться в процесс, перейдите на страницу набора данных Kaggle, ознакомьтесь с некоторыми из примеров ядер, перечисленных ниже, и начните изучение.

KDWD Быстрый подсчет

2,315,761,359 токенов
121 835 453 ссылки на страницы
5 343 564 страницы Википедии
51,450,317 элементов Викиданных
141 206 854 утверждения Викиданных

Три уровня данных

Комбинацию Википедия-Викиданные и, как следствие, KDWD можно рассматривать как три уровня данных. Базовый уровень - это корпус английской Википедии, средний уровень аннотирует корпус, указывая, какие текстовые промежутки являются ссылками, а верхний слой связывает ссылки Википедии с элементами в графе знаний Викиданных. Ниже мы опишем эти слои и выделим некоторые из наших любимых исследований НЛП с использованием Википедии и Викиданных.

Базовый слой - просто текст

Первая часть KDWD - это текст 5,3 миллиона английских страниц Википедии. Этот текст создается путем анализа разметки Викитекста, распространяемой Фондом Викимедиа. Чтобы создать корпус, состоящий в основном из естественного текста, мы ограничиваем наш образец английской Википедии страницами, которые:

находятся в пространстве имён (Main / Article)
не являются страницами перенаправления
не являются страницами значений
не являются страницами списка
иметь связанный элемент Викиданных
не являются внутренним элементом Викимедиа

Языковые модели обучаются и оцениваются с использованием больших текстовых корпусов. Текстовый корпус KDWD, содержащий 2,3 миллиарда токенов, больше, чем большинство стандартных корпусов. Для сравнения мы показываем количество токенов для Penn Treebank, WikiText-2, WikiText-103 и Тест на один миллиард слов в таблице 1. Если мы будем использовать только раздел Введение на каждой странице Википедии, чтобы сформировать corpus получаем 460M токенов.

Кроме того, корпус, который также является энциклопедией, допускает некоторые варианты использования, выходящие за рамки языкового моделирования. Один из наших любимых примеров - вероятностное явное тематическое моделирование (см. Здесь и здесь). Этот метод оценивает распределение слов по темам, рассматривая каждую страницу как тему. Явный характер этих тем обеспечивает значимые ярлыки тем, которых нет в традиционных моделях тем.

Средний уровень - Ссылка на аннотированный корпус

Вторая часть KDWD добавляет аннотации ссылок к текстовому корпусу, описанному выше. Граф, сформированный этими ссылками, является основой Википедии, основанной на ссылках (WLM) семантической взаимосвязи между страницами. WLM основан на нормализованном расстоянии Google и является сильной базой, которая вообще не полагается на текст. Однако каждая внутренняя ссылка также является связью между фрагментом текста и темой целевой страницы. Подсчитывая, как часто (диапазон текста, целевая страница) встречаются кортежи, мы можем построить вероятностные распределения, которые описывают псевдонимы тем и варианты устранения неоднозначности текста. Распределения псевдонимов описывают, какие отрезки текста используются для ссылки на данную страницу, а распределения неоднозначности описывают, на какие страницы ссылается данный отрезок текста.

Изучение контекста этих ссылок создает гораздо более богатую картину. Отличным примером является Wikipedia2Vec, в котором слова и объекты (то есть страницы) встроены в одно и то же векторное пространство. Это вложение достигается путем объединения трех функций потерь. Первый - это традиционная потеря слово-слово, используемая для изучения сходства слов. Второй - это потеря WLM и используется для изучения сходства сущностей. Третий - потеря слов-сущностей из-за пропуска грамматики, которая объединяет похожие слова и сущности.

Представления сущностей также можно изучить с помощью контекстуализированных встраиваний слов и шумоподавления. В Представлениях сущностей, изученных в контексте (RELIC) авторы обучают модели предсказывать сущности с учетом контекста, в котором они появляются. Различные модели RELIC различаются по скорости маскировки текста ссылки во время обучения. Модели с высокой частотой маски лучше справляются с задачами набора сущностей, в то время как модели с низкой частотой маски лучше справляются с задачами связывания сущностей.

Верхний слой - Сеть знаний

Последняя часть KDWD добавляет полный граф знаний поверх аннотированного по ссылкам корпуса, описанного выше. Викиданные обеспечивают централизованное хранение структурированных данных для всех проектов Викимедиа. Основные понятия - предметы, свойства и высказывания.

На изображении выше показано несколько утверждений из элемента Викиданных для Грейс Хоппер. Мы можем рассматривать эти операторы как тройки формы (элемент, свойство, значение данных), и мы говорим, что оператор о первом элементе тройки. Например, четыре утверждения ниже относятся к Грейс Хоппер.

Чтобы создать компактную выборку, мы начнем со всех утверждений в Викиданных и отфильтруем те, которые:

относятся к элементу, связанному со страницей из нашего образца Википедии
иметь значение данных, которое также является элементом Викиданных

Наша отфильтрованная выборка Викиданных содержит 51 млн элементов и 140 млн утверждений. Эти отфильтрованные утверждения образуют мультиграф знаний и являются основным компонентом нашей выборки Викиданных. Выражаясь языком графа, элементы являются узлами, операторы - ребрами, а свойства - типами ребер. Этот граф знаний можно использовать для создания вложений элементов путем факторизации трехмерного тензора элемент-элемент-свойство. Более современный подход - применить технику встраивания слов к последовательностям, генерируемым ходьбой по графу. Однако теоретическая работа продвинулась вперед в унификации этих, казалось бы, разных подходов.

Примеры приложений KDWD

Когда граф знаний объединен с корпусом, аннотированным ссылками, мы получаем полный KDWD. Это естественная среда для изучения извлечения отношений, и несколько групп тренируют модели, которые учатся извлекать утверждения Викиданных из текстового корпуса Википедии. Можно также решить эту проблему и обучить модель находить вспомогательный материал для существующего утверждения графа знаний в текстовом корпусе. Устранение неоднозначности сущностей также можно улучшить, объединив корпус и граф знаний. DeepType - это хорошо задокументированный пример, который подчеркивает важность набора сущностей в процессе устранения неоднозначности. Система достигает впечатляющих результатов за счет совместного изучения компактной онтологии сущностей из Викиданных и модели разрешения неоднозначности из Википедии.

Эти несколько примеров лишь поверхностные, но, надеюсь, они дадут вам представление о возможностях KDWD. Некоторые из этих примеров довольно сложны, но это не мешает вам экспериментировать с более простыми методами при использовании KDWD. Поскольку Википедия и Викиданные со временем растут и развиваются, эксперименты, проведенные всего несколько лет назад, могут дать улучшенные результаты при применении к текущим данным.

Давайте рассмотрим

KDWD содержит корпус английской Википедии на 2,3 миллиарда токенов, аннотированный ссылками на страницы. Каждая из 5,3 млн страниц в корпусе связана с элементом Викиданных, но мы включаем 140 млн утверждений, включающих 51 млн элементов. Этот набор данных настроен для исследования НЛП, имеет лицензию CC BY-SA 3.0 и доступен для загрузки с Kaggle. Нам было очень весело пользоваться им, и мы надеемся, что сообщество НЛП тоже.

Благодарности

Команда разработчиков Kensho хотела бы поблагодарить Фонд Викимедиа за их хорошую работу и Кэролайн Гереньи за создание изображений, использованных в этом посте. Также благодарим Георга Кучко, Рэя Гроссмана, Кинан Фрейберг и Патрика О'Нила за обзор ранних версий этот проект.

использованная литература

Ригл, Дж., И Кернер, Дж. (2019). Введение: Подключения. Википедия @ 20. Получено с https://wikipedia20.pubpub.org/pub/b3y9vnbd
Пинцер, Л. (2019). Не такая уж маленькая сестра Википедии находит свой собственный путь. Википедия @ 20. Получено с https://wikipedia20.pubpub.org/pub/s2t6abfh
Миколов, Т., Деорас, А., Комбринк, С., Бургет, Л., и Чернокки, Дж. (2011). Эмпирическая оценка и сочетание передовых методов языкового моделирования. Interspeech. Получено с https://www.microsoft.com/en-us/research/publication/empirical-evaluation-and-combination-of-advanced-language-modeling-techniques/
Мерити, С., Сюн, К., Брэдбери, Дж., И Сочер, Р. (2016). Модели смесей Pointer Sentinel. Получено с http://arxiv.org/abs/1609.07843
Челба, К., Миколов, Т., Шустер, М., Ге, К., Брантс, Т., Коэн, П., и Робинсон, Т. (2013). Тест на один миллиард слов для измерения прогресса в статистическом моделировании языков. Получено с http://arxiv.org/abs/1312.3005
Егози О., Маркович С., Габрилович Е. (2011). Поиск информации на основе концепций с использованием явного семантического анализа. Транзакции ACM в информационных системах, 29 (2). Https://doi.org/10.1145/1961209.1961211
Вуд, Дж., Тан, П., Ван, В., и Арнольд, К. (2017). Source-LDA: Улучшение вероятностных тематических моделей с использованием предшествующих источников знаний. Труды Международной конференции по инженерии данных, 411–422. Https://doi.org/10.1109/ICDE.2017.99
Милн Д. и Виттен И. Х. (2008). Эффективный и недорогой показатель семантического родства, полученный из ссылок Википедии. В материалах семинара AAAI по Википедии и искусственному интеллекту: развивающаяся синергия, AAAI, 25–30. Получено с http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.557.136
Цилибрази, Р. Л., и Витаньи, П. М. Б. (2007). Расстояние подобия Google. IEEE Transactions on Knowledge and Data Engineering, 19 (3), 370–383. Https://doi.org/10.1109/TKDE.2007.48
Ямада, И., Шиндо, Х., Такеда, Х., и Такефудзи, Ю. (2016). Совместное изучение встраивания слов и сущностей для устранения неоднозначности именованных сущностей. Получено с http://arxiv.org/abs/1601.01343
Миколов, Т., Чен, К., Коррадо, Г., и Дин, Дж. (2013). Эффективная оценка представлений слов в векторном пространстве. 1-я Международная конференция по обучающим представлениям, ICLR 2013 - Материалы семинара. Международная конференция по обучающимся представительствам, ICLR.
Линг, Дж., Фитцджеральд, Н., Шан, З., Соареш, Л. Б., Феври, Т., Вайс, Д., и Квятковски, Т. (2020). Изучение кросс-контекстных представлений сущностей из текста. Источник https://arxiv.org/abs/2001.03765
Никель М., Тресп В. и Кригель Х.-П. (2012). Факторизация масштабируемого машинного обучения YAGO для связанных данных. Получено с https://dl.acm.org/doi/10.1145/2187836.2187874
Пероцци Б., Аль-Рфу Р. и Скиена С. (2014). DeepWalk: онлайн-изучение социальных представлений. Https://doi.org/10.1145/2623330.2623732
Цю, Дж., Донг, Ю., Ма, Х., Ли, Дж., Ван, К., и Тан, Дж. (2017). Встраивание сети как матричная факторизация: объединение DeepWalk, LINE, PTE и node2vec. Https://doi.org/10.1145/3159652.3159706
Христодулопулос, К., и Миттал, А. (2018). Простое крупномасштабное извлечение связи из неструктурированного текста. Получено с http://arxiv.org/abs/1803.09091
Бхатия, С., Двиведи, П., и Каур, А. (2018). Скажи мне, почему это так? Объяснение взаимосвязей в графах знаний путем поиска отрывков с описательной поддержкой. Получено с http://arxiv.org/abs/1803.06555
Райман, Дж., И Райман, О. (2018). DeepType: связывание многоязычных сущностей с помощью эволюции системы нейронных типов. Получено с http://arxiv.org/abs/1802.01021