Тематическое моделирование с помощью Orange Software

Orange - это пакет визуального программирования на основе компонентов с открытым исходным кодом для визуализации данных, машинного обучения, интеллектуального анализа данных и набора инструментов для анализа данных. Он был разработан Университетом Любляны, Словения, с первоначальной целью создать платформу для тестирования новых алгоритмов машинного обучения и для внедрения новых методов в генетике и биоинформации, но сегодня он используется в различных отраслях промышленности. (Апельсин (программное обеспечение), 2019 г.). Пакеты выпускаются под лицензией GPL. Его основной компонент построен на C ++, также доступны оболочки на Python (Demšar & Zupan, 2013). Он доступен для кроссплатформенных операционных систем и может быть загружен с https://oranNage.biolab.si/.

Предварительные условия использования Orange для анализа тематического моделирования включают:

1. Компоненты Orange называются виджетами, и мы будем использовать надстройку text 0.6.0 для нашего анализа, которая дает нам доступ к необходимым виджетам интеллектуального анализа текста.

Загруженный набор данных, также называемый корпусом, должен быть в формате CSV или Excel или в отдельных текстовых файлах.

Ввод корпуса

Мы используем виджеты, известные как «корпус», для ввода наших данных на платформу Orange. Этот виджет позволяет нам загружать набор текстовых данных, а также дает возможность выбрать соответствующие столбцы, которые будут включены (или исключены) для анализа. Он даже предоставляет сводку по загруженному набору данных, как показано на рисунке 1. Для нашего анализа мы будем использовать функцию Сводка проектов.

Предварительная обработка текста для моделирования темы

Предварительная обработка разбивает текст на более мелкие блоки (токены), преобразует текст и выполняет нормализацию и фильтрацию текста. Анализ в этом виджете применяется последовательно, и шаги можно включать и выключать в зависимости от требований (Университет Любляны, 2019), как показано на рисунке 2 ниже:

Как показано на рисунке 2. Фильтрация позволяет извлекать только нужные токены:

● Запрещенные слова удаляют текст (например, убирают "и", "" а, "" или "и т. Д.) Из анализа.

● Regexp удаляет слова, соответствующие регулярному выражению.

● Document Frequency сохраняет маркеры, которые появляются не менее и не более чем в указанном количестве / процентном соотношении документов. например, если мы установим частоту как (0,30, 0,90), то будут сохранены только токены, которые появляются более чем в 30% документа, но менее чем в 90% документов. По умолчанию возвращаются все токены.

● Наиболее часто используемые токены хранят только указанное количество наиболее часто используемых токенов. По умолчанию установлено 100 наиболее часто используемых токенов.

Нормализация преобразует все слова в их основную грамматическую форму. Пришел и пришел станет приходом, сыновья и сын станут сын, хорошенькая и симпатичная станет красивой. Это приведет к меньшему количеству токенов, которые семантически лучше передают текст (Университет Любляны, 2019).

Тематическое моделирование

Этот виджет включает тип алгоритма, который мы хотим использовать для нашего анализа. Мы можем выбрать любой из них: скрытое семантическое индексирование, скрытое распределение Дирихле и иерархический процесс Дирихле. Количество тем позволяет пользователям вручную изменять количество тем или кластеров для загруженного корпуса. Мы будем использовать LDA для нашего анализа, как показано на рисунке 3.

Облако слов

Облако слов показывает связанные слова и их вес из документа или темы. Мы можем поэкспериментировать с углом визуализации или цветом слова. Виджеты позволяют немного настраивать, определяя правила, по которым будут отображаться слова, например, мы можем выбрать всю тему или только тему выбора, даже если мы можем выбрать весь корпус в зависимости от наших требований, как показано на рисунке 4.

Соответствие

Concordance позволяет нам запрашивать выбранное слово в корпусе. Где и как конкретное слово было использовано в корпусе, как показано на рисунке 5. Мы также можем изменить количество слов до и после выбранного слова, чтобы лучше понять, как это слово используется.

Corpus Viewer

Виджет Corpus Viewer предназначен для просмотра текстового файла. Мы можем выбрать функцию, которую хотим просмотреть, а также получить сводную информацию о корпусе. Пример экземпляра представлен на рисунке 6 ниже:

Окончательная модель оранжевого цвета, использованная для анализа

Использованная литература:

Демшар, Дж., и Зупан, Б. (2013). Оранжевый: интеллектуальный анализ данных плодотворен и увлекателен - историческая перспектива. Информатика, 37, 6.

Оранжевый (программное обеспечение). (2019). В Википедии. Получено с https://en.wikipedia.org/w/index.php?title=Orange_(software)&oldid=877016206

Университет Любляны. (2019, март). Препроцесс - документация по интеллектуальному анализу текста. Получено 23 февраля 2019 г. с https://orange3-text.readthedocs.io/en/latest/widgets/preprocesstext.html.