Интеллектуальный анализ текста:
Интеллектуальный анализ текста — это метод изучения больших объемов неструктурированных текстовых данных и их анализа с целью извлечения шаблонов из текстовых данных.
- Он использует программное обеспечение, которое может идентифицировать концепции, шаблоны, темы, ключевые слова и т. д. в данных.
- Он использует вычислительные методы для извлечения высококачественной информации из неструктурированного текста.
Поток «Майнинг времени»:
Текст -> Извлечение и предварительная обработка текста -> Генерация атрибутов преобразования текста -> Выбор атрибута -> Визуализация -> Интерпретация или оценка
Извлечение текста и предварительная обработка. Исследует неструктурированный текст, отыскивая важные слова и находя взаимосвязи между ними.
Генерация атрибутов преобразования текста — маркирует текстовые документы по одной или нескольким категориям на основе примеров ввода-вывода.
Выбор атрибута — группирует текстовые документы с похожим содержанием.
Визуализация — использует тестовый флаг для представления документов и использует цвета для обозначения компактности.
Интерпретация или оценка. Сократите объем документа, резюмируя детали.
Извлечение текста и предварительная обработка
Токенизация:
- Токенизация — это процесс удаления конфиденциальных данных и размещения на их месте уникальных идентификационных символов для сохранения всей важной информации.
- Токенизация может быть выполнена как для «Предложений», так и для «Слов». Это слова путем разделения слов с помощью пробелов и знаков препинания.
Н-граммы:
- N-Gram — это простая языковая модель, которая присваивает вероятности последовательностям слов и предложений.
- N - Граммы – это сочетания соседних слов или букв длины «n» в исходном тексте.
Удаление стоп-слов:
- Стоп-слова — это слова естественного языка, которые имеют очень мало значения, такие как «а», «ан», «и», «или», «то».
- Эти слова занимают место в базе данных и увеличивают время обработки.
- Их можно удалить, сохранив стоп-слово.
- Стоп-слова отфильтровываются перед обработкой данных на естественном языке, поскольку они не раскрывают много информации.
Генерация атрибутов преобразования текста:
Стемминг:
Stemming включает сокращение слова «Stem» или основы (корень) путем удаления суффикса .
Различные алгоритмы стемминга: Porter Stemmer, Lancaster Stemmer, Snowball Stemmer.
Лемматизация:
Это метод группировки различных флективных типов слов, чтобы их можно было анализировать как один элемент.
Он использует список словарного запаса и морфологический анализ (POS слова), чтобы получить корневое слово.
Маркировка POS
Части речи или теги POS помечают слова в корпусе соответствующей частью тега скорости на основе его контекста и определения. Теги POS используются в инструментах анализа текста и при поиске по корпусу.
Распознавание именованных объектов (NER):
Распознавание именованных объектов (NER) стремится извлечь из текста объект реального мира и сортирует его по предопределенным категориям, таким как имена людей, организаций или мест и т. д.
Рабочий процесс:
- Токенизация: токенизация разбивает текст на части (токен), удаляет знаки препинания.
- Удаление стоп-слов: удаление стоп-слов, удаление часто используемых слов
(например, «the»), которые не имеют отношения к анализу.
- Stemming и Lemmatization: Stemming и Lemmatization сокращают слова до основы для анализа как единого элемента.
- Тегирование POS: Тегирование POS помечает слова как часть речи (например, глагол, существительное) на основе определений и контекста.
- Поиск информации: поиск информации извлекает соответствующую информацию из источника.
Структурирование предложений: синтаксис
Синтаксис – это грамматическая структура предложений. Язык включает в себя построение фаз и предложений из морфем и слов. Синтаксис представляет знание этих структур и функций.
Правила построения фраз:
Правила построения фразы определяют составляющие фразы и их порядок. Составляющая – это слово или группа слов, которые действуют как единое целое.
Типы правил структуры фраз:
- S -> NP VP = Фаза существительного сочетается с глагольной фразой.
- N -> (Определитель) N = Существительное сочетается с определителем, который не является обязательным.
- VP -> V (NP)(PP) = Глагол необязательно сочетается с именной группой и фазой предлога.
- PP -> PNP = Предлог сочетается с именной группой.
Дерево — это представление синтаксической структуры формулировок предложений или строк.
Фрагментирование и разбор фрагментов:
Chucking — это процесс извлечения фраз из неструктурированного текста, так как рекомендуется использовать такие фразы, как Indian team, вместо отдельных слов, таких как Indian и team.
Анализ фрагментов извлекает шаблоны из фрагментов:
Сегментация: определение токена.
Маркировка: определение правильного тега.
Анализ фрагментов используется для извлечения шаблонов и обработки таких шаблонов из нескольких фрагментов с использованием разных парсеров.
Щелчок:
- Chinking — это процесс удаления последовательности токенов из кусков.
- Если последовательность токенов охватывает весь фрагмент, то удаляется весь фрагмент.
- Если последовательность находится в начале или конце чанка, эти токены удаляются и остается меньший чанк.
- Если последовательность токенов появляется в середине чанка, они находятся в чанке, эти токены удаляются, оставляя два чанка там, где раньше был только один.