Интеллектуальный анализ текста:

Интеллектуальный анализ текста — это метод изучения больших объемов неструктурированных текстовых данных и их анализа с целью извлечения шаблонов из текстовых данных.

- Он использует программное обеспечение, которое может идентифицировать концепции, шаблоны, темы, ключевые слова и т. д. в данных.

- Он использует вычислительные методы для извлечения высококачественной информации из неструктурированного текста.

Поток «Майнинг времени»:

Текст -> Извлечение и предварительная обработка текста -> Генерация атрибутов преобразования текста -> Выбор атрибута -> Визуализация -> Интерпретация или оценка

Извлечение текста и предварительная обработка. Исследует неструктурированный текст, отыскивая важные слова и находя взаимосвязи между ними.

Генерация атрибутов преобразования текста — маркирует текстовые документы по одной или нескольким категориям на основе примеров ввода-вывода.

Выбор атрибута — группирует текстовые документы с похожим содержанием.

Визуализация — использует тестовый флаг для представления документов и использует цвета для обозначения компактности.

Интерпретация или оценка. Сократите объем документа, резюмируя детали.

Извлечение текста и предварительная обработка

Токенизация:

- Токенизация — это процесс удаления конфиденциальных данных и размещения на их месте уникальных идентификационных символов для сохранения всей важной информации.

- Токенизация может быть выполнена как для «Предложений», так и для «Слов». Это слова путем разделения слов с помощью пробелов и знаков препинания.

Н-граммы:

- N-Gram — это простая языковая модель, которая присваивает вероятности последовательностям слов и предложений.

- N - Граммы – это сочетания соседних слов или букв длины «n» в исходном тексте.

Удаление стоп-слов:

- Стоп-слова — это слова естественного языка, которые имеют очень мало значения, такие как «а», «ан», «и», «или», «то».

- Эти слова занимают место в базе данных и увеличивают время обработки.

- Их можно удалить, сохранив стоп-слово.

- Стоп-слова отфильтровываются перед обработкой данных на естественном языке, поскольку они не раскрывают много информации.

Генерация атрибутов преобразования текста:

Стемминг:

Stemming включает сокращение слова «Stem» или основы (корень) путем удаления суффикса .

Различные алгоритмы стемминга: Porter Stemmer, Lancaster Stemmer, Snowball Stemmer.

Лемматизация:

Это метод группировки различных флективных типов слов, чтобы их можно было анализировать как один элемент.

Он использует список словарного запаса и морфологический анализ (POS слова), чтобы получить корневое слово.

Маркировка POS

Части речи или теги POS помечают слова в корпусе соответствующей частью тега скорости на основе его контекста и определения. Теги POS используются в инструментах анализа текста и при поиске по корпусу.

Распознавание именованных объектов (NER):

Распознавание именованных объектов (NER) стремится извлечь из текста объект реального мира и сортирует его по предопределенным категориям, таким как имена людей, организаций или мест и т. д.

Рабочий процесс:

- Токенизация: токенизация разбивает текст на части (токен), удаляет знаки препинания.

- Удаление стоп-слов: удаление стоп-слов, удаление часто используемых слов

(например, «the»), которые не имеют отношения к анализу.

- Stemming и Lemmatization: Stemming и Lemmatization сокращают слова до основы для анализа как единого элемента.

- Тегирование POS: Тегирование POS помечает слова как часть речи (например, глагол, существительное) на основе определений и контекста.

- Поиск информации: поиск информации извлекает соответствующую информацию из источника.

Структурирование предложений: синтаксис

Синтаксис – это грамматическая структура предложений. Язык включает в себя построение фаз и предложений из морфем и слов. Синтаксис представляет знание этих структур и функций.

Правила построения фраз:

Правила построения фразы определяют составляющие фразы и их порядок. Составляющая – это слово или группа слов, которые действуют как единое целое.

Типы правил структуры фраз:

- S -> NP VP = Фаза существительного сочетается с глагольной фразой.

- N -> (Определитель) N = Существительное сочетается с определителем, который не является обязательным.

- VP -> V (NP)(PP) = Глагол необязательно сочетается с именной группой и фазой предлога.

- PP -> PNP = Предлог сочетается с именной группой.

Дерево — это представление синтаксической структуры формулировок предложений или строк.

Фрагментирование и разбор фрагментов:

Chucking — это процесс извлечения фраз из неструктурированного текста, так как рекомендуется использовать такие фразы, как Indian team, вместо отдельных слов, таких как Indian и team.

Анализ фрагментов извлекает шаблоны из фрагментов:

Сегментация: определение токена.

Маркировка: определение правильного тега.

Анализ фрагментов используется для извлечения шаблонов и обработки таких шаблонов из нескольких фрагментов с использованием разных парсеров.

Щелчок:

- Chinking — это процесс удаления последовательности токенов из кусков.

- Если последовательность токенов охватывает весь фрагмент, то удаляется весь фрагмент.

- Если последовательность находится в начале или конце чанка, эти токены удаляются и остается меньший чанк.

- Если последовательность токенов появляется в середине чанка, они находятся в чанке, эти токены удаляются, оставляя два чанка там, где раньше был только один.