3 модуля Python, которые следует знать для извлечения текстовых данных

Python для анализа текста

Извлечение текстовых данных - это начальный шаг для дальнейшего анализа данных. У нас есть значительный объем данных в социальных сетях. Однако нам нужна система, которая может помочь нам извлечь полезную информацию из пакета текстовых данных. Некоторые известные приложения, использующие извлечение текста, - это анализ резюме и чтение счетов-фактур. В этой статье мы увидим несколько последних бесплатных библиотек Python для извлечения текстовых данных и способы их использования.

1. Сантехник в формате PDF

PDF-библиотека сантехника написана на питоне. Эта библиотека может решать разные задачи при извлечении текста. Если мы хотим извлечь текстовые или табличные данные из любого документа, эта библиотека может быть очень удобной.

Как установить

Чтобы установить эту библиотеку, откройте командную строку и введите следующую команду. Убедитесь, что питон доступен на машине.

pip install pdfplumber

Как использовать

Чтобы использовать эту библиотеку, сначала нам нужно импортировать ее, а затем использовать pdfplumber.open для чтения любых файлов PDF.

import requests
import pdfplumber
with pdfplumber.open("Pranjal Saxena Resume.pdf") as pdf:
    page=pdf.pages[0]
    text=page.extract_text()

Выход

Я использовал свое резюме, чтобы извлечь данные и получить фантастический результат для дальнейшей обработки текста.

2. PyPDF2

PyPDF2 от Мэтью Стэми - еще одна хорошая библиотека, которая может помочь нам извлекать данные из документов. Он может выполнять следующие действия.

Извлечение информации о документе.
Разделение документов по страницам
Слияние документов постранично
Обрезка страниц
Объединение нескольких страниц в одну страницу
Шифрование и дешифрование файлов PDF

Выполняет все действия в pdf документах. Давайте посмотрим, как он работает при извлечении текстовых данных из документа.

Как установить

Чтобы установить эту библиотеку PyPDF2, откройте командную строку и введите следующую команду. Убедитесь, что питон доступен на машине.

pip install PyPDF2

Как использовать

Чтобы использовать эту библиотеку PyPDF2, сначала нам нужно импортировать ее, а затем использовать PdfFileReader для чтения любых файлов PDF. И, наконец, используйте extractText() для получения текстовых данных.

from PyPDF2 import PdfFileReader
pdfFile_pypdf = open('Pranjal Saxena Resume.pdf', 'rb')
pdfReader = PdfFileReader(pdfFile_pypdf)
print(pdfReader.getPage(0).extractText())

Выход

Результат здесь не так уж хорош, если мы сравним его с библиотекой PDF Plumber, потому что эта библиотека также фокусируется на других задачах манипулирования PDF-документами.

3. Apache Tika

Apache Tika - это среда обнаружения и анализа контента, написанная на Java и управляемая Apache Software Foundation. Я был удивлен, увидев, какие результаты он может предоставить (вы тоже будете). Потому что они были удобны для пользователя и легко преобразовывались в ценные данные.

Как установить

Для установки и работы с библиотекой Python Apache Tika у вас должна быть установлена последняя версия Java. После установки Java откройте командную строку и введите следующую команду. Убедитесь, что питон доступен на машине.

pip install tika==1.23

И, если вы используете Jupyter Notebook для запуска кода, Jupyter Notebook сам установит требуемую среду Java.

Как использовать

Чтобы использовать библиотеку Apache Tika, сначала нам нужно импортировать парсер из tika, а затем использовать parser.from_file для чтения любых файлов pdf. И, наконец, используйте [“content”] для получения текстовых данных.

from tika import parser
parsed_tika=parser.from_file("Pranjal Saxena Resume.pdf")
print(parsed_tika["content"])

Выход

Результат кажется очень интересным. Мы можем правильно организовать текст, извлеченный из документа.

Заключительные моменты

Мы обсудили некоторые последние бесплатные библиотеки Python для извлечения текстовых или табличных данных из документа. Эти библиотеки очень полезны при сборе информативных данных из документов. Мы можем попробовать эти три библиотеки и использовать их соответственно в зависимости от формата документа. Теперь, когда у нас есть данные, следующий шаг - найти шаблон в данных с помощью регулярного выражения и сохранить извлеченные данные для дальнейших действий.

Это все для этой статьи. Увидимся где-нибудь поблизости.

Перед тем, как уйти…

Если вам понравилась эта статья и вы хотите, чтобы следите за обновлениями больше интересных статей о Python и науке о данных, рассмотрите возможность стать участником со средним уровнем доступа, нажав здесь Https://pranjalai.medium.com/membership.

Пожалуйста, рассмотрите возможность регистрации по моей реферальной ссылке. Таким образом, часть членского взноса переходит ко мне, что побуждает меня писать более интересные материалы о Python и Data Science.

Кроме того, не стесняйтесь подписаться на мою бесплатную рассылку новостей: Информационная рассылка Пранджала.

3 модуля Python, которые следует знать для извлечения текстовых данных

Python для анализа текста

1. Сантехник в формате PDF

Как установить

Как использовать

Выход

2. PyPDF2

Как установить

Как использовать

Выход

3. Apache Tika

Как установить

Как использовать

Выход

Заключительные моменты

Вопросы по теме