Публикации по теме 'text-extraction'


Извлечение текста с помощью машинного обучения (технология OCR)
Пошаговый процесс извлечения определенного текста из нескольких файлов PDF По необходимости я написал некоторый код Python для извлечения текста из нескольких файлов PDF и записи вывода в файлы Excel. Я думаю, что это будет очень короткая статья о применении машинного обучения. Проблема. Моему другу поручили прочитать несколько PDF-файлов и записать некоторую информацию в таблицу Excel. Как правило, это означает, что ему придется просматривать все более 20 файлов один за другим и..

SDK для чтения кредитных карт — поддержка большего количества платформ появится в первом квартале 2017 г.
Разместил(а): Кэти Мы говорили вам, что предстоящий релиз будет большим, не так ли? Что ж, сегодня последняя запись в нашей серии блогов, посвященная предстоящим обновлениям LEADTOOLS V19 для документооборота и медицинских технологий. Эти обновления будут включать в себя первую на рынке реализацию DICOM Hanging Protocol , а также самый быстрый в мире механизм распознавания и обработки форм! Кроме того, предстоящее обновление включает в себя новые функции для не занимающего много..

Текстман; Извлечение текста с помощью FastAPI и Pytesseract
В Африке и некоторых частях мира некоторые предприятия по-прежнему хранят большие объемы своих данных в физических файлах, а не в цифровом формате. Это значительно препятствует прогрессу в этих компаниях, потому что ценная информация, которая может помочь им принимать прогрессивные решения, заперта в этих файлах. Только представьте, какие инсайты будут раскрыты, если эти данные оцифровать и проанализировать. К счастью, именно этим мы и займемся в этой статье. Мы создадим..

Вопросы по теме 'text-extraction'

Как извлечь строки из файла, используя их номер строки в Unix?
Используя sed или подобное, как бы вы извлекли строки из файла? Если мне нужны строки 1, 5, 1010, 20503 из файла, как мне получить эти 4 строки? Что делать, если мне нужно извлечь довольно большое количество строк? Если бы у меня был файл со 100...
17121 просмотров
schedule 21.03.2023

Получить все слова из строки до определенного слова
$title = 'the.test.hd.part12'; Нужны все слова до тех пор, пока не будет найдено слово «часть». Должен вернуться - the.test.hd. Любая помощь приветствуется. Спасибо.
1517 просмотров
schedule 13.05.2023

Извлечение текста из HTML — Perl с помощью HTML::TreeBuilder
Я пытаюсь получить доступ к файлам .html и извлечь текст в тегах <p> . По логике, мой код ниже должен работать. С помощью HTML::TreeBuilder. Я анализирую html, затем извлекаю текст в <p> , используя find_by_attribute("p"). Но мой...
2881 просмотров

Соскребание текста из файла в HTML-тегах
У меня есть файл, из которого я хочу извлечь даты, это исходный файл HTML, поэтому он полон кода и фраз, которые мне не нужны. Мне нужно извлечь каждый экземпляр даты, заключенный в определенный тег HTML: abbr title="((это текст, который мне...
8800 просмотров

Как извлечь текст с помощью iTextSharp 4.1.6?
iTextSharp 4.1.6 - последняя версия под лицензией LGPL, которую можно бесплатно использовать в коммерческих целях без уплаты лицензионных сборов. Некоторым и мне может быть интересно, как извлечь текст с помощью этой версии. Есть у кого-нибудь...
7341 просмотров
schedule 20.07.2023

Извлечение операторов SQL из файлов Java/SQL
У меня огромная кодовая база, в которой много файлов JAVA и .sql. Я намерен извлечь все операторы SQL из всех этих файлов. Вот как я намерен добиться этого - Создайте файл регулярного выражения, содержащий шаблоны, такие как выбор, вставка,...
2656 просмотров
schedule 08.08.2023

Извлечение значений из полей формы файла MS Word Docx с использованием php
![введите здесь описание изображения] Он читает весь текст документа, но мне нужен код, который читает конкретный текст из документа Word. для например. Учтите, что в нескольких полях формы указано Имя: и текстовое поле, в котором я хочу прочитать...
683 просмотров
schedule 04.05.2023

Извлечь всю строку из большого текстового файла.
У меня есть файл дампа SQL 34 ГБ CREATE TABLE `table1` CREATE TABLE `table6` CREATE TABLE `table44fff` CREATE TABLE `tablecvd` Мне нужно быстро извлечь все имена таблиц, я думаю, должно быть что-то вроде FOR /F "tokens=* delims=" %%A IN...
383 просмотров
schedule 23.05.2023

Не можете получить настоящие шрифты текстов с помощью itext?
Я пытался извлечь текст из pdf, и благодаря itext я могу извлечь весь текст. Однако я пытаюсь обнаружить шрифты заголовков и, используя эту информацию, планирую извлечь только те тексты между двумя конкретными заголовками. Например, в научной статье...
841 просмотров
schedule 24.11.2022

извлечение курсивного слова из PDF с помощью iText
Я пытаюсь извлечь некоторый контент из PDF, в частности, я хочу извлечь весь текст, выделенный курсивом, и я использую iText. Затем я нашел этот пост получить курсивные строки из pdf очень полезным. И я использовал аналогичную стратегию. Однако...
88 просмотров
schedule 23.11.2022

itext: как настроить извлечение текста?
Я использую iText 5.5.8 для Java. Следуя стандартным процедурам извлечения текста, т. Е. PdfTextExtractor.getTextFromPage(reader, pageNumber) Я был удивлен, обнаружив несколько ошибок в выводе, в частности, все буквы d выглядят как o ....
1302 просмотров
schedule 30.07.2023

Извлечение контекста вокруг слова в предложении
Предположим, у меня очень длинный текст, и я хотел бы выделить определенную длину контекста вокруг определенного слова. Например, в следующем тексте я хотел бы выделить 8 слов вокруг слова воин. ........ ........ ... умер. Он был очень...
1868 просмотров
schedule 22.04.2022

Apache Tika не может извлечь полнотекстовое содержимое из большого PDF-файла
Я пытаюсь извлечь текст из большого файла PDF (не отсканированного / растеризованного PDF), используя apache tika. Но после извлечения текста, когда я сравниваю оригинал (из pdf) и извлеченный текст, я обнаружил, что много текстового содержимого...
932 просмотров
schedule 20.03.2023

Извлечение текста из блокнота
Я пытаюсь извлечь рукописный текст из изображений. Я использую python с функциями opencv, такими как find_contours. Все шло довольно хорошо, когда я использовал изображения, подобные этому: Он отлично работает, потому что у меня простой...
864 просмотров
schedule 05.11.2023

Извлечь абзацы, содержащие только ключевое слово в r
Итак, в текстовом файле в R мне нужно просмотреть множество документов в поисках абзаца с упоминаемой в нем «учетной ставкой». Затем я хочу извлечь весь абзац, в котором он находится, и только это. до и после каждого абзаца в текстовом файле есть...
1397 просмотров
schedule 09.10.2022

Извлечение и вычисление ключевых слов из нескольких URL-адресов
У меня есть проект по извлечению ключевых слов из URL-адресов, сгенерированных из поискового запроса с использованием R. Затем определите наиболее часто встречающиеся ключевые слова, вычислите TF-IDF и т. д. для этих извлеченных ключевых слов....
213 просмотров
schedule 19.07.2023

Aspose PDF - получить текст со страницы, которая имеет совпадающую строку
Я работаю с существующей библиотекой - цель библиотеки - извлечь текст из PDF-файлов, чтобы сверить его с ожидаемыми значениями и проверить качество записанных данных по сравнению с данными в pdf. Я ищу способ кратко вытащить конкретную страницу...
983 просмотров
schedule 26.04.2023

Быстрый способ определить, содержит ли изображение текст или нет
У меня есть миллионы изображений, и я могу использовать OCR с pytesseract для извлечения текста по происхождению, но обработка всех изображений занимает слишком много времени. Таким образом, я хотел бы определить, содержит ли изображение просто...
222 просмотров

Чтение различных типов шрифтов с помощью Vision API
Я пытаюсь извлечь текст из таких изображений, но Google Vision API, похоже, не распознает большую часть текста. Может ли кто-нибудь предложить лучшую альтернативу? Результаты из Google OCR
415 просмотров

Как читать PDF-файлы на азиатских языках (китайский, японский, тайский и т. д.) и хранить в строке в python
Я использую PyPDF2 для чтения файлов PDF в python. Хотя она хорошо работает для языков на английском и европейских языках (с алфавитами на английском языке), библиотека не может читать азиатские языки, такие как японский и китайский. Я пробовал...
4019 просмотров