Aspose PDF - получить текст со страницы, которая имеет совпадающую строку

Я работаю с существующей библиотекой - цель библиотеки - извлечь текст из PDF-файлов, чтобы сверить его с ожидаемыми значениями и проверить качество записанных данных по сравнению с данными в pdf.

Я ищу способ кратко вытащить конкретную страницу текста с учетом строки, которая должна попадать только на эту конкретную страницу.

var pdfDocument = new Document(file.PdfFilePath);

var textAbsorber = new TextAbsorber{
    ExtractionOptions = {
        FormattingMode = TextExtractionOptions.TextFormattingMode.Pure
    }
};

pdfDocument.Pages.Accept(textAbsorber);
foreach (var page in pdfDocument.Pages)
{

}

Я застрял внутри части foreach(var page in pdfDocument.Pages)... или это правильная область для поиска?

c# text-extraction aspose aspose.pdf

WernerCD 12.03.2018 источник

comment

Чтобы извлечь текст с определенной страницы, вы вызываете метод Accept() конкретной страницы, передавая в нем TextAbsorber, то есть pdfDocument.Pages[1].Accept(textAbsorber); Кроме того, если вы все еще сталкиваетесь с какой-либо проблемой, поделитесь с нами своим образцом PDF-файла. Мы протестируем сценарий в нашей среде и примем соответствующие меры. Пожалуйста, убедитесь, что вы тестируете функциональность, используя последнюю версию API. Меня зовут Асад Али, и я работаю с Aspose в качестве разработчика-евангелиста. - Asad Ali 12.03.2018

comment

Ах, черт... Кажется, я понял... У меня был поглотитель для всех страниц, и мне нужно принять поглотитель для одной страницы... Я думаю... Я опубликую обновление вопроса, как я думаю Я ближе, как только я проверю момент или два дольше. - WernerCD 12.03.2018

comment

@AsadAli добавил ответ с моими краткими заметками. Кажется, работает. - WernerCD 12.03.2018

Ответы (1)

arrow_upward
0
arrow_downward

Ответ: Text Absorber воссоздает каждую страницу внутри цикла foreach.

Если поглотитель не создается заново, он сохраняет текст из предыдущих циклов.

public List<string> ProcessPage(MyInfoClass file, string find)
{
    var pdfDocument = new Document(file.PdfFilePath);

    foreach (Page page in pdfDocument.Pages)
    {
        var textAbsorber = new TextAbsorber {
            ExtractionOptions = {
                FormattingMode = TextExtractionOptions.TextFormattingMode.Pure
            }
        };

        page.Accept(textAbsorber);
        var ext = textAbsorber.Text;
        var exts = ext.Replace("\n", "").Split('\r').ToList();
        if (ext.Contains(find))
            return exts;
    }

    return null;
}

WernerCD 12.03.2018

comment

Вы правильно понимаете, что TextAbsorber сохраняет весь текст при каждом посещении, если вы не инициализируете его повторно. Тем не менее, приятно знать, что ваша проблема решена. Пожалуйста, не стесняйтесь, дайте нам знать в случае любой дополнительной помощи. Вы также можете размещать свои запросы на наших бесплатных форумах поддержки (forum.aspose.com/c/pdf). - Asad Ali; 12.03.2018

Вопросы по теме

Сбой междоменного HTTP-запроса в AngularJS
не могу создать каталог с помощью mkdir
Почему в моем запросе не работает функция Neo4j None?
несколько растровых изображений против рисунков - влияние на производительность и память
удаление элемента в конкретном связанном списке
MongoDB: последняя запись для каждой категории по метке времени
Невероятно, но порядок просмотра раскадровки не соблюдается для представлений контейнера, исправить?
Django REST Как правильно хешировать пароль
Передача NSString между классами
Ошибка Ajax: код ответа 200
Приложение WinRT зависает при вызове BitmapDecoder.CreateAsync(stream)
Ошибка в поле выбора OpenERP версии 7
установить паруса вручную на сервер ubuntu
подстановочный знак classpath в @PropertySource
Получить и удержать вызов в twilio
Столбец автозаполнения на основе данных другого столбца
Фильтрация в пандах: исключение строк, содержащих часть строки [дубликаты]
Получить значения заголовков в ASP.NET MVC
Почему опечатка в объявлении функции Haskell приводит к тому, что GHCi выдает ошибки вокруг ранее скомпилированного кода?
как перепривязать сетку данных Silverlight