Публикации по теме 'apache-tika'


Apache Tika: Что это такое и зачем мне его использовать?
Введение С постоянно растущим присутствием технологий в нашей жизни, некоторые аспекты нашей жизни, которые были с нами на протяжении веков, также изменяются и изменяются с помощью технологий. Одна из этих вещей - наличие и представление текста и языка. Почти на протяжении всей истории человечества мы использовали какую-то систему для общения друг с другом. Очевидно, что со временем эти формы общения превратились в то, что мы знаем сегодня как язык. И это стало важным для нашей жизни..

Вопросы по теме 'apache-tika'

Как получить расширение файла из типа контента?
Я использую Apache Tika, и у меня есть файлы (без расширения) определенного типа контента, которые необходимо переименовать, чтобы иметь расширение, отражающее тип контента. Любая идея, если есть что-то, что я мог бы использовать вместо...
33744 просмотров
schedule 20.12.2022

Извлеките текст из URL-адресов с помощью TIKA
Можно ли извлечь текст из URL-адресов с помощью Tika? Любые ссылки будут оценены. Или TIKA можно использовать только для pdf, word и любых других медиа-документов?
6857 просмотров
schedule 17.05.2023

Получение ошибки 404 для /solr/update/extract в Solr 1.4.1 и Tika 0.4
Я успешно установил Solr 1.4.1, но не могу заставить корректно работать Tika 0.4 (которая включена в contrib/extraction). Я получаю сообщение об ошибке 404 при попытке нажать http://localhost:8080/solr/ss/update/extract ("ss" - это мое ядро). Я...
1533 просмотров
schedule 14.07.2023

Как я могу интегрировать Tika в свой проект Lucene?
Я хочу интегрировать Apache Tika в свой java-проект. Мне нужно получить текст из разных форматов файлов (excel, doc, ppt и т. д.). После некоторого чтения я понимаю, что единственный способ собрать tika — загрузить файл src и собрать его с помощью...
1135 просмотров
schedule 29.07.2023

Tika - получить основной контент из документов
Утилита с графическим интерфейсом Apache Tika предоставляет возможность получения основного содержимого (помимо текста формата и структурированного текста) данного документа или URL-адреса. Я просто хочу знать, какой метод отвечает за извлечение...
1739 просмотров
schedule 24.11.2022

Как использовать Tika в серверном режиме
На веб-сайте Tika говорится (относительно tika-app-1.2.jar), что его можно использовать в режиме сервера. Кто-нибудь знает, как отправлять документы и получать проанализированный текст с этого сервера после его запуска?
23206 просмотров
schedule 15.05.2023

Solr - Tika - Анализ содержимого для включения подсветки
Насколько я понимаю, индексирование документа PDF, Word, Excel и т. д. через Solr позволит выполнять поиск, но не выделять. У меня есть этот код для выполнения индексации: String urlString = "http://localhost:8983/solr";...
900 просмотров
schedule 04.06.2022

Отзыв о парсинге TIKA
Существует ли список типов отзывов, которые TIKA может предоставить о файлах, которые она не может проанализировать? Я пытаюсь решить, предоставлять ли отзыв конечному пользователю или отзыв для операционной группы, или и то, и другое, основываясь на...
194 просмотров
schedule 21.06.2023

Ошибка настройки объекта при конвертации в Тику с помощью Бегемота и уменьшения карты
Я запускаю команду для преобразования корпуса бегемота в tika с использованием уменьшения карты, как указано в это руководство Я получаю следующую ошибку при этом: 13/02/25 14:44:00 INFO mapred.FileInputFormat: Total input paths to...
873 просмотров
schedule 27.04.2023

Индексирование нескольких файлов одновременно в один документ solr
Я индексирую некоторые данные курса (идентификатор, имя, резюме) вместе с приложениями, связанными с этими курсами. Я использую Extract RequestHandler для индексации документов, передавая буквальные поля. Теперь при индексации есть три условия....
1213 просмотров
schedule 16.06.2023

После индексации файла, как извлечь свойства файла, такие как: тип файла, имя и т. д. с помощью elasticsearch
Я проиндексировал документ и могу искать содержимое документа. Но я хочу найти индексируемый тип документа, автора документа, имя документа, размер документа в основном свойства файла. Как этого можно добиться с помощью elasticsearch. Благодарю вас.
134 просмотров
schedule 30.11.2022

Как получить верхний и нижний колонтитулы из файла PDF с помощью apache tika в java
Я использую apache tika для сканирования содержимого из файла pdf. Обходимое содержимое (текст) также содержит верхние и нижние колонтитулы. Мое требование - получить текст без верхних и нижних колонтитулов. Ниже приведен мой пример кода для...
3879 просмотров
schedule 18.02.2024

Как написать собственный ContentHandler с помощью Apache Tika?
Я хочу извлечь текст, который находится внутри некоторых тегов, таких как <dt> , <dd> и т. д., из файлов HTML с помощью Apache Tika. Итак, я пишу пользовательский ContentHandler , который должен извлекать информацию из этих тегов....
1560 просмотров
schedule 27.05.2022

Специальные символы, сохраняемые при извлечении содержимого из документов Microsoft Word (.doc)
Я извлекаю содержимое из документов Microsoft Word 97-07 (.doc) и сохраняю их в поле в Solr (чтобы показать фрагменты контекста для выделения). Похоже, что извлеченный контент не фильтруется должным образом; хранится много специальных символов, а я...
470 просмотров
schedule 22.12.2022

Индексирование только читаемого/анализируемого текста из pdf
Мне нужно проиндексировать список PDF-файлов (PDF-A), и для некоторых из них нет проблем, но для других, когда я просматриваю проиндексированный контент, я вижу только много ромбов со знаком вопроса. Я думаю, что проблема заключается в шрифте,...
228 просмотров
schedule 21.05.2022

Правильное использование Apache Tika MediaType
Я хочу использовать класс MediaType APache Tika для сравнения медиатипов. Сначала я использую Tika для определения MediaType. Затем я хочу запустить действие в соответствии с MediaType. Итак, если MediaType относится к типу XML, я хочу...
3870 просмотров
schedule 12.11.2022

Apache Tika не получает встроенные изображения в PDF-документы
Я только что обнаружил проблему с PDF-документами, в которых есть встроенные изображения. Делает: java -jar tika-app-1.5.jar --extract tika.pdf Тика не может найти изображение. Это проблема, связанная с PDF? Потому что, если я проделаю...
774 просмотров
schedule 26.06.2022

Правильная остановка сервера Tika
Чтобы запустить сервер Tika, к которому можно получить доступ с хостов, отличных от локального хоста, мы знаем, что нужно идти (скажем, у меня версия 1.7 и я хочу работать на порту 9998) java -jar tika-server-1.7-SNAPSHOT.jar -host 0.0.0.0...
1272 просмотров
schedule 10.12.2023

Создать udf в свинке для обработки изображений
Я хочу создать UDF в свинке, используя tika для обработки изображения в HDFS . Ниже мой код, но я получаю исключение ClassNotFound public String exec(Tuple input) throws ExecException, IOException { try { if...
346 просмотров
schedule 02.06.2022

tika PackageParser не работает с каталогами
Я пишу класс для рекурсивного извлечения файлов из zip-файла и создания их в очереди Kafka для дальнейшей обработки. Мое намерение состоит в том, чтобы иметь возможность извлекать файлы из нескольких уровней zip. Приведенный ниже код является моей...
1176 просмотров
schedule 12.07.2023