Джина как сделать

Новые примитивные типы данных Jina!

Реорганизуйте и упростите код с помощью новых примитивных типов данных Jina.

Некоторое время назад я написал этот пост о том, как извлекать данные из PDF в Jina, однако с тех пор много чего произошло, и теперь у нас есть свои собственные примитивные типы данных в Jina 🎉🎉🎉 Поэтому я решил реорганизовать эти тесты и напишите этот небольшой пост обо всем, что вам сейчас нужно.

Честно говоря, каждый раз, когда что-то нужно реорганизовать, я чувствую, что конец света близок, но не волнуйтесь, потому что на этот раз это действительно быстро и безболезненно, и вы почувствуете, что в конце концов все будет лучше.

Итак, первое, что нам нужно знать, это какие типы данных у нас сейчас есть в Jina, и есть отличный пост, который уже говорит об этом, поэтому здесь мы будем говорить только о том, что нам нужно изменить в PDFExtractor Тесты.

Итак, давайте посмотрим на наш код, первое, что нам нужно было импортировать файлы, необходимые для работы с Protobuf:

Но использовать Protobuf напрямую? пффф! это так до пандемии, ни у кого нет на это времени, поэтому мы меняем его на:

И это, конечно, намного чище! И использовать его вместо:

мы просто используем его как обычный объект:

И так же, как в исходном примере, у нас есть два способа получить доступ к нашему файлу: либо мы получаем путь к PDF-файлу, либо его байты напрямую, и для доступа к нему нам просто нужно проверить, какой тип мы получаем:

Здесь мы просто создали наш документ и обновили его идентификатор, после чего он был готов к использованию либо напрямую с байтами, либо с URI.

Если вам нужны данные в другом формате, вы также можете просто использовать convert_ методы Jina, например:

В этом примере это не было обязательным, но могло быть полезно в другом случае, и, как я уже сказал, у нас также есть этот очень подробный пост со всей необходимой информацией, которая вам понадобится, чтобы начать использовать наши новые типы данных 🦄🦄🦄

Вот и все! Впервые в моей жизни рефакторинг кажется действительно приятным, так что я надеюсь, что это сработает и для вас.

Не забудьте проверить наши другие примеры, чтобы увидеть, что еще у нас есть нового.