Анализ неструктурированных данных — Анализируйте файлы в Box

Что такое бокс?

Box — это облачный сервис управления контентом и обмена файлами. Он обеспечивает безопасную совместную работу с кем угодно, где угодно и на любом устройстве.



Постановка задачи

Организация использует Box для хранения данных в файлах. Это один из лучших способов совместной работы и обмена контентом с командой или всей организацией. Как только информация будет сохранена в файлах Box, у бизнеса возникнет потребность в извлечении информации из файлов Box.

Как решить эту проблему?

Один из самых простых способов — интегрировать Box с Watson Discovery, и Discovery проведет анализ за вас.

Посмотрим, как этого можно добиться…..

В предыдущей статье я упоминал об анализе выборочного содержимого из Интернета. В этой статье мы подключим источник данных Box и проанализируем содержимое. Box может содержать папки и файлы, и мы будем извлекать информацию из неструктурированных данных, хранящихся в файлах.

Для подключения к источнику Box нам, во-первых, нужен правильный доступ к Box. Получив доступ, мы можем создавать папки и файлы. Если у вас нет учетной записи Box, вы можете перейти по ссылке ниже и зарегистрироваться, чтобы создать свою личную учетную запись Box (ссылка для регистрации → вкладка «Индивидуальные планы» — бесплатно/другой вариант). Войдите в учетную запись и создайте папку/файлы, как показано на скриншоте ниже.

https://account.box.com/логин

У меня есть содержимое в Box, и я хочу его проанализировать. Я использую обнаружение Watson для анализа и извлечения информации для меня. Позже я могу запросить обнаружение и получить необходимую информацию. Чтобы интегрировать Box с Discovery, необходимо выполнить некоторые предварительные условия. Предварительные условия указаны по ссылке ниже.

https://cloud.ibm.com/docs/discovery?topic=discovery-sources

Создание пользовательского приложения

В рамках предварительного условия нам нужно создать собственное приложение Box.

Для статьи я буду ссылаться на свою личную учетную запись Box. То же самое можно сделать с вашей корпоративной учетной записью, у которой есть доступ к источнику Box в вашей организации. Когда мы создаем приложение в Box, мы можем установить доступ на уровне приложения или доступ на уровне предприятия.

Примечание. Если у вас есть доступ на уровне предприятия, измененные документы сканируются во время обновления, а для уровня приложения он должен пройти процесс утверждения администратором (см. этапы процесса авторизации администратора).

Перейдите по ссылке ниже, чтобы создать пользовательское приложение

https://app.box.com/developers/console

Измените Application на Enterprise Access, включите дополнительные функции и сохраните изменения.

Необходимо создать открытые-закрытые ключи. Он запросит двухуровневую аутентификацию.

Пожалуйста, держите конфигурацию под рукой, она понадобится нам на следующих шагах.

Перейдите на вкладку «Общие настройки» и нажмите «Просмотреть и отправить». Это создаст запрос на проверку и отправит этот запрос администратору коробки. В моем случае я использую личную учетную запись и являюсь администратором, поэтому я буду получать почту на свой зарегистрированный адрес электронной почты.

Пожалуйста, следите за состоянием приложения (оно отключено).

Процесс проверки и утверждения администратором

Нажмите «Авторизовать» после просмотра.

(Обновите приложение Box Custom) После утверждения наблюдайте за изменением статуса. Теперь он включен.

Мы закончили создание приложения Box Custom.

Интеграция Box с Watson Discovery

Первым необходимым условием здесь является наличие облачной учетной записи IBM. Вы можете создать новую облачную учетную запись IBM, перейдя по ссылке ниже.

https://cloud.ibm.com/registration

Войдите в облачную учетную запись IBM, перейдите на страницу каталога, выберите «Искусственный интеллект/машинное обучение» в левой панели навигации в категории, выберите «Обнаружение» и создайте службу «Обнаружение».

Нажмите на свою службу обнаружения

Запустить службу обнаружения

Выберите Подключиться к источнику данных, чтобы подключиться к различным источникам данных.

Нажмите Box и заполните информацию о соединении. Необходимо разместить полный закрытый ключ (включая — — от начала ***** до КОНЕЦ ЗАШИФРОВАННОГО ЗАКРЫТОГО КЛЮЧА-----\n)

После успешного подключения Box нажмите Просмотреть содержимое.

Выберите папки и файлы, которые будут добавлены в обнаружение.

После нажатия кнопки «Сохранить и синхронизировать» файлы загружаются в обнаружение. Это займет некоторое время в зависимости от размера вашего контента. После завершения приема и обогащения вы можете просмотреть важную информацию, такую ​​как сущности, концепции и т. д.

Вы можете видеть, что файлы в папках Box были просканированы и загружены в Discovery.

Вы можете изменить настройки синхронизации в любое время после первоначального приема.

Вы можете запрашивать свой контент и искать результаты.

Содержимое файла PDF, полученного при обнаружении, которое отображается как результат на основе вашего запроса.

Примечание. Вы можете проанализировать содержимое таблицы и получить результаты, используя функцию SDU в Discovery. Кроме того, есть возможность отобразить полную таблицу как часть результата вашего запроса в предложении Cloud Pak for Data.