Анализ неструктурированных данных — Анализируйте файлы в Box
Что такое бокс?
Box — это облачный сервис управления контентом и обмена файлами. Он обеспечивает безопасную совместную работу с кем угодно, где угодно и на любом устройстве.
Постановка задачи
Организация использует Box для хранения данных в файлах. Это один из лучших способов совместной работы и обмена контентом с командой или всей организацией. Как только информация будет сохранена в файлах Box, у бизнеса возникнет потребность в извлечении информации из файлов Box.
Как решить эту проблему?
Один из самых простых способов — интегрировать Box с Watson Discovery, и Discovery проведет анализ за вас.
Посмотрим, как этого можно добиться…..
В предыдущей статье я упоминал об анализе выборочного содержимого из Интернета. В этой статье мы подключим источник данных Box и проанализируем содержимое. Box может содержать папки и файлы, и мы будем извлекать информацию из неструктурированных данных, хранящихся в файлах.
Для подключения к источнику Box нам, во-первых, нужен правильный доступ к Box. Получив доступ, мы можем создавать папки и файлы. Если у вас нет учетной записи Box, вы можете перейти по ссылке ниже и зарегистрироваться, чтобы создать свою личную учетную запись Box (ссылка для регистрации → вкладка «Индивидуальные планы» — бесплатно/другой вариант). Войдите в учетную запись и создайте папку/файлы, как показано на скриншоте ниже.
У меня есть содержимое в Box, и я хочу его проанализировать. Я использую обнаружение Watson для анализа и извлечения информации для меня. Позже я могу запросить обнаружение и получить необходимую информацию. Чтобы интегрировать Box с Discovery, необходимо выполнить некоторые предварительные условия. Предварительные условия указаны по ссылке ниже.
https://cloud.ibm.com/docs/discovery?topic=discovery-sources
Создание пользовательского приложения
В рамках предварительного условия нам нужно создать собственное приложение Box.
Для статьи я буду ссылаться на свою личную учетную запись Box. То же самое можно сделать с вашей корпоративной учетной записью, у которой есть доступ к источнику Box в вашей организации. Когда мы создаем приложение в Box, мы можем установить доступ на уровне приложения или доступ на уровне предприятия.
Примечание. Если у вас есть доступ на уровне предприятия, измененные документы сканируются во время обновления, а для уровня приложения он должен пройти процесс утверждения администратором (см. этапы процесса авторизации администратора).
Перейдите по ссылке ниже, чтобы создать пользовательское приложение
https://app.box.com/developers/console
Измените Application на Enterprise Access, включите дополнительные функции и сохраните изменения.
Необходимо создать открытые-закрытые ключи. Он запросит двухуровневую аутентификацию.
Пожалуйста, держите конфигурацию под рукой, она понадобится нам на следующих шагах.
Перейдите на вкладку «Общие настройки» и нажмите «Просмотреть и отправить». Это создаст запрос на проверку и отправит этот запрос администратору коробки. В моем случае я использую личную учетную запись и являюсь администратором, поэтому я буду получать почту на свой зарегистрированный адрес электронной почты.
Пожалуйста, следите за состоянием приложения (оно отключено).
Процесс проверки и утверждения администратором
Нажмите «Авторизовать» после просмотра.
(Обновите приложение Box Custom) После утверждения наблюдайте за изменением статуса. Теперь он включен.
Мы закончили создание приложения Box Custom.
Интеграция Box с Watson Discovery
Первым необходимым условием здесь является наличие облачной учетной записи IBM. Вы можете создать новую облачную учетную запись IBM, перейдя по ссылке ниже.
https://cloud.ibm.com/registration
Войдите в облачную учетную запись IBM, перейдите на страницу каталога, выберите «Искусственный интеллект/машинное обучение» в левой панели навигации в категории, выберите «Обнаружение» и создайте службу «Обнаружение».
Нажмите на свою службу обнаружения
Запустить службу обнаружения
Выберите Подключиться к источнику данных, чтобы подключиться к различным источникам данных.
Нажмите Box и заполните информацию о соединении. Необходимо разместить полный закрытый ключ (включая — — от начала ***** до КОНЕЦ ЗАШИФРОВАННОГО ЗАКРЫТОГО КЛЮЧА-----\n)
После успешного подключения Box нажмите Просмотреть содержимое.
Выберите папки и файлы, которые будут добавлены в обнаружение.
После нажатия кнопки «Сохранить и синхронизировать» файлы загружаются в обнаружение. Это займет некоторое время в зависимости от размера вашего контента. После завершения приема и обогащения вы можете просмотреть важную информацию, такую как сущности, концепции и т. д.
Вы можете видеть, что файлы в папках Box были просканированы и загружены в Discovery.
Вы можете изменить настройки синхронизации в любое время после первоначального приема.
Вы можете запрашивать свой контент и искать результаты.
Содержимое файла PDF, полученного при обнаружении, которое отображается как результат на основе вашего запроса.
Примечание. Вы можете проанализировать содержимое таблицы и получить результаты, используя функцию SDU в Discovery. Кроме того, есть возможность отобразить полную таблицу как часть результата вашего запроса в предложении Cloud Pak for Data.