На предприятии у вас будет много файлов с большим количеством информации в различных форматах, таких как PPT, PDF, TXT и т. Д., Но их очень сложно найти быстро. когда это больше всего нужно. Допустим, даже если вы найдете файл, вам нужно будет просмотреть множество страниц, чтобы найти именно то, что вы искали. Также искать файлы в папках и просматривать их не так естественно, как разговаривать, не так ли? (Это будет иметь смысл по мере нашего продвижения)

Сегодня мы узнаем, как извлекать информацию, естественным образом обращаясь к куску файлов.

Для начала:

  1. Множество файлов (Если вы предприятие, оно у вас уже есть: D)
  2. Аккаунт AWS для использования Amazon Kendra

Для этой демонстрации у меня не хватило файлов, поэтому я их создал. Я взял много случайных слов и извлек связанные с ними данные из Википедии и сохранил их в отдельных текстовых файлах, используя приведенный ниже код (будет работать только на python 3)

Постановка задачи

Мы будем рассматривать извлеченные выше файлы как нашу группу файлов и попытаемся создать поисковую систему по этим файлам с помощью Amazon Kendra. Это высокоточная и простая в использовании служба поиска для предприятий, основанная на машинном обучении.

Шаги:

  1. Создать индекс
  2. Добавить источники данных
  3. Тестирование и развертывание

1. Создать индекс:

  • Дайте любое имя индекса, которое поможет вам распознать, какие данные присутствуют в этом индексе.
  • В IAM Role вы можете выбрать существующую роль или выбрать «создать новую роль».
  • Шифрование данных может различаться для всех, в этом случае я не выбираю вариант шифрования.
  • нажмите «Создать» после того, как вы закончите с вышеуказанными шагами. Создание индекса может занять до 30 минут.

2. Добавить источники данных:

Данные можно импортировать из корзины S3, SharePoint и Amazon RDS. Для нашей демонстрации я загрузил вики-файлы в корзину S3.

  • Нажмите "Добавить коннектор" под сегментом S3.
  • Дайте имя своему источнику данных
  • На следующем экране «просмотрите сегмент S3» и выберите сегмент, в котором находятся ваши файлы данных.
  • Мы выберем частоту «синхронизировать расписание выполнения» как «по запросу» для нашей демонстрации. Вы можете выбрать подходящий вариант в зависимости от вашего варианта использования.
  • И в конце выберите «создать».
  • После этого появится окно, показанное ниже. Нажмите «Синхронизировать сейчас», чтобы начать синхронизацию данных из S3 в Amazon Kendra.

3. Тестирование и развертывание:

Нажмите «Search Console» на панели инструментов, показанной ниже.

Мы можем начать с таких простых поисков:

Как видите, он может легко находить файлы, в которых есть слово «яблоко».

Давайте посмотрим, как поисковая система реагирует, когда мы задаем ему сложные запросы.

Как видно из приведенного выше результата, Amazon Kendra понимает вопросы на естественном языке и дает простой для понимания ответ.

Ценообразование:

Уровень бесплатного пользования:

Сервис обеспечивает бесплатное использование Developer Edition в течение 30 дней (скоро) с момента создания вашего первого индекса.

Таблица цен:

История клиента:

Когда материаловеды в 3M проводят новые исследования, им необходим доступ к информации из предшествующих актуальных исследований, которая скрыта во многих патентах, хранящихся в их огромной базе знаний. Поиск нужной информации часто бывает утомительным (но не исчерпывающим) и требует много времени. Чтобы разобраться с этой проблемой, они решили использовать Amazon Kendra.

Если вам понравился этот пост, пожалуйста, похлопайте по нему; подписывайтесь на меня, если хотите больше таких сообщений!