Документ Google: понимание искусственного интеллекта - особенности, скриншоты и варианты использования

Несколько недель назад мы объявили об открытии платформы Google Document Understanding AI (DUAI).

Если вы помните (или если вы не слышали), DUAI является потенциальным претендентом на существующие легальные технологии извлечения ИИ, включая Kira Systems, Seal, iManage Extrac t , Собственные технологии , Luminanc e , e-Brevia и т. д.

Все сотрудники используют комбинации технологий поиска, правил и машинного обучения для ускорения добычи и анализа данных из контрактов, как правило, для комплексной проверки и / или составления отчетов по контрактам.

Компания Google DUAI нацелена на эту сферу. Но подождите, это еще не все!

Из нашего предыдущего материала мы обнаружили видео-конференцию Google Cloud Next ’19, на которой демонстрируются:

позиционирование;
архитектура высокого уровня;
варианты использования, а также краткие демонстрации; и
отраслевой таргетинг.

Это 50-минутное видео, поэтому мы постарались обобщить то, что мы видели, о чем думали, и наше мнение о его возможном воздействии и использовании.

Остается много вопросов, но тем не менее это тизер будущего!

01. Позиционирование

Неудивительно, что позиционирование DUAI заключается в превращении неструктурированных данных в структурированные внутри предприятия.

Это следует за хорошо проторенным повествованием, принятым игроками в этой сфере.

Под этим мы подразумеваем это повествование:

на предприятии огромные объемы неструктурированных данных, обычно 80% данных предприятия = неструктурированные (см. наш отрывок, объясняющий разницу между неструктурированными и структурированными данными и почему это важно);
неструктурированные данные растут экспоненциально;
внутри этих неструктурированных данных заперта большая часть ценности, значительную часть которой составляют контракты и тому подобное;
поскольку он неструктурирован, предприятие не может эффективно получать доступ к этому контенту или анализировать его;
в результате тратится огромное количество времени и денег вручную на преобразование неструктурированных данных в структурированные; и
когда ваш бизнес зависит от своих контрактов (т.е.кто должен делать что, когда, как и с кем и почему), невозможность идентифицировать и применять эту информацию в режиме реального времени приводит к упущенной выручке, штрафам или другим обязательствам!

Вернемся к практикам.

На практике Google говорит, что DUAI - это извлечение и классификация ключевых данных из неструктурированного контента, использование этого для автоматизации рабочих процессов и получения информации с помощью поиска и аналитики.

Или проще:

Google продолжает объяснять, что это стало возможным благодаря их гибкой Сети знаний, позволяющей тематически схожие варианты использования в разных отраслевых вертикалях:

Как мы отмечали в нашей предыдущей статье, этот рекламный текст / позиционирование очень похож на аналогичные материалы традиционных операторов. Это неудивительно, учитывая огромную и универсальную задачу, связанную с управлением неструктурированными данными и их осмыслением.

Из этого следует, что стратегия Google сводится к следующему:

«Мы поставляем кирпичи и инструменты, вы предоставляете рабочую силу и строите дом»

Другими словами, это гибкий набор инструментов для настройки пользователями, а не узко сфокусированный набор конкретных решений.

02. Архитектура

В начале презентации Google представлена диаграмма архитектуры решения высокого уровня для DUAI.

Как предполагалось в нашей предыдущей статье, несколько компонентов заимствованы из существующих приложений машинного обучения и поиска Google, компоненты в настоящее время доступны через Google Cloud Platform («GCP«):

Также предлагаются комбинации этих инструментов для реализации многих из тех же возможностей, что и в существующих продуктах.

Например:

OCR (оптическое распознавание символов)
классификация документов с одной / несколькими этикетками
извлечение объекта
построение графиков знаний
семантический поиск
запросы на естественном языке
потребление общих типов файлов, например типичные корпоративные форматы файлов, такие как Word, PDF и т. д.

Самая интересная особенность - это функция Q&A на естественном языке. Эта функция не нова для Legaltech. Например, существующие инструменты для обнаружения электронных данных и исследования включают такие функции, например Lexis Answers.

Однако… этот тип функции редко реализуется или выполняется хорошо с помощью существующих продуктов для проверки контрактов. По иронии судьбы многие пользователи предполагают, что существующие продукты для обзора контрактов имеют эту функцию, в частности, ее детализированные результаты, т. е. конкретную информацию в ответ на конкретные вопросы, а не просто возвращаемые пункты, которые могут содержать конкретные интересующая информация.

Краткая демонстрация этой функции (см. Конец статьи) выглядела впечатляюще и потенциально имеет большое применение для комплексной проверки, поиска и управления знаниями в юридическом контексте, как предполагают последующие примеры использования Iron Mountain.

Итак, о вариантах использования. Однако обратите внимание, что мы не суммировали все варианты использования в видео, а только наиболее актуальные с точки зрения закона в плане их сравнения с существующими легальными приложениями для извлечения искусственного интеллекта. Точно так же мы разделили варианты использования на две большие категории:

Варианты использования Iron Mountain (поскольку они идут вместе); и
Варианты использования, отличные от Iron Mountain.

Сначала мы перейдем к последнему!

03. Случаи использования горных пород, не связанных с железом

Пример использования 01: Википедия + DUAI = Управление знаниями

Базовая база данных по управлению знаниями, включающая 48 документов Википедии по различным темам.

Суть демонстрации показывает поиск на естественном языке и ответы, очень похожие на те, что доступны через поиск Google в Интернете.

Доступны три категории ответа на поисковый запрос:

01. Соответствие ключевых слов

Довольно простой, но имеет свое предназначение - например, поиск определенной фразы в контракте, например «Разрешенная транзакция». Ничего удивительного, но необходимо.

02. Семантическое соответствие

Ответы соответствуют значению запроса, а не только ключевым словам. В демонстрации показано, как это дает ответ на запрос «самый первый паровой двигатель» (ответ - 1712 - см. Первый снимок экрана ниже).

При этом он также включает ссылку на предложение в базовом документе, которое дает ответ на этот вопрос:

Интересно, что этот тип функции (привязка извлеченного ответа к исходному материалу) является общим для всех существующих инструментов извлечения контрактов на основе ИИ.

На вопрос о семантически сбивающем с толку вопросе - «Доктор Кто является человеком» - семантический поиск по-прежнему может дать содержательный ответ, то есть краткое описание, объясняющее кто такой Доктор Кто:

03. Ответ на вопрос

Также показана возможность задавать вопросы на естественном языке, такие как «Сколько было серий« Доктора Кто »» и «Когда Доктор Кто впервые воздух ».

Система с легкостью отвечает на эти вопросы (863 и 1963 в 17:16 на BBC соответственно), исходя из данных в документах.

Этот тип поиска может быть очень эффективным в юридическом контексте, например чтобы ответить на такой вопрос, как «Когда прекращается действие контракта». Однако часто ответные данные в контракте могут быть менее ясными, чем факт за фактом, статья в Википедии, например положение о расторжении, выраженное как обусловленное некоторой другой информацией, расположенной в другом месте документа, а не конкретной датой расторжения, не является редкостью для большинства контрактов.

Что нам понравилось

Поиск по типу «Googley» в контексте корпоративного управления юридическими знаниями всегда популярен. Некоторые из действующих поставщиков юридических услуг уже предоставляют что-то похожее на то, что показано в демонстрации, хотя и не столько на вопросы и ответы и функцию семантического сопоставления. Тем не менее, инструменты для обнаружения электронных данных и юридических исследований в разной степени обладают такими возможностями для вопросов и ответов.

Однако, если этот тип приложения можно использовать для запроса данных контракта для проведения комплексной проверки или своевременного поиска знаний (например, во время переговоров, когда требуется конкретный язык, но его местонахождение неизвестно), то оно может быть очень полезным - особенно вопросы и ответы. особенность.

Представьте себе возможность задать подмножеству документов такой вопрос, как «какова сумма обязательной предоплаты», и получить значения для каждого документа!

На самом деле, как мы объясним ниже, Iron Mountain заключила партнерское соглашение с DUAI именно для этого.

Что мы хотели бы знать

Это была довольно ограниченная демонстрация, поэтому было много неизвестного. Главный вопрос заключается в том, насколько легко / быстро было бы создать и масштабировать нечто подобное в рамках системы управления документами юридической организации и других систем? Учитывая, что все это облако и юридические фирмы сопротивляются внедрению облака (отчасти потому, что у клиентов разные облачные политики), хотя и улучшается, станет ли это препятствием для действительно преобразующего использования в краткосрочной и среднесрочной перспективе?

В более общем плане, не получая дополнительных сведений, мы бы задались вопросом, насколько это имеет преимущество перед существующими поставщиками поиска в юридическом пространстве, будь то поиск на предприятии, обнаружение электронных данных или инструменты онлайн-исследования. В этих областях доминирующие операторы, вероятно, сохранят свое преимущество… пока.

Пример использования 02: DocuSign + DUAI = автоматическая пометка полей

В духе движения Legaltech #bringbackboring, это скучно, но здорово сэкономит время!

При использовании DocuSign для организации подписания контракта шаги по умолчанию включают:

загрузка финальной версии контракта
вручную пометить части документа, в которые DocuSign должен вставлять редактируемые поля, например имя и адрес подписывающей стороны; и
ручная пометка исполняемых полей, например строка подписи, в которую пользователи DocuSign могут поставить свою электронную подпись.

После этого документ становится DocuSignable. Вместо этого мы видели, что DUAI используется для автоматизации этой маркировки, то есть шаги (2) и (3) выше.

Что нам понравилось

DocuSign в сочетании с DUAI автоматически идентифицирует и помечает эти общие поля, устраняя около 12–20 щелчков мышью, т. Е. Щелчков, необходимых для выбора типа и расположения каждого поля. Для простого документа, подобного показанному в демонстрации, соглашение о неразглашении информации может показаться обманчиво тривиальным. В этом случае экономия времени, вероятно, составляет две трети.

Однако для сложного кредитного соглашения в стиле LMA с количеством подписчиков от 10 до 20 или около того с 50+ отдельными сторонами такая автоматическая пометка необходимых полей Docusign могла бы значительно сэкономить время по сравнению с тем, что DocuSign в настоящее время предоставляет.

В этом типе сценария использования экономия, вероятно, превышает две трети, т. е. поскольку шаги (2) и (3), описанные выше, для этого типа сценария использования будут составлять более двух третей время, потраченное на настройку подписи DocuSign.

Тем не менее, они по-прежнему проявляют некоторое сопротивление рынка к таким важным соглашениям DocuSign. Отчасти потому, что:

эти типы транзакций относятся к разным юрисдикциям;
законы, касающиеся электронной подписи, в каждой юрисдикции различаются по требованиям и ясности;
от юридических фирм обычно требуется предоставить заключение, подтверждающее, что документ был подписан каждой стороной и имеет обязательную юридическую силу; и
поэтому сочетание (1) и (2) затрудняет выполнение (3) на практике для крупных юридических фирм.

Тем не менее, для любых других обстоятельств это могло быть скучным, но большим спасением времени. По мере того, как рынок в целом движется к электронной подписи, эта экономия времени только возрастет!

Что мы хотели бы знать

Ничего спорного или новаторского, так что не о чем спрашивать, кроме того, будет ли это новой функцией в DocuSign? Если да, то фантастика, и когда пользователи смогут ее получить?

Пример использования 03: UiPath / Taulia + DUAI = автоматическая обработка счетов

Автоматическая идентификация и извлечение полей данных из счетов-фактур, содержащих табличные данные, которые затем передаются в последующие рабочие процессы.

Они были разработаны с помощью платформы автоматизации UiPath и платформы обработки платежей Taulia. Ниже показана архитектура решения высокого уровня для установки Taulia:

Что нам понравилось

Этот вариант использования хорошо известен действующим игрокам в области проверки контрактов ИИ. Однако большие различия в макете и представлении счетов-фактур и аналогичных документов - например, учетные записи - сделайте этот вариант использования заведомо сложным.

Трудно создать надежное универсальное решение, которое может не только извлекать, но и нормализовать подобные данные из разных табличных представлений, то есть идентифицировать разные описания одной и той же позиции и признавать их семантически эквивалентные.

Что мы хотели бы знать

Объяснение здесь немного скудное. Таким образом, сложно оценить общую картину и конечную полезность. Тем не менее он предполагает, что DUAI может автоматизировать извлечение ключевых данных из счетов (включая сканированные копии) для заполнения последующих отчетов или инструментов автоматизации рабочего процесса. Но, как мы отмечали выше, масштабировать это непросто из-за различий в макетах таблиц.

Тем не менее, это может быть огромным преимуществом для пользователей DUAI. Почему?

растут попытки объединить стандарты бухгалтерского учета / отчетности с цифровыми форматами отчетности (например, XBRL), т.е. уменьшить / устранить проблему работы с неструктурированными данными, такими как сканированные PDF-файлы счетов и счетов-фактур;
обработка счетов и счетов-фактур - это большой бизнес, и часто без необходимости ручное управление без повсеместного внедрения (1); и
возросшие потребности в стандартизированной нормативной отчетности в сфере финансовых услуг могут сделать этот вариант использования более масштабным и, следовательно, чрезвычайно ценным для Google и его клиентов DUAI в ближайшие годы.

04. Примеры использования Iron Mountain

Во-первых, кто такие Iron Mountain («IM»)?

IM предоставляет решения для управления записями, резервного копирования и восстановления данных, управления документами, безопасного измельчения и центров обработки данных. Многие юридические фирмы и клиенты юридических фирм используют IM для этих нужд с учетом нормативных и договорных требований к хранению юридических и финансовых рабочих продуктов и сопутствующих данных.

Во-вторых, что IM сделал с DUAI?

Компания IM использовала GCP + DUAI (DUAI входит в бизнес GCP) для создания Платформы интеллектуальных контентных служб (ICSP).

В отличие от предыдущих вариантов использования, нужно было усвоить гораздо больше информации. В результате мы будем использовать несколько иной подход к этим вариантам использования.

В-третьих, что такое ICSP IM?

ICSP IM состоит из трех основных уровней:

конвейер приема;
слой обогащения данных; и
набор средств просмотра для пользователя, предназначенный для анализа, поиска, автоматизации информационных рабочих процессов и общего управления данными.

Другими словами, это похоже на специально созданную платформу обработки неструктурированных данных:

Вдобавок к этому, похоже, что IM создали точечные решения для удовлетворения конкретных потребностей IM-клиентов.

IM сформулировал их с помощью нескольких сценариев использования. Наиболее актуальными для Legaltech были следующие варианты использования:

Ипотека RPA;
GDPR; и
Contract Intelligence.

Пример использования 01: ипотечная RPA

Обработка заявок на ипотеку (т.е. получает ли X ипотечный кредит или нет на основании их документов) остается в основном ручным процессом. Несмотря на растущую оцифровку сбора и обработки данных в этой области, многое остается бумажным.

Неудивительно, что это еще один вариант использования, популярный среди существующих поставщиков извлечения контрактов на ИИ.

Компания IM использовала DUAI для автоматизации ответов на два основных вопроса, необходимых для обработки заявки на ипотеку:

Заявка заполнена?
Приложение точное?

Чтобы понять (1), DUAI классифицирует документы для определения их типа, а затем подтверждает, соответствуют ли количество и тип документов тем, которые требуются для заполненной заявки на ипотеку.

Чтобы ответить на (2), система смотрит:

внутри каждого документа, чтобы подтвердить основные сведения, касающиеся точности, например имена, номера социального страхования, наличие или отсутствие подписей или штампов и т. д .; и
затем по документам, составляющим ипотечную заявку, для перекрестной проверки, все ли согласовано и, в зависимости от результатов, упорядочивается в соответствующий последующий процесс RPA.

Больше всего поражает рентабельность инвестиций. IM утверждает, что использование DUAI в их ICSP сократило первоначальный трудоемкий процесс с 3-5 дней до 5-8 часов.

Как показано на диаграмме ниже, экономия - это исключение нескольких уровней человеческого взаимодействия из общего рабочего процесса.

Ниже показано параллельное сравнение процессов до и после:

Пример использования 02: соответствие GDPR

Как и выше в отношении ипотечной RPA, это тоже было еще одной областью интереса для продавцов и покупателей в области извлечения контрактов на основе ИИ.

Возможность лазерной обработки информации, относящейся к GDPR, на предприятии требует чрезмерно много времени и затрат без технологического решения. Это тот случай, когда вам нужно заранее понимать, что вы можете и чего не можете делать с информацией согласно GDPR, или вам нужно реагировать на запрос доступа к данным.

Для этого DUAI использовался для распознавания текста, классификации и извлечения ключевого контента из документов и сопоставления его с соответствующими политиками, чтобы гарантировать их соответствие GDPR.

К сожалению, помимо этого широкого заявления в презентации не было представлено много подробностей. Таким образом, особо нечего сказать, за исключением того, что это еще одно свидетельство того, что DUAI обращается к типу клиентов, уже привлеченных к действующим игрокам по добыче контрактов на ИИ, и, естественно, также к поставщикам решений, специфичных для GDPR.

Пример использования 03: Iron Mountain Insight для разведки контрактов

IM также использовала DUAI для обработки контрактов и обеспечения возможности поиска по ним с помощью запросов на естественном языке и классификации на уровне документа и предложения. Опять же, ничего удивительного в этом выборе варианта использования. Что удивительно, так это предполагаемый уровень детализации поиска, который IM смог произвести с помощью DUAI.

Большинство легальных пользователей хотят, но не имеют, систему, чтобы отвечать на такие вопросы, как «Покажите мне все контракты с условиями оплаты более 30 дней».

Наличие своевременной информации устранит множество проблем, связанных с юридическими услугами и операциями, в том числе:

Комплексная проверка: обнаружение всех контрактов, срок действия которых истекает в течение 1 года.
Переговоры: нахождение последнего номера X документов с пунктом Y, где другой юридической фирмой была Z.
Составление: поиск всех примеров похожих документов или статей, предназначенных для определенной цели и / или клиента.

В презентации IM говорится о том, что они создали с помощью DUAI:

Углубляясь в подробности, IM представил интерфейс на базе DUAI, позволяющий одним щелчком мыши найти все контракты для клиента X:

Более того, за 3 клика IM может найти все контракты со сроком оплаты 90 дней, которые можно разделить на кусочки по клиенту и типу документа.

Эта же информация также извлекается как метаданные документа в левой части скриншота ниже:

В комментарии также подчеркивается использование вышеуказанного в контексте M&A, например: для запроса комнаты данных с использованием естественного языка и / или фильтров по ключевым извлеченным объектам, чтобы найти все контракты с ограничением ответственности выше X.

Единственным недостатком является ограниченная подробная информация о как. В частности, сколько из этого готово к работе по умолчанию или требует большого количества настроек и настроек для создания пользовательских извлечений сущностей и тому подобного? Какой уровень обучения и что требуется для создания чего-то подобного, в частности, извлечения настраиваемых сущностей? Насколько вероятно, что организации обладают этими наборами навыков, если их не используют в процессе сборки инженеры по решениям Google?

05. Google IP + DUAI = Patent Mining.

Это было приложение, созданное Google через DUAI. Это решение OCR использует патенты, использует NLP для определения соответствующих категорий, извлекает связанные с патентами сущности и разбивает диаграммы, сохраняя расширенные данные в базе данных с возможностью поиска:

Извлеченные объекты включают:

Дата публикации
Классификация
Номер заявления
Заявитель
Изобретатель
Первая строка названия патента

Что касается категоризации данных НЛП, докладчик заявляет, что для достижения высокой точности 99–100% и отзыва требуется около 500 патентов.

Это не сногсшибательно, но, возможно, основные патентные реестры могли бы использовать это для улучшения своих услуг.

Точно так же, может ли это Регистрационная палата или Земельный кадастр использовать для предоставления более качественных услуг пользователям с точки зрения поиска, а также глубины и широты возможностей запросов?

06. Заключение

В целом, некоторые интересные идеи, но мало содержательных подробностей о том, как. Как неудивительно, так и интересно, каковы варианты использования и позиционирование DUAI. В каждом случае они точно отражают действующих поставщиков извлечения контрактов на ИИ.

Сценарии использования сосредоточены на извлечении и классификации данных внутри и внутри документа до уровня пункта и объекта для создания доступных для поиска баз данных для ускорения комплексной проверки, аналитики, поиска и общего управления знаниями. Точно так же общее позиционирование, естественно, связано с преобразованием неструктурированных данных в структурированные.

Наиболее интересными были варианты использования IM, в основном из-за ограниченного количества снимков экрана, дающих скрытую картину того, как DUAI может выглядеть с точки зрения взаимодействия с конечным пользователем.

В другом смысле было любопытно, что ни один из вариантов использования не выглядел особенно похожим по исполнению на интерфейсы существующих поставщиков извлечения контрактов на основе ИИ, то есть двух оконное представление с документом на одной стороне и извлеченными объектами на другой. Например, приведенный ниже снимок экрана с веб-сайта iManage Extract, который достаточно хорошо иллюстрирует пользовательские интерфейсы существующих инструментов извлечения контрактов:

Будет интересно посмотреть, использует ли кто-нибудь DUAI для клонирования существующих продуктов, либо для собственных нужд, либо для создания white label полученного приложения для своих клиентов. Время покажет.

Надеемся, вам понравился разбор. Как и прежде, многое остается неизвестным и, несомненно, станет более ясным по мере открытия доступа к DUAI (на данный момент бета-версия с ограниченным доступом), и организации начнут экспериментировать и публиковать варианты использования.

Если вы хотите просмотреть видео, посмотрите его ниже. Это 50 минут, так что приготовьте себе чашку кофе, расслабьтесь, расслабьтесь и наслаждайтесь!

Https://www.youtube.com/watch?v=7dtl650D0y0

Первоначально опубликовано на https://lawtomated.com 18 апреля 2019 г.

Документ Google: понимание искусственного интеллекта - особенности, скриншоты и варианты использования

01. Позиционирование

02. Архитектура

03. Случаи использования горных пород, не связанных с железом

Пример использования 01: Википедия + DUAI = Управление знаниями

Пример использования 02: DocuSign + DUAI = автоматическая пометка полей

Пример использования 03: UiPath / Taulia + DUAI = автоматическая обработка счетов

04. Примеры использования Iron Mountain

Во-первых, кто такие Iron Mountain («IM»)?

Во-вторых, что IM сделал с DUAI?

В-третьих, что такое ICSP IM?

Пример использования 01: ипотечная RPA

Пример использования 02: соответствие GDPR

Пример использования 03: Iron Mountain Insight для разведки контрактов

05. Google IP + DUAI = Patent Mining.

06. Заключение

Вопросы по теме