Гостевой пост Стивен Боулс, вице-президент по глобальным альянсам Ephesoft

Насколько ценным является содержание документа? Большинство организаций не могут ответить на этот вопрос. Почему? Этот тип контента обычно существует в неструктурированном состоянии. У них могут быть фрагменты того, что содержится в их документах, но большинству компаний не хватает четырех отдельных элементов, которые делают контент по-настоящему ценным: Классификация, метаданные, возможность поиска и корреляция.

Понимание и доступность документов важны, потому что информация может содержать представление о клиентах, услугах, тенденциях, рисках и возможностях. Чтобы извлечь максимальную пользу из любого документа, все четыре должны быть доступны организации, и должна существовать единая унифицированная технология катализатора, чтобы раскрыть их все. Ниже приведен краткий обзор каждого элемента.

Классификация

Классификация, или категоризация, отвечает на самый основной вопрос о ценности контента: «Что это?» Когда я знаю тип документа, я знаю, как применять меры безопасности, как устанавливать графики хранения, какие рабочие процессы могут быть применимы и их общая важность для бизнеса. Что еще более важно, теперь я могу добавлять дополнительные элементы ценности. Для контракта знание даты истечения срока и условий чрезвычайно важно для бизнеса. Этот тип наслоения элементов ценности может помочь организации максимизировать использование данных документа и увеличить влияние контента на бизнес.

Метаданные

Атрибуты (метаданные) - ключевые извлекаемые данные, определяющие документ на более глубоком уровне, могут быть чрезвычайно ценными. Наличие метаданных, относящихся к типу документа, увеличивает это значение. Есть предостережение: эти атрибуты должны быть полными и всеобъемлющими. Например, если у вас есть метаданные поставщика только по половине счетов-фактур, данные практически бесполезны. Что еще более важно, информация должна быть точной и проверенной. Неправильный номер счета хуже, чем его полное отсутствие. Точные метаданные о документе определяют контекст, а также облегчают выполнение основных бизнес-функций, связанных с контентом:

· Где хранить документ

· Правила безопасности

· Поиск по метаданным

· Рабочий процесс

· Бизнес-правила и действия

· Сертификаты и маршрутизация

· Соблюдение нормативных требований и корпоративное управление

Возможность поиска

Обеспечение полной доступности документа для поиска гарантирует, что нужный пользователь сможет найти его в нужное время. Наличие 30 000 отсканированных PDF-файлов с вашего копировального аппарата в репозитории контент-сервисов может быть хорошим первым шагом, но если вы не можете выполнить поиск по контенту, ценность значительно снизится. Однако возможность поиска - не единственный фактор, влияющий на ценность контента. Этот элемент в сочетании с другими создает мощный эффект умножения ценности. Одно замечание: мы обычно связываем этот элемент только с возможностью поиска по чистому тексту, что связано с использованием человеком. Современные платформы создают формат, который также предоставляет расширенные возможности для приложений и разработчиков. После преобразования документа с помощью усовершенствованного механизма захвата документов он выходит за рамки обычного текста и содержит аналитический отпечаток размеров для широкого и обширного использования на компьютере.

Корреляция

На высшем ценностном уровне элементов содержания находится корреляция. Корреляция - это связь через структурированные данные, которая связывает содержимое документа вместе: цифровые хлебные крошки. Это может быть самый сложный и ручной процесс, который организация предпримет (без правильной технологии). Ключевые шаги, которые необходимо выполнить, чтобы облегчить корреляцию:

1. Определение модели классификации и извлечения.

2. Переход от неструктурированного к структурированному.

3. Отображение взаимосвязей документов.

4. Перенести в подходящий инструмент визуализации.

Таким образом, значение корреляции зависит от всех вышеперечисленных элементов. Пример? Компания, которая занимается обнаружением GDPR и хочет видеть все документы, связанные с первоначальным банковским приложением. В качестве альтернативы, нефтегазовое предприятие, у которого есть отказ скважины, и которое хочет увидеть все документы, относящиеся к установке и проверкам безопасности неисправного компонента.

Теперь, когда мы знаем об этих четырех элементах ценности, возникает вопрос: «Как нам разработать стратегию, чтобы раскрыть максимальную ценность содержимого нашего документа?»

Об авторе:

Стивен Боулс - вице-президент по глобальным альянсам компании Ephesoft, производителя интеллектуальной технологии захвата на частной или публичной облачной платформе, которая извлекает смысл из неструктурированного контента. Для получения дополнительной информации посетите www.ephesoft.com.